jezik in računalniki

26
Jezik in računalniki Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010

Upload: pilar

Post on 14-Jan-2016

60 views

Category:

Documents


0 download

DESCRIPTION

Jezik in računalniki. Tomaž Erjavec Osnove računalništva za jezikoslovce UNG 2009/2010 19.4.2010. Nekaj besed o meni. Tomaž Erjavec Odsek za tehnologije znanja Institut “ Jožef Stefan ” Ljubljana http://nl.ijs.si/et/ [email protected] jezikovne tehnologije - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Jezik in računalniki

Jezik in računalniki

Tomaž Erjavec

Osnove računalništva za jezikoslovceUNG 2009/2010

19.4.2010

Page 2: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Nekaj besed o meni

Tomaž ErjavecOdsek za tehnologije znanjaInstitut “Jožef Stefan”Ljubljana

http://nl.ijs.si/et/ [email protected] jezikovne tehnologije

izdelava korpusov in drugih jezikovnih virov, predvsem za slovenski jezik

digitalne knjižnice

Page 3: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

I. Vsebina predmeta

Predavanji: 1. pregled področja2. korpusno jezikoslovje

Page 4: Jezik in računalniki

Kje se srečujemo z obdelavo besedil na računalnikih?

pisanje, oblikovanje besedil: Word, Besana

iskanje po spletu: Google, Najdi.si strojno prevajanje: Google translate, Presis sinteza / analiza govora: AT&T, Govorec odgovarjanje na vprašanja: NSIR dialoški sistemi: Klepec samopovzemanje dokumentov, rudarjenje besedil,

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Page 5: Jezik in računalniki

Uporaba v jezikoslovju

pomoč pri prevajanju pomoč pri slovaropisju pomoč pri raziskovanju jezika

Potrebujemo korpuse, t.j. velike zbirke besedil shranjenih na računalniku

(predavanje naslednjič)Korpusno jezikoslovje in jezikovne tehnologije

Univerza v Novi Gorici, 2009/2010

Page 6: Jezik in računalniki

Jezikovni viri za slovenski jezik na internetu

Inštitut za slovenski jezik Frana Ramovša ZRC SAZU:o http://bos.zrc-sazu.si/ Slovar slovenskega knjižnega jezika Slovenski pravopis 2001 Besede slovenskega jezika

in razni korpusi…

Page 7: Jezik in računalniki

Računalniška obdelava naravnega jezika

računalniško jezikoslovje oz. računalniška obdelava naravnega jezika veja računalništva, ki se navezuje na jezikoslovje cilj: računalniško modeliranje in procesiranje

naravnega jezika

jezikovne tehnologije cilj: razvoj konkretnih jezikovnih virov in orodij

(korpusi, slovarji / črkovalniki, prevajalniki)

Page 8: Jezik in računalniki

Jezik in računalnik

Kako računalnik “razume” jezik? Jezikovne komponente v urejevalniku

besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov

Kaj je beseda, kaj je stavek? vsi podatki so za računalnik najprej nizi znakov besede so med seboj ločene s presledki besede so med seboj ločene s presledki ali ločili besede so med seboj ločene s presledkom ali ločilom in

presledkom javno- in zasebnopravni vidiki, itd., $4.000.000

Page 9: Jezik in računalniki

Iskanje

Zanimajo me avtomobilska podjetja. Bomo iskali avtomobilska podjetja, avtomobilsko

podjetje? Če me zanimajo še zadetki v angleščini:

automobile companies, automobile company

X zadetkov Y zadetkov

Page 10: Jezik in računalniki

Iskanje

Zanimajo me avtomobilska podjetja. Bomo iskali avtomobilska podjetja, avtomobilsko

podjetje? Če me zanimajo še zadetki v angleščini:

automobile companies, automobile company

X zadetkov Y zadetkov

Page 11: Jezik in računalniki

Iskanje z Googlom

aavtomobilsko podjetjevtomobilsko podjetje 573573avtomobilska podjetjaavtomobilska podjetja 835835avtomobilska firmaavtomobilska firma 43 43avtomobilske firmeavtomobilske firme 107107avtopodjetjeavtopodjetje 4 4zastopnik avtomobilovzastopnik avtomobilov 807807prodajalec avtomobilovprodajalec avtomobilov 407407avtoprodajaavtoprodaja 507507zastopstvo avtomobilov zastopstvo avtomobilov 405405

Page 12: Jezik in računalniki

Oblika proti pomenu

Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede?

zdravljenje anoreksije

zdravljenjezdravljenjazdravljenjuterapijaterapevtski ukrepiterapije...

anoreksijaanoreksijeanoreksičnostmotnje hranjenjaprehranjevalne motnjeodklanjanje hrane...

Page 13: Jezik in računalniki

Problemi

Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje.

Še posebej: večpomenskost: mnoge besede imajo več

pomenov parafraze: mnoge vsebine je mogoče izraziti na

več načinov nedoločenost: mnoga jezikovna sredstva imajo

nedoločen pomen, ki ga razberemo šele iz sobesedila

Page 14: Jezik in računalniki

Razsežnosti problema

Obseg jezikovnih podatkov

Globina analize

Področje

Oblikoslovje

Skladnja

Pomenoslovje

Pragmatika

Obdelava znanja

Razpoznavanje besed

Mnoge aplikacije zahtevajo le nizko raven analize.

Page 15: Jezik in računalniki

Strukturalistični in empirični vidiki jezikoslovja

Strukturalistični pristop: Jezik je omejen in urejen sistem, ki temelji na pravilih. Avtomatska obdelava jezika je mogoča s pomočjo pravil. Pravila se oblikuje v skladu s človeško jezikovno intuicijo.

Empirični pristop: Jezik je vsota vseh svojih udejanjanj (v govorjenih in

pisnih besedilih) Posplošitve o jeziku so mogoče le na podlagi velikih

besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi

Strojno učenje (Machine Learning): programi se naučijo modela jezika iz podatkov

Page 16: Jezik in računalniki

Jezikovne tehnologije: Raziskovalna področja

Oblikoslovje: besednovrstno oz. oblikoskladenjsko označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed

Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza

Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi

Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij)

Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje

Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki

Page 17: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Kaj je korpus?

obsežna zbirka besedil jezik v resnični in sodobni podobi v elektronski obliki reprezentativnost za jezik, ki naj bi ga

predstavljali → vzorec služi za opisovanje jezika

(deskriptivno/empirično jezikoslovje)

Page 18: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Zakaj potrebujemo korpuse?

• izdelava slovarjev in drugih jezikovnih virov(tudi nadomestek za slovar)

• izdelava slovnic in drugih opisov jezikovne strukture

• razvoj pripomočkov za prevajanje• izdelava pripomočkov za učenje jezika• raziskovanje vseh oblik jezikovnega vedenja• jezikovne tehnologije

Page 19: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Kako uporabljamo korpuse?

• besedni seznami:Katere besede so v korpusu? V posameznem besedilu? Katere izstopajo po pogostosti uporabe?

• konkordance (opazovanje besed skupaj s sobesedilom): kako so besede uporabljene? kaj torej pomenijo? 

• statistične metode:opazovanje zanimivih sopojavitev besed (kolokacije), narativne študije, ...

Page 20: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Konkordance besede "kartica" v korpusu FidaPLUS

Page 21: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Zakaj nam tega ne pove slovar?

Page 22: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Orodja za analizo korpusov

veliki korpusi so dostikrat na spletu, skupaj s svojimi vmesniki: BNC, FidaPLUS, Nova beseda, …

verjetno najboljši medmrežni vmesnik: SketchEngine kupljeni vmesniki na lastnem računalniku

npr. WordSmith (in seveda korpus!) izdelava lastnih programov:

npr. Perl, R izdelava lastnih korpusov:

ročno, BootCat

Page 23: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Gradnja

Če ustreznega korpusa ni na voljo, ga moramo narediti sami

 Postopek:

1. izbira besedil: reprezentativnost, uravnoteženost, izvedljivost

2. digitalni zajem: OCR, Word, HTML3. normalizacija besedil: enovit format4. (označevanje: oblikoslovne oznake, lematizacija)5. (distribucija: avtorske pravice, platforma)

Page 24: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Označevanje

Korpus je lahko precej bolj uporaben, če je jezikoslovno označen

 Ravni označevanja:

• leme, tj. osnovne oblike besed (hiše → hiša)• oblikoskladenjske oznake (samostalnik, ženski

spol, ednina, rodilnik)• skladenjsko označevanje (povedek, osebek, …)• drugo besedilno označevanje

Page 25: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Iskanje po lemi “človek”

Page 26: Jezik in računalniki

Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010

Zapis znakov

Kako so v besedilih kodirani znaki?

Zakaj je to zanimivo?• kadar gre kaj narobe in č postane c, ali pa kaj

drugega• kadar je potrebno uporabljati nenavadne znake

(npr. bohoričico, fonetično abecedo, ...) Obstaja veliko starejših kodnih naborov (ki pa se še

uporabljajo), moderna tehnologija pa uporablja univerzalen (pa za razmeroma kompleksen) nabor znakov unikod (Unicode)

Kako vstavimo posebne znake v urejevalniku Word?