jezik in računalniki
Post on 14-Jan-2016
61 Views
Preview:
DESCRIPTION
TRANSCRIPT
Jezik in računalniki
Tomaž Erjavec
Osnove računalništva za jezikoslovceUNG 2009/2010
19.4.2010
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Nekaj besed o meni
Tomaž ErjavecOdsek za tehnologije znanjaInstitut “Jožef Stefan”Ljubljana
http://nl.ijs.si/et/ tomaz.erjavec@ijs.si jezikovne tehnologije
izdelava korpusov in drugih jezikovnih virov, predvsem za slovenski jezik
digitalne knjižnice
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
I. Vsebina predmeta
Predavanji: 1. pregled področja2. korpusno jezikoslovje
Kje se srečujemo z obdelavo besedil na računalnikih?
pisanje, oblikovanje besedil: Word, Besana
iskanje po spletu: Google, Najdi.si strojno prevajanje: Google translate, Presis sinteza / analiza govora: AT&T, Govorec odgovarjanje na vprašanja: NSIR dialoški sistemi: Klepec samopovzemanje dokumentov, rudarjenje besedil,
…
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Uporaba v jezikoslovju
pomoč pri prevajanju pomoč pri slovaropisju pomoč pri raziskovanju jezika
Potrebujemo korpuse, t.j. velike zbirke besedil shranjenih na računalniku
(predavanje naslednjič)Korpusno jezikoslovje in jezikovne tehnologije
Univerza v Novi Gorici, 2009/2010
Jezikovni viri za slovenski jezik na internetu
Inštitut za slovenski jezik Frana Ramovša ZRC SAZU:o http://bos.zrc-sazu.si/ Slovar slovenskega knjižnega jezika Slovenski pravopis 2001 Besede slovenskega jezika
in razni korpusi…
Računalniška obdelava naravnega jezika
računalniško jezikoslovje oz. računalniška obdelava naravnega jezika veja računalništva, ki se navezuje na jezikoslovje cilj: računalniško modeliranje in procesiranje
naravnega jezika
jezikovne tehnologije cilj: razvoj konkretnih jezikovnih virov in orodij
(korpusi, slovarji / črkovalniki, prevajalniki)
Jezik in računalnik
Kako računalnik “razume” jezik? Jezikovne komponente v urejevalniku
besedil:črkovalnik, preverjanje slovnice, pravila za segmentacijo besed, stavkov
Kaj je beseda, kaj je stavek? vsi podatki so za računalnik najprej nizi znakov besede so med seboj ločene s presledki besede so med seboj ločene s presledki ali ločili besede so med seboj ločene s presledkom ali ločilom in
presledkom javno- in zasebnopravni vidiki, itd., $4.000.000
Iskanje
Zanimajo me avtomobilska podjetja. Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje? Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov Y zadetkov
Iskanje
Zanimajo me avtomobilska podjetja. Bomo iskali avtomobilska podjetja, avtomobilsko
podjetje? Če me zanimajo še zadetki v angleščini:
automobile companies, automobile company
X zadetkov Y zadetkov
Iskanje z Googlom
aavtomobilsko podjetjevtomobilsko podjetje 573573avtomobilska podjetjaavtomobilska podjetja 835835avtomobilska firmaavtomobilska firma 43 43avtomobilske firmeavtomobilske firme 107107avtopodjetjeavtopodjetje 4 4zastopnik avtomobilovzastopnik avtomobilov 807807prodajalec avtomobilovprodajalec avtomobilov 407407avtoprodajaavtoprodaja 507507zastopstvo avtomobilov zastopstvo avtomobilov 405405
Oblika proti pomenu
Kako bi bilo mogoče zgraditi “pametni” spletni iskalnik, ki bi iskal po pomenu besede?
zdravljenje anoreksije
zdravljenjezdravljenjazdravljenjuterapijaterapevtski ukrepiterapije...
anoreksijaanoreksijeanoreksičnostmotnje hranjenjaprehranjevalne motnjeodklanjanje hrane...
Problemi
Jezik ima lastnosti, ki jih človek razpozna zlahka, stroj pa mnogo težje.
Še posebej: večpomenskost: mnoge besede imajo več
pomenov parafraze: mnoge vsebine je mogoče izraziti na
več načinov nedoločenost: mnoga jezikovna sredstva imajo
nedoločen pomen, ki ga razberemo šele iz sobesedila
Razsežnosti problema
Obseg jezikovnih podatkov
Globina analize
Področje
Oblikoslovje
Skladnja
Pomenoslovje
Pragmatika
Obdelava znanja
Razpoznavanje besed
Mnoge aplikacije zahtevajo le nizko raven analize.
Strukturalistični in empirični vidiki jezikoslovja
Strukturalistični pristop: Jezik je omejen in urejen sistem, ki temelji na pravilih. Avtomatska obdelava jezika je mogoča s pomočjo pravil. Pravila se oblikuje v skladu s človeško jezikovno intuicijo.
Empirični pristop: Jezik je vsota vseh svojih udejanjanj (v govorjenih in
pisnih besedilih) Posplošitve o jeziku so mogoče le na podlagi velikih
besedilnih zbirk, ki nam služijo za vzorec jezika -> korpusi
Strojno učenje (Machine Learning): programi se naučijo modela jezika iz podatkov
Jezikovne tehnologije: Raziskovalna področja
Oblikoslovje: besednovrstno oz. oblikoskladenjsko označevanje (part-of-speech tagging), lematizacija, razčlemba sestavljenih besed
Skladnja: razpoznavanje stavčnih členov, slovničnih funkcij (osebek/povedek/...); popolna skladenjska analiza
Glasoslovje: razpoznavanje in tvorjenje govora, pogovorni sistemi
Pomenoslovje: razreševanje večpomenskosti, avtomatska izdelava semantičnih virov (tezavrov, ontologij)
Večjezikovne tehnologije: luščenje prevodnih ustreznic iz korpusov, strojno prevajanje in tolmačenje
Jezik in internet: iskanje podatkov, rudarjenje besedil (Text Mining), napredni spletni iskalniki
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Kaj je korpus?
obsežna zbirka besedil jezik v resnični in sodobni podobi v elektronski obliki reprezentativnost za jezik, ki naj bi ga
predstavljali → vzorec služi za opisovanje jezika
(deskriptivno/empirično jezikoslovje)
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Zakaj potrebujemo korpuse?
• izdelava slovarjev in drugih jezikovnih virov(tudi nadomestek za slovar)
• izdelava slovnic in drugih opisov jezikovne strukture
• razvoj pripomočkov za prevajanje• izdelava pripomočkov za učenje jezika• raziskovanje vseh oblik jezikovnega vedenja• jezikovne tehnologije
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Kako uporabljamo korpuse?
• besedni seznami:Katere besede so v korpusu? V posameznem besedilu? Katere izstopajo po pogostosti uporabe?
• konkordance (opazovanje besed skupaj s sobesedilom): kako so besede uporabljene? kaj torej pomenijo?
• statistične metode:opazovanje zanimivih sopojavitev besed (kolokacije), narativne študije, ...
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Konkordance besede "kartica" v korpusu FidaPLUS
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Zakaj nam tega ne pove slovar?
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Orodja za analizo korpusov
veliki korpusi so dostikrat na spletu, skupaj s svojimi vmesniki: BNC, FidaPLUS, Nova beseda, …
verjetno najboljši medmrežni vmesnik: SketchEngine kupljeni vmesniki na lastnem računalniku
npr. WordSmith (in seveda korpus!) izdelava lastnih programov:
npr. Perl, R izdelava lastnih korpusov:
ročno, BootCat
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Gradnja
Če ustreznega korpusa ni na voljo, ga moramo narediti sami
Postopek:
1. izbira besedil: reprezentativnost, uravnoteženost, izvedljivost
2. digitalni zajem: OCR, Word, HTML3. normalizacija besedil: enovit format4. (označevanje: oblikoslovne oznake, lematizacija)5. (distribucija: avtorske pravice, platforma)
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Označevanje
Korpus je lahko precej bolj uporaben, če je jezikoslovno označen
Ravni označevanja:
• leme, tj. osnovne oblike besed (hiše → hiša)• oblikoskladenjske oznake (samostalnik, ženski
spol, ednina, rodilnik)• skladenjsko označevanje (povedek, osebek, …)• drugo besedilno označevanje
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Iskanje po lemi “človek”
Korpusno jezikoslovje in jezikovne tehnologijeUniverza v Novi Gorici, 2009/2010
Zapis znakov
Kako so v besedilih kodirani znaki?
Zakaj je to zanimivo?• kadar gre kaj narobe in č postane c, ali pa kaj
drugega• kadar je potrebno uporabljati nenavadne znake
(npr. bohoričico, fonetično abecedo, ...) Obstaja veliko starejših kodnih naborov (ki pa se še
uporabljajo), moderna tehnologija pa uporablja univerzalen (pa za razmeroma kompleksen) nabor znakov unikod (Unicode)
Kako vstavimo posebne znake v urejevalniku Word?
top related