![Page 1: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/1.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Nova generacija računalne obrade jezika
Damir Ćavar
Odjel za lingvistiku u.o., Sveučilište u Zadru
34. skup IT profesionalaca u Splitu 2009
![Page 2: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/2.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
1 Jezik
2 Modeliranje lingvističke jezgre
3 Namjena
4 Modeli
5 Comments
![Page 3: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/3.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
Govor: percepcijaKontinuirani nediskretni akustički događaji u vrijemenu
Spektrum varijacije energije na frekvencijama od100–11000 HzFormanti: koncentracija energije na određenimfrekvencijamaPrijelazi između šuma i tišine
Govor: artikulacijaKontinuirani nediskretne promjene u vokalnome traktu
Put zraka; položaj jezika, usana; stanje glasnice itd.
kao niz kompleksnih motornih instrukcija
![Page 4: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/4.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
© Davor Petrinović
http://dog.zesoi.fer.hr/predavanja/HTML/Osnoveprocesanastajanjagovora.htm
![Page 5: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/5.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?
Time (s)0.8647 2.367
0
1.2·1041.1160778
CzyToSasza?
spektralna analiza rečenice:
![Page 6: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/6.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Razine lingvističke analize (teorije i modeli):Fonetika i fonologija: zvukovi i fonemiMorfologija: morfemi i riječiSintaksa: rečenica (i možda kontekst)Semantika: značenje rečenice (možda u kontekstu)Pragmatika: govorni čina, itd.itd.
Iluzija zato što:lingvističke jedinice ne koreliraju nužno s fizičkimaspektima jezika,nego su kognitivne interpretacije akustičkog događaja.
![Page 7: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/7.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Ekstralingvistička dimenzija:Kognitivni sustav i njegove osobine (npr. Lazy evaluation,Least Effort, Last Resort, pamćenje)Govorna situacija (npr. šum, događaji, biološki uvjeti)
Lingvistička kognitivna jezgra:Neovisne formalne osobine jezika
![Page 8: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/8.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Fonološka razinaRazličiti (nediskretni) zvukovi klasificirani kao jednalinkvistička jedinica → fonemOsnova: teorija ovisnosti i interdependencije zvukova injihova kombinatorikaPrimjer: hrvatski i španjolski “r ” (torero – onaj koji se boris bikom; torrero – npr. stražar u svjetioniku)
Fonotaktička razina:Hrvatski prihvaća “dla” a ne “ lda” kao slog ili početak riječi
![Page 9: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/9.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Morfološka razinaFonemi se slažu u morfeme, tj. najmanje jedinice kojeimaju značaj ili neku funkciju, i koje se spajaju u riječiOsnova: teorija značenja i funkcija, ovisnosti iinterdependencije morfema i njihova kombinatorikaPrimjer: hrvatski glagol “čitati” se može razdvojiti u dvaminimalna dijela “čita-” i “-ti” s posebnim značenjem ifunkcijama
Morfotaktička razina:Hrvatski glagoli tipa “čita” se mogu kombinirati sasufiksima kao “-m” i “-š”, ali ne s “-om”, iako je “-om”legitiman sufiks hrvatskog jezika (npr. u riječi ruk-om)
![Page 10: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/10.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Lingvističke osnove
Sintaktiča razinaRiječi se slažu u rečeniceIako imamo dojam da su skoro sve kombinacije moguće,hrvatski je sintaktički jako ograničen
Primjer:Može biti: Ivan se penje na krov.Ne može biti: Krov Ivan se penje na. ili Ivan se krov penjena. itd.
Dodatni problemi:Što znači: Ivan je nazvao nekog čovjeka iz Pariza.Tko je on u: Ivan ga je nazvao. i Ivan tvrdi da ga jeMarija nazvala.
![Page 11: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/11.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
R
GF
IF
PF
iz Pariza
I
čovjeka
Č
nekog
nazvao
PG
je
IF
Ivan
![Page 12: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/12.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
R
GF
PF
iz Pariza
IF
I
čovjeka
Č
nekog
nazvao
PG
je
IF
Ivan
![Page 13: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/13.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Što je jezik?Sintaktiča stabla i hijerarhijska struktura
Strukturalna višeznačnostZa jednu rečenicu ili riječ postoji više struktura u skladu sgramatikom, npr.
ablelock
un able
lockun
Leksička višeznačnost:Jedna riječ ima više značenja: npr. duga, pita, je
![Page 14: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/14.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Gramatike (elementi i pravila) opisuju mogućukombinatoriku na svim lingvističkim razinamaDeskriptivne gramatike
Opis zvučnih osobina jezikaRiječniciPreskriptivne gramatike za standardni jezikDijalektološke gramatike
![Page 15: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/15.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Formalne gramatikekoriste eksplicitnu teoriju i formalizam i omogućavajufalsifikaciju, teoretske predikcije itd.Automati: generatori i prepoznavači jezičnih izraza (nasvim lingvističkim razinama) (niski generativni kapacitet)Parseri: analizatori jezičnih izraza (visoki generativnikapacitet)
Palatalizacija (poljski): krok – kroczek ; mózg – móżdżek ;duch – duszekk,g,h → č,dž,š/ i,e [ Deminutiv | Vokativ ]
Sintaksa:S → NP VPNP → (Adj) N (PP). . .
![Page 16: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/16.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistička jezgraFormalni aspekti jezika
Dodatni formalizmi: Unifikacijske gramatike (LFG, HPSGitd.)
© Andrew Bredenkamp http://www.essex.ac.uk/linguistics/clmt/latex4ling/avms/
![Page 17: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/17.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliRazlike: formalni i prirodni jezici
Prirodni jezici su višeznačni na svim višim lingvističkimrazinamaSve razine su povezane i doprinose riješenju problemavišeznačnosti → paralelizam u analizi, procesiranju itd.Gramatike prirodnih jezika su rekurzivne (tj. regularne,kontekstno neovisne i ovisne), što objašnjava neograničenbroj izraza, rečenica itd.
Formalne osobine:Regularna: fonologija i fonotaktika, morfologijaKontekstno neovisna: sintaksa (možda djelomičnokontekstno ovisna)Semantika itd.: kontekstno ovisna
![Page 18: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/18.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliFormalne osobine
Kontekstno neovisne i kompleksnije gramatike (i jezici) seformalno ne mogu usvojiti samo s pozitivnom evidencijom(Gold, 1967)iako sada postoje istraživanja koja to relativirajuTakve gramatike kompleksne su u procesiranjuNe pokrivaju nikada 100% podatkeNe predviđaju razlučivanje višeznačnosti
![Page 19: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/19.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Lingvistički modeliStatistička revolucija (ponovo)
Generiranje gramatika, riječnika i lingvističkih modela izobilježenih lingvističkih podataka (npr. korpusa)Kontekstno neovisne gramatike s vjerojatnosti pravilaS → NP VP p:0.021NP → (Adj) N (PP) p:0.001. . .Konačni automati s vjerojatnosti na prijelazima (i/iliprijelaznim akcijama kod transduktora)n-gram modeliNesimbolički statistički modeli (npr. neuronske mreže). . .
![Page 20: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/20.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika jezika
Transkripcija u fonetski i/ili fonemski oblikIPA transkripcijaza npr. phonex, soundex pretraživanje, statističke fonetskemodele za prepoznavanje govora i sintezu itd.
Morfološka segmentacija i obilježje:izponapijali : aspektualni prefiks – aspektualni prefiks –korijen i lema napiti – sufiks participa u množiniDodatno obilježje:do neke mijere – malo – “opiti se” od korijenske leme piti –prošlostza parsiranje i semantičku analizu
![Page 21: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/21.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Namjena lingvističkih modelaOsnovno procesiranje tekstualnih oblika jezika
Sintaktičko parsiranjeStabla s kategorijama i hijerarhijskom strukturom skopusasintaktičkih fraza i riječiza npr. razlučivanje višeznačnosti, semantičku analizu
Semantičko obilježje i analizaStabla i mreže relacija i povezivanje s reprezentacijomkoncepata i funkcijaza npr. strojno prevođenje, prepoznavanje govornog čina,analizu sadržaja itd.
![Page 22: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/22.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Konačni automati
Morfemi kao deterministički konačni automati (DKA) (Mealy iliMoore automati):
0
1č
p
5šv root (-index
2ie 3t 4a v root )-index
0
1n
3pv pref (-index
2a
4o
v pref )-index asp
v pref )-index asp
0
2m
3š
1ε
4t
6
j
v suf (-index
8o
v suf )-index pres 1st sg
v suf )-index pres 2st sg
v suf )-index pres 3rd sg
5e
v suf )-index 2nd sg imper
7
u
v suf )-index pres 1st pl
v suf )-index pres 2nd pl
v suf )-index pres 3rd pl
![Page 23: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/23.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Spajanje u monolitičke automate uz regularne izraze
Višeznačnost kao emisija više oznaka: lista emisija 1 do nOznaka DKA s imenomPravila koja koriste ta imena i modeliraju morfotaktičkadistribucijska pravila:
glagolAspektPref* . glagolAtiKorijeni . glagolFleksSuf
![Page 24: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/24.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Generiranje monolitičkih automata
Monolitički automati, mogu biti ciklički DKA:
0 3p
1
n
5ε
v pref (-index
4o
2a
ε 6č
p
8šv root (-index
ε
v pref )-index asp
ε
v pref )-index asp
7ie 9t 10a
v root )-index
11ε
13m
14š
12ε
15
t
17
j
v suf (-index
19o
v suf )-index pres 1st sg
v suf )-index pres 2st sg
v suf )-index pres 3rd sg
16e
v suf )-index 2nd sg imper 18u
v suf )-index pres 1st pl
v suf )-index pres 2nd pl
v suf )-index pres 3rd pl
![Page 25: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/25.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Sintaktičko parsiranje
Obično u računalnoj lingvistici Earley parser i varijacije togalgoritma (dinamično programiranje):
s dodatnom vjerojatnosti za razlučivanje najvjerojatnijeanalize u slučaju višesnačnostis unifikacijom obilježja za pravila kongruencije i perkolacijuoznakas obilježjem semantičkih osobina i funkcija
![Page 26: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/26.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Statistički modeliza npr. obilježje i prepoznavanje
n-gram modelilingvističko obilježje ovisno o (obično lokalnom) kontekstudistribucijske osobine fonema, morfema, riječi u kontekstuodkriva osobine teksta, riječi itd.za npr. klasifikaciju teksta u jezike, zadržajno; klasifikacijunepoznatih riječi itd.
![Page 27: Nova generacija računalne obrade jezika · 2020. 1. 27. · RaLi D. Ćavar Outline Jezik Modeliranje lingvističke jezgre Namjena Modeli Comments Nova generacija računalne obrade](https://reader033.vdocuments.net/reader033/viewer/2022060923/60ae9ce83089123321198a3b/html5/thumbnails/27.jpg)
RaLi
D. Ćavar
Outline
Jezik
Modeliranjelingvističkejezgre
Namjena
Modeli
Comments
Glavni zadatci
Stvaranje lingvističkih resursaStvaranje alata za lingvističku analizu
lematizacija riječi u tekstu za pretraživače i daljnu analizugramatike i transfer pravila za strojno prevođenjeprepoznavanje jezičnih jedinica i klasifikacija u npr. imeosobe, ime tvrtke, ime produkta, datum i vrijeme, lokacijaitd.klasifikacija tekstovaanaliza govora i procesiranje govornog dijalogaprepoznavanje zadržaja za forenzičku analizuekstrakcija znanja i generiranje novih saznanjaitd.