predstavitev projektov za predmet jezikovne tehnologije png slovenistika ii. letnik 2006
Post on 12-Jan-2016
40 Views
Preview:
DESCRIPTION
TRANSCRIPT
Predstavitev projektov za predmet
Jezikovne tehnologije
PNG SlovenistikaII. letnik 2006
17.3.200617.3.2006
Novi obrazi
Predavatelj: Predavatelj: doc.dr.Tomaž Erjavecdoc.dr.Tomaž ErjavecOdsek za tehnologije znanjaOdsek za tehnologije znanjaInstitutInstitut Jožef StefanJožef Stefan
Vaje:Vaje:mag. Irena Srdanović Erjavecmag. Irena Srdanović Erjavec
UrnikUrnik!!
Pregled bloka tehno
17.3.2006: predstavitev projektov17.3.2006: predstavitev projektov 07.4.2006: označevanje korpusov07.4.2006: označevanje korpusov 14.4.2006: standardi za zapis korpusov14.4.2006: standardi za zapis korpusov 21.4.2006: zapisi znakov21.4.2006: zapisi znakov 19.5.2006: skladnja19.5.2006: skladnja
Ali je dal prvi letnik zadostne osnove?Ali je dal prvi letnik zadostne osnove?
Jezikovni viri
Digitalne zbirke podatkov o jeziku: Digitalne zbirke podatkov o jeziku: korpusi, slovarji/leksikoni, drugi modeli korpusi, slovarji/leksikoni, drugi modeli
UporabniUporabni za ljudi: za ljudi:
korpusno (kvantitativno) jezikoslovje, korpusno (kvantitativno) jezikoslovje, leksikografija, terminografijaleksikografija, terminografija
za programe: za programe: vir znanja, testna in vir znanja, testna in učnaučna množica množica
Izdelava jezikovnih virov
izbira (npr. besedil)izbira (npr. besedil) zajem (tehnični in pravni vidiki)zajem (tehnični in pravni vidiki) poenotenje (luščenje, čiščenje in standardni zapis)poenotenje (luščenje, čiščenje in standardni zapis) označevanje (strojno, mogoče (še) ročno)označevanje (strojno, mogoče (še) ročno) distribucijadistribucija= dostopen, dokumentiran, standardno zapisan in = dostopen, dokumentiran, standardno zapisan in
kvaliteten jezikovni virkvaliteten jezikovni virza slovenski jezik moramo take vire narediti, več ali za slovenski jezik moramo take vire narediti, več ali
manj, v Sloveniji.manj, v Sloveniji.
Delo na jezikovnih virih na E8 IJSSeznam rezultatov, žal samo v angleščini, na Seznam rezultatov, žal samo v angleščini, na http://nl.ijs.si/http://nl.ijs.si/ : : Intitiatives, services and resources: Intitiatives, services and resources:
SDJTSDJT: the Slovenian Language Technologies Society : the Slovenian Language Technologies Society WWW concordancesWWW concordances: Slovene monolingual and parallel corpora and : Slovene monolingual and parallel corpora and
on-line lemmatizer on-line lemmatizer ZRC eLibraryZRC eLibrary: Scholarly Digital Editions of Slovenian Literature : Scholarly Digital Editions of Slovenian Literature jaSlojaSlo: Japanese - Slovene on-line learner's dictionary : Japanese - Slovene on-line learner's dictionary slEnJa: Slovene - English - Japanese on-line learner's dictionary slEnJa: Slovene - English - Japanese on-line learner's dictionary GNUsl: an Open Source effort for Slovene localisation GNUsl: an Open Source effort for Slovene localisation The Slovenian Linguist: a collection of Slovenian dialect material The Slovenian Linguist: a collection of Slovenian dialect material
Downloadable corpora for HLT research: Downloadable corpora for HLT research: MULTEXT-EastMULTEXT-East Version 3: Version 3:
East and Central European multilingual corpus and lexical resources East and Central European multilingual corpus and lexical resources IJS-ELAN Version 2:IJS-ELAN Version 2:
Slovene-English parallel corpus, 1 million words Slovene-English parallel corpus, 1 million words SVEZ-IJS Version 1:SVEZ-IJS Version 1:
Slovene-English parallel corpus of EU legal texts, 10 million words Slovene-English parallel corpus of EU legal texts, 10 million words SDTSDT, the Slovene Dependency Treebank (in development):, the Slovene Dependency Treebank (in development):
Slovene syntactically annotated corpus, 30.000 words Slovene syntactically annotated corpus, 30.000 words
MULTEXT-East
večjezikovna zbirka virov za jezikovne večjezikovna zbirka virov za jezikovne tehnologije: vzhodni jeziki, projekt EUtehnologije: vzhodni jeziki, projekt EU
zbirka zapisana v XML, prosto dostopna zbirka zapisana v XML, prosto dostopna za raziskaveza raziskave
najbolj natančno obdelana oblikoslovna najbolj natančno obdelana oblikoslovna raven, sestavljenja iz treh nivojev:raven, sestavljenja iz treh nivojev:
1.1. oblikoslovno označen korpus: “1984”oblikoslovno označen korpus: “1984”2.2. oblikoslovni leksikon (15.000 lem)oblikoslovni leksikon (15.000 lem)3.3. oblikoslovne specifikacijeoblikoslovne specifikacije
Primer iz korpusa
Primer iz leksikona
lenuhulenuhu lenuhlenuh NcmsdNcmsdlenuhulenuhu lenuhlenuh NcmslNcmslleplep == AfpmsnnAfpmsnnleplep leplep Afpmsan-nAfpmsan-nlepalepa leplep AfpfsnAfpfsnlepalepa leplep AfpmdaAfpmdalepalepa leplep AfpmdnAfpmdnlepalepa leplep AfpnpaAfpnpalepalepa leplep AfpnpnAfpnpnlepelepe leplep AfpfpaAfpfpalepelepe leplep AfpfpnAfpfpnlepelepe leplep AfpfsgAfpfsglepelepe leplep AfpmpaAfpmpalepegalepega leplep Afpmsa--yAfpmsa--ylepegalepega leplep AfpmsgAfpmsglepegalepega leplep AfpnsgAfpnsglepemlepem leplep AfpmslAfpmsllepemlepem leplep AfpnslAfpnsllepemulepemu leplep AfpmsdAfpmsdlepemulepemu leplep AfpnsdAfpnsdlepenklepenk lepenkalepenka NcfdgNcfdg
Primer iz specifikacij
Specifikacije določijo, da je npr. Ncmsd možna oblikoslovna oznaka za slovenščino, in da pomeni PoS:Noun, Type:common, Gender:masculine, Number:singular, Case:dative
Pomen MULTEXT-East za jezikovne tehnologije harmonizirani opisi in vzporedni viri za veliko harmonizirani opisi in vzporedni viri za veliko
število vzhodnih jezikov število vzhodnih jezikov postal de facto postal de facto standard za nekatere jezike (npr. korpus FIDA)standard za nekatere jezike (npr. korpus FIDA)
prvi ročno označen in dostopen korpus za več prvi ročno označen in dostopen korpus za več jezikov, npr. slovenskega jezikov, npr. slovenskega učenje in testiranje učenje in testiranje programov za npr. oblikoslovno označevanjeprogramov za npr. oblikoslovno označevanje
kot okvir za vzpostavitev osnovnih jezikovnih kot okvir za vzpostavitev osnovnih jezikovnih virov za nove jezike (BLARK) virov za nove jezike (BLARK) Srbščina, Srbščina, Rezijanščina, Makedonščina, Perzijščina Rezijanščina, Makedonščina, Perzijščina
MULTEXT-East in označevanje
na korpusu naučen na korpusu naučen oblikoslovni označevalnikoblikoslovni označevalnik na leksikonu naučen na leksikonu naučen lematizatorlematizator skupaj s skupaj s tokenizatorjemtokenizatorjem povezani v program povezani v program
“totale”“totale” ker je program statističen, dela napakeker je program statističen, dela napake te lahko do neke mere odpravimo z večjim ročno te lahko do neke mere odpravimo z večjim ročno
označenim korpusom, iz novih domenoznačenim korpusom, iz novih domen ročno odkrivanje in popravljanje napakročno odkrivanje in popravljanje napak
pomaga tudi pri izdelavi boljšega označevalnikapomaga tudi pri izdelavi boljšega označevalnika
SDT: Slovene Dependency Treebank korpusi so lahko označeni tudi s skladenjsko strukturokorpusi so lahko označeni tudi s skladenjsko strukturo koristno za empirični študij skladnje, ter za avtomatsko koristno za empirični študij skladnje, ter za avtomatsko
učenje skladenjskih razčlenjevalnikovučenje skladenjskih razčlenjevalnikov eden največjih skladenjsko označenih korpusov (razen za eden največjih skladenjsko označenih korpusov (razen za
angleščino) je Prague Dependecy Treebankangleščino) je Prague Dependecy Treebank teoretični model PDT je funkcionalna odvisnostna slovnicateoretični model PDT je funkcionalna odvisnostna slovnica v okviru projekta so izdelali priročnik za anotacijo in v okviru projekta so izdelali priročnik za anotacijo in
urejevalnik drevesurejevalnik dreves za slovenski jezik je v teku prirejanje priročnika in za slovenski jezik je v teku prirejanje priročnika in
označevanje z analitično ravnjo, zaenkrat 1/3 “1984”označevanje z analitično ravnjo, zaenkrat 1/3 “1984” verjetno bomo kmalu rabili nove označevalce!verjetno bomo kmalu rabili nove označevalce!
Primer označenega stavka
AHlib: knjižnica XIX. stoletja
projekta na avstrijski akademiji znanosti in projekta na avstrijski akademiji znanosti in v Sloveniji (Uni Lj, Uni Mb)v Sloveniji (Uni Lj, Uni Mb)
cilj: narediti knjižnico vseh slovenskih knjig cilj: narediti knjižnico vseh slovenskih knjig prevedenih iz nemščine 1848-1919prevedenih iz nemščine 1848-1919
postopek: postopek: skeniranje knjig v NUK in OCRskeniranje knjig v NUK in OCR ročne korekcijeročne korekcije
mrežni vmesnik za kontrolo rezultatovmrežni vmesnik za kontrolo rezultatov
Primeri
Original in besedilo po OCR
Besedilo po korekciji
Postopek pretvorbe
(popravljena) datoteka Word (RTF)(popravljena) datoteka Word (RTF) avtomatska konverzije v XMLavtomatska konverzije v XML iz tega pa v HTMLiz tega pa v HTML ta služi za preverjanje pravilnosti datoteke ta služi za preverjanje pravilnosti datoteke
WordWord dodatno na voljo besedna analiza (Excel)dodatno na voljo besedna analiza (Excel)
jaSlo: Japonsko-slovenski slovar za učenje japonščine v sodelovanju z katedro za japonologijo na v sodelovanju z katedro za japonologijo na
Univerzi v Ljubljani Univerzi v Ljubljani trenutno vsebuje okoli 4.000 vnosov, nova trenutno vsebuje okoli 4.000 vnosov, nova
inačica (v delu) pa 10.000.inačica (v delu) pa 10.000. slovar je označen po standardu TEI P4 slovar je označen po standardu TEI P4 dostopen preko brskalnega in bralnega dostopen preko brskalnega in bralnega
vmesnika vmesnika
Zapis v TEI
Iskalnik
Naprej na vajah..
top related