korpus in glosar jezikovne tehnologije
DESCRIPTION
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE. Janja Sterle Živa Malovrh. UVOD. Predstavitev teme Izbira gradiva Zgraditev korpusa Označevanje besedil Obdelava s programom Wordsmith Izdelava glosarja. IZBIRA TEME. Predstavitev asist. Senje Pollak Področje je že določeno. IZBIRA GRADIVA. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/1.jpg)
KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJEJanja SterleŽiva Malovrh
![Page 2: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/2.jpg)
UVOD
•Predstavitev teme•Izbira gradiva•Zgraditev korpusa•Označevanje besedil•Obdelava s programom Wordsmith•Izdelava glosarja
![Page 3: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/3.jpg)
IZBIRA TEME
•Predstavitev asist. Senje Pollak•Področje je že določeno
![Page 4: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/4.jpg)
IZBIRA GRADIVA
•Izhodišče članki, doktorske disertacije in diplomske naloge v angleščini
•15 člankov, 4 magistrske naloge, 11 doktorskih disertacij
•Slovenščina: 43 člankov, 8 diplomskih nalog, 3 magistrske naloge, 6 doktorskih disertacij
•13 povzetkov in njihovih angleških prevodov•Zahvala asist. Senji Pollak za pomoč pri
zbiranju gradiva•Najbolj dolgotrajna faza projekta
![Page 5: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/5.jpg)
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Slovenščina•V knjižnici ni možna izposoja diplomskih
in magistrskih nalog in doktorskih disertacij
•Nekateri avtorji niso želeli prispevati svojih nalog – vprašanje avtorskih pravic
![Page 6: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/6.jpg)
TEŽAVE PRI PRIDOBIVANJU GRADIVA:Angleščina•Pomanjkanje angleških člankov in nalog v
knjižnicah•Na internetu je veliko člankov in nalog
plačljivih – vprašanje kredibilnosti vzorca•Veliko nalog sicer vsebuje temo jezikovnih
tehnologij, vendar le kot delovno metodo na nekem drugem področju
![Page 7: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/7.jpg)
OZNAČEVANJE BESEDIL• Primer:
<id_js n=''JT_2003_0001_0000_slv_Lart''/>id = identifikacijajs = Janja Sterlen = številkaJT = jezikovne tehnologijePR = prevajanjeRJ = računalniško jezikoslovjeKJ = korpusno jezikoslovje2003 = letnica izida besedila0001 = zaporedna številka besedila v korpusu0000 = specifična oznaka (po navodilih)Slv = slovenščina, Ang = angleščinaL = dolg, S = kratekart = članek, dip = diplomska nalogamag = magistrska naloga, dok = doktorat
![Page 8: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/8.jpg)
DELO Z WORDSMITHOM 1. del
•Združitev najinih korpusov s korpusom asist. Senje Pollak
•Obdelava korpusa s funkcijo stoplist, wordlist, concordance in key words za izluščenje eno- in večbesednih terminov v angleščini
•Pri tem sva si razdelili delo na polovico (ena od A – K, druga od L – Z)
![Page 9: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/9.jpg)
DELO Z WORDSMITHOM 2. del
•Iskanje prevodnih ustreznic najdenim angleškim terminom v slovenskem korpusu (uporaba programa Wordsmith)
•Strategije iskanja: „na slepo“, iskanje besedne zveze po jedrnih besedah, možnost angleškega imena v slovenskem korpusu s prevodom, iskanje prevodne različice po internetu
![Page 10: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/10.jpg)
VELIKOST KORPUSA IN GLOSARJA•85,426 angleških, 25,309 slovenskih
pojavnic•Skupaj 110,735 pojavnic
•Glosar: 197 angleških terminov, 229 slovenskih terminov
![Page 11: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/11.jpg)
IZDELAVA GLOSARJA•Izdelava excelove tabele in združitev obeh
delov•Razporeditev po abecednem vrstnem redu•Pojavitev nekaterih podvojenih elementov
(ko je npr. ena iskala „extraction“ in je našla „term extraction“, druga pa je iskala „term“ in našla „term extraction“) -> funkcija odstrani podvojitve
•Primeri več slovenskih prevodnih različic za en angleški termin (npr. „automatic term extraction“ = avtomatsko luščenje terminologije / samodejno luščenje izrazja)
![Page 12: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/12.jpg)
ISKANJE DEFINICIJ
•Iskanje po korpusu (redko – malo definicij)•Iskanje po internetu (google, wikipedia –
presenetljivo veliko definicij)•Približno 80 % najdenih definicij•Pri nekaj angleških terminih se definicija
podvoji (npr. „POS tagging“ / „part-of-speech tagging“)
•Pri nekaterih je definicija odveč (npr. „speech recording“)
•Za nekatere ni bilo mogoče najti definicije
![Page 13: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/13.jpg)
IZDELAVA GLOSARJA V MULTITERMU•Pretvorba excelove tabele s programom
Multiterm Convert•Uvoz datotek v Multiterm
![Page 14: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/14.jpg)
![Page 15: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/15.jpg)
![Page 16: KORPUS IN GLOSAR JEZIKOVNE TEHNOLOGIJE](https://reader033.vdocuments.net/reader033/viewer/2022051417/56814e6f550346895dbc0c65/html5/thumbnails/16.jpg)
ZAKLJUČEK
•Uporabna vrednost•Praktična uporaba znanj, pridobljenih pri
predmetu•Programi za obdelavo so bili včasih
nezanesljivi•Večje poznavanje korpusov in programov
za njihovo obdelavo