bevezetés szöveg annotáció eszközök...

111
Bevezetés Szöveg Annotáció Eszközök Összegzés Nyelvtechnológia - nyelvészeknek A korpusznyelvészett ˝ ol a nyelvtechnológiáig Váradi Tamás MTA Nyelvtudományi Intézet [email protected] A 2006. november 30-án a Nyelvtudományi Intézetben tartott el ˝ oadás b ˝ ovített változata

Upload: others

Post on 09-Sep-2019

2 views

Category:

Documents


0 download

TRANSCRIPT

Bevezetés Szöveg Annotáció Eszközök Összegzés

Nyelvtechnológia - nyelvészeknekA korpusznyelvészettol a nyelvtechnológiáig

Váradi Tamás

MTA Nyelvtudományi Inté[email protected]

A 2006. november 30-án a Nyelvtudományi Intézetbentartott eloadás bovített változata

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Motiváció

Nyelvtechnológia – nyelvészeknek

nyelvészeknek - azaz nem informatikusoknaka nyelvtechnológiát az informatika hívta létreaz informatikában egyértelmuen igazolta magát

Vezérmotívum:Mennyi benne a nyelvészet?Mennyiben releváns a nyelvészet számára?Mit nyújt a nyelvészeknek?

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

A kihívás

A nyelvet a számítógép számára érthetové tenni

szövegek, szótárak, nyelvtanok — emberek készítikembereknekértésükhöz, alkalmazásukhoz nyelvi és világismeret kella számítógép számára mindezt expliciten meg kell adniaz igazi generatív vállalkozás

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemléleti különbség

Középpontban a beszéd (parole)Feladat: a nyelv visszafejtése (reverse engineering)nem „csak” a nyelv, hanem a nyelvhasználat(performancia)adatok és eljárások, algoritmusok — muködo rendszervégso soron az emberi beszédértés, beszédalkotásszimulálása

A robusztusság alapkövetelmény

a gond nem az adatok tömege, hanem „fésületlenségük”a szönyeg alá söprés nem megy

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemléleti különbség

Középpontban a beszéd (parole)Feladat: a nyelv visszafejtése (reverse engineering)nem „csak” a nyelv, hanem a nyelvhasználat(performancia)adatok és eljárások, algoritmusok — muködo rendszervégso soron az emberi beszédértés, beszédalkotásszimulálása

A robusztusság alapkövetelmény

a gond nem az adatok tömege, hanem „fésületlenségük”a szönyeg alá söprés nem megy

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemléleti különbség

Rapid megoldás mindenek felett

Terjedo paradigma: statisztikai nyelvi modellezéshttp://nlp.stanford.edu/links/statnlp.html

nyelvfüggetlen eljáráskiinduló adathalmaz ún. tanuló korpuszgépi tanuláshttp://en.wikipedia.org/wiki/Machine_learning

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Ki a korpusznyelvész?

Aki korpuszokat alkalmaz?

Korpuszt használni = független, külso adatokat alkalmaznia korpuszok használata egyre jobban beépül a nyelvészetigyakorlatbaettol még ki-ki megmarad francia, finnugor stb.nyelvésznek

Aki korpuszokat készít!A korpuszok készítése önálló szakma

A korpuszok megtervezéseösszeállításanyelvi elemzésemuködtetésekarbantartása

a korpusznyelvészet feladata

Bevezetés Szöveg Annotáció Eszközök Összegzés

Ki a korpusznyelvész?

Aki korpuszokat alkalmaz?

Korpuszt használni = független, külso adatokat alkalmaznia korpuszok használata egyre jobban beépül a nyelvészetigyakorlatbaettol még ki-ki megmarad francia, finnugor stb.nyelvésznek

Aki korpuszokat készít!A korpuszok készítése önálló szakma

A korpuszok megtervezéseösszeállításanyelvi elemzésemuködtetésekarbantartása

a korpusznyelvészet feladata

Bevezetés Szöveg Annotáció Eszközök Összegzés

Nem a Web a legjobb korpusz?

Miért nem?Teljesen bizonytalan eredetu (akár nem anyanyelvi)szövegekMéretét is legfeljebb becsülni lehet

Miért érdekes mégis?

Elképeszto tömegu szövegRendkivül gyorsan noA „legdemokratikusabb” médium: a beszélok mindeneddiginél szélesebb körét reprezentáljaBizonyos célokra így is jó, ahogy van (ld. a köv. táblázat)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Nem a Web a legjobb korpusz?

Miért nem?Teljesen bizonytalan eredetu (akár nem anyanyelvi)szövegekMéretét is legfeljebb becsülni lehet

Miért érdekes mégis?

Elképeszto tömegu szövegRendkivül gyorsan noA „legdemokratikusabb” médium: a beszélok mindeneddiginél szélesebb körét reprezentáljaBizonyos célokra így is jó, ahogy van (ld. a köv. táblázat)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Nem a Web a legjobb korpusz?

sports gear 1.220.000sporting gear 179.000

sports equipment 1.480.000sporting equipment 1.070.000

sports geer 73sporting geer 2

A „sportszer” szó lehetséges angol megfeleléseinekgyakorisága

Bevezetés Szöveg Annotáció Eszközök Összegzés

Nem a Web a legjobb korpusz? (folyt.)

KonklúzióGyors, elnagyolt mintavételBizonyos durva különbségekre jól használhatóAz elképesztoen nagy és rohamosan növekvo méretpáratlan elonyMeg kell tanulni kihasználni az elonyeit

Bevezetés Szöveg Annotáció Eszközök Összegzés

Mitol korpusz egy halom szöveg?

Korpusz <=> szövegarchívumKorpusz:

egységes elvek szerinti válogatásegységes kódolás

Bevezetés Szöveg Annotáció Eszközök Összegzés

Mitol korpusz egy halom szöveg?

Korpusz <=> szövegarchívumKorpusz:

egységes elvek szerinti válogatásegységes kódolás

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szöveg eredeti (HTML) alakban↓

elofeldolgozás↓

Csak szöveg↓

tokenizálás↓

Szöveg alapegységekre bontva↓

morfológiai elemzés↓

egyértelmusítés↓

Annotált szöveg

Bevezetés Szöveg Annotáció Eszközök Összegzés

MNSZ részlet 1

<?xml version="1.0" encoding="iso-8859-2" standalone="yes"?><text><!--beginning of orig--><!-- Digitalis Archivum ## /home2/projects/sulinet_ihm2003/corpus/src/muvek/bella/bella00502.iso-->

<div id="lit-dia-Bella_Istvan___Hetedik_kavics___1975.clean.1" type="konyv"><head><s><title type="konyvcim"><w LEMMA="Hetedik" CAT="Num" NOM>Hetedik</w><w LEMMA="kavics" CAT="N" NOM>kavics</w>

</title></s>

</head>

Bevezetés Szöveg Annotáció Eszközök Összegzés

MNSZ részlet 2

<poem><lg><l><w LEMMA=szanaszét" CAT="Adv">Szanaszét</w><w LEMMA="széled" CAT="V" e M 3>széledt</w><w LEMMA="ujj" CAT="N" e 1 INS PS i>ujjaimmal</w></l><l><w LEMMA="elveszett" CAT="MIB" NOM>elveszett</w><w LEMMA="koponya" CAT="N" e 1 NOM PS>koponyám</w><w LEMMA="most" CAT="Adv">most</w><w LEMMA="megkeres" CAT="V" e 1 T Pre>megkeresem</w><c lemma="," msd="WPUNCT" ctag="WPUNCT">,</c></l></lg>

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet pro és kontra

Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)

Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák

Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet pro és kontra

Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)

Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák

Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet pro és kontra

Melletteténylegesnyelvhasználatobjektív adatokúj dimenzió: gyakoriságsokaság (nagy számoktörvénye)

Ellenea mintavétel módszertanakétségesa nyelv fogalma aluldefiniáltnem ad számot a potenciálisalakokróladatok nem tiszták(performancia) hibák

Konklúzióa korpusz a nyelvhasználat lenyomata - nem nyújtjaközvetlen a nyelvi rendszertugyanúgy aluldefiniált mint maga a teljes nyelvhasználat

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Néhány alapkérdés

A vizsgálandó adatok véges, zárt univerzumot alkotnak

pl. az 2006. okt. 23-án elhangzott összes rendorségirádióadás

kimerítoen lejegyezhetoa korpusz tartalmazza az ún. cél populációt

A vizsgálandó adatok véges, de túl nagy univerzumot alkotnak

az okt. 23-án elhangzott vagy leírt összes magyarmegnyilatkozás

elvileg véges, nagysága megbecsülhetogyakorlatilag rögzíthetetlena digitális kultúra terjedtével írásos része egyre nagyobbmértékben elérheto elektronikusana korpusz statisztikai minta

Bevezetés Szöveg Annotáció Eszközök Összegzés

Néhány alapkérdés

A vizsgálandó adatok véges, zárt univerzumot alkotnak

pl. az 2006. okt. 23-án elhangzott összes rendorségirádióadás

kimerítoen lejegyezhetoa korpusz tartalmazza az ún. cél populációt

A vizsgálandó adatok véges, de túl nagy univerzumot alkotnak

az okt. 23-án elhangzott vagy leírt összes magyarmegnyilatkozás

elvileg véges, nagysága megbecsülhetogyakorlatilag rögzíthetetlena digitális kultúra terjedtével írásos része egyre nagyobbmértékben elérheto elektronikusana korpusz statisztikai minta

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A korpusz mint minta

Mire legyen reprezentatív a korpusz?

a beszélokredemográfiai mintavételvannak független adatok a beszélok csoportváltozóiról

a nyelvi változatokranem ismerjük az egyes nyelvi változatok arányait a teljesnyelvhasználatan

Bevezetés Szöveg Annotáció Eszközök Összegzés

A mérheto adat

A sokaság szerepe

a korpusz megszámolhatóvá teszi az adatokata nagy méret kiegyenlíto szerepet játszikugyanakkor szinte kizárja a 100%-ospontosságot/adattisztaságot

A gyakoriság

új dimenziót nyit a nyelvelemzésbenfüggvénye a korpusz összetételének és méretének (mintaarányos-e a teljességgel?)szerepe a nyelvi kompetenciában növekvo mértékbenelismertaz emberi nyelvfeldolgozás modellezésében fontos szerep

Bevezetés Szöveg Annotáció Eszközök Összegzés

A mérheto adat

A sokaság szerepe

a korpusz megszámolhatóvá teszi az adatokata nagy méret kiegyenlíto szerepet játszikugyanakkor szinte kizárja a 100%-ospontosságot/adattisztaságot

A gyakoriság

új dimenziót nyit a nyelvelemzésbenfüggvénye a korpusz összetételének és méretének (mintaarányos-e a teljességgel?)szerepe a nyelvi kompetenciában növekvo mértékbenelismertaz emberi nyelvfeldolgozás modellezésében fontos szerep

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet és szociolingvisztika

Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés

Manapság (mega- és giga korpuszok)

hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira

Hiánycikk: homogén beszédközösséget megörökíto korpusz)

demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/

Jön: BUSZI

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet és szociolingvisztika

Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés

Manapság (mega- és giga korpuszok)

hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira

LDC

Hiánycikk: homogén beszédközösséget megörökíto korpusz)

demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/

Jön: BUSZI

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet és szociolingvisztika

Kezdetben (LOB, BROWN korpusz)hangsúly a nyelvhasználati változatokonforrásokról sok, részletes adat, szerzokrol nagyon kevés

Manapság (mega- és giga korpuszok)

hangsúly egyértelmuen az adatmennyiségenstatisztikai nyelvfeldolgozás céljaira

Hiánycikk: homogén beszédközösséget megörökíto korpusz)

demográfiailag – szociolingvisztikailag érvényes (pl.terepmunkából származó) korpuszVan: Labov gyujtésehttp://projects.ldc.upenn.edu/DASL/SLX/

Jön: BUSZI

Bevezetés Szöveg Annotáció Eszközök Összegzés

Ritka kivételek

British National Corpus (BNC)www.natcorp.ox.ac.uk

10 %-nyi (10 m szó!) hanganyag demográfiai mintavételleladatközlokrol gondos szociológiai nyilvántartás

International Corpus of English (ICE-GB)www.ucl.ac.uk/english-usage/projects/ice-gb

500 szöveg (1 m szó) nagyobb része, 300(!) hanganyagminden mondat szintaktikai szerkezete kézzel annotálvaszintaktikai ágrajz és hallható hangfejlett keresési lehetoség a szintaktikai faszerkezetben

Bevezetés Szöveg Annotáció Eszközök Összegzés

Ritka kivételek

British National Corpus (BNC)www.natcorp.ox.ac.uk

10 %-nyi (10 m szó!) hanganyag demográfiai mintavételleladatközlokrol gondos szociológiai nyilvántartás

International Corpus of English (ICE-GB)www.ucl.ac.uk/english-usage/projects/ice-gb

500 szöveg (1 m szó) nagyobb része, 300(!) hanganyagminden mondat szintaktikai szerkezete kézzel annotálvaszintaktikai ágrajz és hallható hangfejlett keresési lehetoség a szintaktikai faszerkezetben

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpusznyelvészet és szövegnyelvészet

A nyelvi változatok vizsgálata

rétegnyelv, szaknyelv, genre, registerMilyen belso nyelvi jellemzok alapján határozhatók meg?Nagy korpuszon vizsgálható igazánHasznos visszacsatolás a korpusznyelvészet számára is

Bevezetés Szöveg Annotáció Eszközök Összegzés

Párhuzamos korpuszok

Forrásszöveg és annak fordítása

Fordítási megfelelok a mondatok szintjén illesztveillesztés a hunalign eszközzel:http://mokk.bme.hu/resources/hunalign

Nagy erokkel folyik kutatás a mondaton belüli egységekillesztéséreStatisztikai módszerekA statisztikai gépi fordítás óriási páruzamos korpusztigényelhttp://www.statmt.org/

Bevezetés Szöveg Annotáció Eszközök Összegzés

Többnyelvu korpuszokEurópai Parlamenthttp://logos.uio.no/opus/europarl.html

Acquis Communautaire - EU jogszabálygyujteményhttp://langtech.jrc.it/JRC-Acquis.html

Multext-East korpusz és lexikai adatbázishttp://nl.ijs.si/ME/V3/

Magyar-angol korpuszokHunglish korpuszszotar.mokk.bme.hu/hunglish/search/corpus

Acquis Communautaire - EU jogszabálygyujteményhttp://langtech.jrc.it/JRC-Acquis.html

Orwell korpuszhttp://corpus.nytud.hu/orwell

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Az annotáció szerepe

Annotáció = a nyelvi elemzés tárhelyeAz elemzés eredménye az annotációba kerülGyakorlati elony: az online elemzést nem kell mindig ujbólfuttatni

Két lehetséges megvalósítás

Az annotáció a tárgynyelvben elhelyezve (inline)könnyebb megvalósítani, de korlátozottabb(csak helyes beágyazás lehetséges)

Az annotáció szövegtol külön szinteken (stand-off)nehezebb megvalósítani, de rugalmasabb a használata(több szint is lehet, átfedés is lehetséges)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Egy esettanulmány: elotte

Eredeti változat

Bevezetés Szöveg Annotáció Eszközök Összegzés

Egy esettanulmány: utána

XML változat

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Lexikai elemzés

Morfológia

Mára már három teljesköru rendszerHUMOR – MorphoLogic KftHUNMORPH – BME MOKKElekfi-rendszer – MTA NYTI

Lexikai adatbázisigei vonzatkeret adatbázis

kb. 30 ezer igei keret, felszini esetek, szemantikai jegyek,egyedi lexikai elemek is

névszói adatbázisév végére kb. 100 ezer névszó nyelvtani, szemantikaijegyekkel kódolva

Bevezetés Szöveg Annotáció Eszközök Összegzés

Lexikai elemzés

Morfológia

Mára már három teljesköru rendszerHUMOR – MorphoLogic KftHUNMORPH – BME MOKKElekfi-rendszer – MTA NYTI

Lexikai adatbázisigei vonzatkeret adatbázis

kb. 30 ezer igei keret, felszini esetek, szemantikai jegyek,egyedi lexikai elemek is

névszói adatbázisév végére kb. 100 ezer névszó nyelvtani, szemantikaijegyekkel kódolva

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szintaktikai elemzés

ElemzokEgyelore részleges eredmények

METAMORPHO – MorfoLogik KftHUNPARS – BME MOKKNP, AP elemzo, tagmondat felismero – MTA NYTI

Szintaktikai adatbázis (treebank)www.inf.u-szeged.hu/projectdirs/hlt/corpus2.htm

Szeged korpusz1.200.000 szövegszó hat nyelvi változatbólkézzel szerkesztett szintaktikai annotáció

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szintaktikai elemzés

ElemzokEgyelore részleges eredmények

METAMORPHO – MorfoLogik KftHUNPARS – BME MOKKNP, AP elemzo, tagmondat felismero – MTA NYTI

Szintaktikai adatbázis (treebank)www.inf.u-szeged.hu/projectdirs/hlt/corpus2.htm

Szeged korpusz1.200.000 szövegszó hat nyelvi változatbólkézzel szerkesztett szintaktikai annotáció

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemantikai elemzés

WordnetHierarchikus lexikai adatbázis (George Miller, Princeton)Mentális lexikon modelljeEuroWordNet, BalkaNet

Magyar Wordnet

40 000 szavas magyar változatJövo év közepéreInterlingual Index (ILI) – átjárás a többi Wordnetváltozatokhoz

PWN

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemantikai elemzés

WordnetHierarchikus lexikai adatbázis (George Miller, Princeton)Mentális lexikon modelljeEuroWordNet, BalkaNet

Magyar Wordnet

40 000 szavas magyar változatJövo év közepéreInterlingual Index (ILI) – átjárás a többi Wordnetváltozatokhoz

HWN

Bevezetés Szöveg Annotáció Eszközök Összegzés

Szemantikai annotáció

Névkifejezések annotációjaTulajdonnév kifejezések - osztályba sorolva

személy-, intézmény-, földrajzi nevek stb.dátum, pénz, mennyiség kifejezések

szövegekben tömegesen fordulnak eloHUNNER projekt (MOKK, Szeged, NYTI)

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML: a dolog veleje

Hagyományos típusú megoldás

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML: a dolog veleje

Hagyományos típusú megoldás

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML: a dolog veleje

XML megoldás

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

XML pro és kontra

Mellettea formázásban rejtettértelmezést világosan,egyértelmuen mutatjaembernek, gépnekegyaránt jólértelmezhetoegyszeru eszközökkelkivitelezhetocsereszabatos adatfájlok

Ellenetöbbszörösére növeli aszövegetnagy méretben nehezenolvashatógépi felhasználása lassú

Konklúziómegfelelo szerkeszto programmal jól kezelhetoadatleírás, adatcsere számára ideális

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpuszkezelo eszközök

Barátságos, személyi használatra szóló eszközökWORDSMITH www.lexically.net/wordsmith

MONOCONC www.athel.com/mono.html

PARACONC www.athel.com/para.html

Ipari méretu eszközökXAIRA www.oucs.ox.ac.uk/rts/xaira/

BONITO nlp.fi.muni.cz/projects/bonito/

IMS CORPUS WORKBENCH

www.ims.uni-stuttgart.de/projekte/CorpusWorkbench

Bevezetés Szöveg Annotáció Eszközök Összegzés

Korpuszkezelo eszközök

Barátságos, személyi használatra szóló eszközökWORDSMITH www.lexically.net/wordsmith

MONOCONC www.athel.com/mono.html

PARACONC www.athel.com/para.html

Ipari méretu eszközökXAIRA www.oucs.ox.ac.uk/rts/xaira/

BONITO nlp.fi.muni.cz/projects/bonito/

IMS CORPUS WORKBENCH

www.ims.uni-stuttgart.de/projekte/CorpusWorkbench

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

CLaRK - XML szerkeszto és elemzo

http://www.bultreebank.org/clark/index.html

ingyenes xml szerkeszto eszközlépcsozetes, reguláris grammatikákvéges állapotú technológiapárhuzamos korpusz kezelésére is alkalmastestre szabható, jól kezelheto felület

Bevezetés Szöveg Annotáció Eszközök Összegzés

CLaRK - XML szerkeszto és elemzo

Bevezetés Szöveg Annotáció Eszközök Összegzés

CLaRK - XML szerkeszto és elemzo

Bevezetés Szöveg Annotáció Eszközök Összegzés

Vázlat1 Bevezetés

MotivációNyelvtechnológia - nyelvtudományNyelvészet - korpusznyelvészet

2 SzövegKorpusztervezésKorpusznyelvészet és társterületei

3 AnnotációAz annotáció szerepeNyelvelemzési láncXML technológia

4 EszközökKorpuszkezelo eszközökA CLaRK rendszerA NooJ nyelvelemzo keretrendszer

5 Összegzés

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - végesállapotú keretrendszer

Háttérelvek: Maurice Gross, LADL (eros kapcsolat Harriselveivel)lokális grammatika – a lokális függoségekre épülo lexikálisgrammatikasok rokonság a konstrukciós grammatikával:lexikon és grammatika egybemosódása,erosen lexikális meghatározottság stb.Max Silberztein INTEX majd NOOJ szoftver eszköz

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - végesállapotú keretrendszer

Korpuszkezelo eszközgyors, könnyu kezelésfelszini alakok és komplex grammatikai részrendszerekegyaránt lekérdezhetok

Grammatika-fejleszto eszközteljesköru morfológiakomoly lexikon, típusba sorolt jegyrendszerrelbovítheto, gazdagítható szótári komponenslépcsozetesen futtatható lokális grammatikákfejlett grammatikai eszközkészlet

lexikai szurés, jegy egyeztetés, jegy örökítés

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - végesállapotú keretrendszer

Integrált rendszer

az eszköz nyelvfüggetlenakár nulláról felépíthetünk egy grammatikátminden egységesen véges állapotú transzducerkéntmuködikgyors, robusztuskönnyen kezelheto

lexikon és morfológia szövegfájl-ban szerkeszthetonyelvtanok gráfok formájában, intuitív felületen készíthetok

www.nooj4nlp.net

Bevezetés Szöveg Annotáció Eszközök Összegzés

Magyar változat

Az alap infrastruktúra

az ÉKSz. szókészletének teljesköru ragozása80 ezer címszó – kb. 130 m szóalakoptimalizálás még hátravanindulhat a magyar nyelvtanfejleszto munka!

Érdeklodo partnereket keresünk!corpus.nytud.hu/NooJ

Bevezetés Szöveg Annotáció Eszközök Összegzés

Magyar változat

Az alap infrastruktúra

az ÉKSz. szókészletének teljesköru ragozása80 ezer címszó – kb. 130 m szóalakoptimalizálás még hátravanindulhat a magyar nyelvtanfejleszto munka!

Érdeklodo partnereket keresünk!corpus.nytud.hu/NooJ

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

NooJ - lokális grammatika 1,2,3

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Összegzés

A nyelvtechnológia elsosorban az informatikaialkalmazások céljait szolgáljaA végso nyelvészeti kihívás: az emberi szövegértésmodellálásaA korszeru (nyelvi) technológiák alkalmazása a nyelvészetimunkát is képes segíteni

Alkalmazásának elonyeiPontos, explicit fogalmak és eljárások használatára késztetAzonnali visszajelzés, mérheto eredmények

Bevezetés Szöveg Annotáció Eszközök Összegzés

Köszönöm a figyelmet!corpus.nytud.hu/people/varadi/talks/nyelvtec.pdf

vissza

vissza

Linguistic Data Consortium katalógus

Korpusz típusok

Szövegkorpusz típusok

Mindkettoben uralkodó a beszédfeldolgozás igénye vissza