tulajdonnév felismerés
DESCRIPTION
Tulajdonnév felismerés. 2007. 10. 10. Tulajdonnév felismerés. Szemantika és a szintaktika közt félúton. Az első olyan feladat aminek közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith …. - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/1.jpg)
Tulajdonnév felismerés
2007. 10. 10.
![Page 2: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/2.jpg)
Tulajdonnév felismerés
Szemantika és a szintaktika közt félúton.
Az első olyan feladat aminek közvetlen alkalmazásai is vannak.
Fontos részfeladat:
információkinyerés alapegységei
gépi fordítás: Kovács János -> John Smith
…
![Page 3: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/3.jpg)
Mi egy tulajdonnév?
Magyar Helyesírási kézikönyv:tulajdonnév pl: Magyar Nemzeti Bankköznév pl: asztal, alma, bank? File Transfer Protocol, Blootouth, BUX ? Botond étteremNincs egzakt szabály ennek eldöntésre!
named entity: „a szövegnek egy olyan eleme, amely a világ valamely entitására unikusan referál”[email protected] is egy NE
![Page 4: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/4.jpg)
Tulajdonnév a HLT-ben
„Előre definiált osztályokba tartozó tokensorozatok felismerése és klasszifikálása”.
Az osztályokat egy tanítóhalmaz manuális annotációjával „definiálják”.
Például: helynevek, személynevek, szervezetek, e-mail címek
Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például e-mail címek
![Page 5: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/5.jpg)
A klasszifikáció nehézségei
(Felismerés viszonylag egyszerű feladat)
Nyílt halmaz, nem fedhető le szótárakkal!
Gyakran a szövegkörnyezet dönti el a jelentést
pl.: Ford személy, repülőtér, vállalat vagy márkanév?
Szintaktikai információkból kell szemantikai döntéseket meghozni.
![Page 6: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/6.jpg)
Gépi tanulási megközelítések
Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne.
Milyen jellemzőkkel írhatóak le az osztályok?
Két különböző megközelítés:– Token alapú klasszifikáció– Szekvencia jelölés
![Page 7: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/7.jpg)
Jellemzőkészlet
Ortográfiai jellemzőkkezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet,
arab / római szám Gyakorisági adatok
kis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok, gyakoriság Szövegkörnyezet info
trigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició Kifejezés-szintű info
megelőző tokenek címkéi, zárójelben/idézőjelben van, reguláris kifejezések
Egyértelmű szavak szótáratanuló adatbázisból összegyűjtve, betegségek nevei
Trigger szótárakkeresztnevek, kórházformák, országok, városok
![Page 8: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/8.jpg)
Token szintű osztályozás
Az egyes tokeneket klasszifikáljuk.
A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé:
pl: elöző szó kisbetűs-e
Kérdés: megadhatjuk-e a környezet osztálycímkéit?
Általában szükség van egy utófeldolgozó lépésre:
MagyarORG NemzetiLOC BankORG Rt.ORG
![Page 9: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/9.jpg)
Szekvenciális modellek
Cél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést.
P(T|x) : tageloszlás a jellemzőtér felett
x: {kisbetűs, gyakori, zárójelben van}
T: {nem tulajdonnév, szervezet, helység} P(Tt|Tt-1) : átmenet-valószínűségek
P(helység|szervezet)=0.0001
Ezeket a tanuló adatbázis alapján becsüljük.
![Page 10: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/10.jpg)
Szekvenciális modellek
![Page 11: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/11.jpg)
Alkalmazási területek
Magyar gazdasági rövidhírek elemzése Angol újsághírek elemzése Orvosi kórlapok anonimizálása
Lényegében ugyanaz a modell működik:– angolra és magyarra– Két teljesen más feladatra (domainre)
![Page 12: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/12.jpg)
Kiértékelési metrika
Csak a tulajdonnév osztályokra számoljuk.Precízió: Amit C-nek jelölünk az hány esetben CLefedettség: Az összes C-ből hányat találtunk meg.
Fβ=1 a precízió és a lefedettség harmonikus közepe
Frázis szintű metrika Token szintű
MagyarORG NemzetiLOC BankORG Rt.ORG
P_tokenORG=3/3 R_tokenORG=3/4
P_frázisORG=0/2 R_frázisORG=0/1
![Page 13: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/13.jpg)
SzegedNE korpusz
200 ezer szövegszó Gazdasági rövidhírek (NewsML) Személynév, Szervezet, Hely és Egyéb 15 ezer tulajdonnév A korpusz és magyar tulajdonnévtrigger-
listák letölthetőek (licensz) hamarosan: HUNNER
![Page 14: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/14.jpg)
Eredmények a SzegedNE korpuszon
Első statisztikai tulajdonnév-felismerő modell magyar nyelvre
Fβ=1
Szervezet 95,84%
Személy 94,67%
Hely 95,07%
Egyéb 85,96%
mindösszesen 94,77%
![Page 15: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/15.jpg)
CoNLL 2003 adatbázis
A tulajdonnév-felismerés talán legfontosabb nemzetközi referencia adatbázisa
200+50 ezer szövegszó Angol nyelvű újsághírek
– gazdaság, sport, politika témában Személynév, Szervezet, Hely és Egyéb Ez szolgált mintául a SzegedNE korpuszhoz
![Page 16: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/16.jpg)
Eredmények angol nyelvre
egyéni
Szervezet 84,53%Személy 93,55%Hely 92,90%Egyéb 79,67%mindösszesen 89,02%versenyen
győztes88,89%
hibrid
88,32%96,27%93,43%82,29%91,41%
90,30%
![Page 17: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/17.jpg)
Orvosi rekordok feldolgozása
Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb körben
(kórházak)Adatok gyűjtése, statisztikák készítéseKutatómunka elősegítéseA feladatok nagy része automatizálható
Ehhez azonban a személyes információkat el kell távolítani, pontosabban
le kell őket generált egyedekre cserélni!
![Page 18: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/18.jpg)
Anonimizálás
Cél: PHI-k azonosítása és osztályozása a zárójelentésekben– 8 különböző kategória (sok mindent lefed):
PATIENT, DOCTOR, HOSPITAL, LOCATION, ID, PHONE, DATE, AGE (csak ha 90 év feletti)
– Ezek pont a klasszikus named entity osztályok!
Anonimizálás vs De-identifikáció
![Page 19: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/19.jpg)
A felhasznált adatbázis
I2B2 nemzetközi nyílt verseny 671 címkézett orvosi zárójelentés
– (400 ezer token, tartalmaz strukturált részeket is)
Kiértékelés 206 ismeretlen zárójelentésenOrvosi nyelvi feldolgozás
„A/P: 64 yo M known CAD, s/p CABG and PCI in '03presents w NSTEMI in settin of EKG changes s/p cardiaccath and ETT MIBI positive for diffuse disease w mildreversibility in PDA territory cw 100% lesion in SVG.”
Anonimizált adatbázis
![Page 20: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/20.jpg)
Kiértékelés (Fβ=1)
Token Phrase
NON-PHI 99.88
PATIENT 97.27 96.72
DOCTOR 97.41 95.52
HOSPITAL 95.54 94.17
ID 99.29 99.13
DATE 99.44 99.17
PHONE 89.61 91.07
LOCATION 67.82 56.70
AGE 100.0 100.0
overall 99.75 96.79
![Page 21: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/21.jpg)
A rendszer adaptálása a három feladatra
Szótárak (keresztnevek, cégformák stb.) cseréje angolra
Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re
A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)
![Page 22: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/22.jpg)
A jellemzők jellemzői
Próbáltunk POS és szintaktikai kódokat használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert
Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok)
Csak felszíni információk felhasználásával elérhető versenyképes eredmény!
![Page 23: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070405/56813d17550346895da6d44a/html5/thumbnails/23.jpg)
A jellemzők hatása az anonimizálás feladatnál
1. Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi
2. Ortográfiai jellemzők3. Gyakorisági adatok4. Struktúra információ5. Reguláris kifejezések6. Helység szótárak (országok, városok)7. Mondat pozíció8. Idézőjelek / Zárójelek között9. Keresztnevek10. Nem-NE listák