tulajdonnév felismerés
DESCRIPTION
Tulajdonnév felismerés. 2010.febr. 16. Tulajdonnév felismerés. Közvetlen alkalmazásai is vannak. Fontos részfeladat: információkinyerés alapegységei gépi fordítás: Kovács János -> John Smith. Mi egy tulajdonnév?. Magyar Helyesírási kézikönyv: tulajdonnév pl: Magyar Nemzeti Bank - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/1.jpg)
Tulajdonnév felismerés
2010.febr. 16
![Page 2: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/2.jpg)
Tulajdonnév felismerés
Közvetlen alkalmazásai is vannak.
Fontos részfeladat:
• információkinyerés alapegységei
• gépi fordítás: Kovács János -> John Smith
![Page 3: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/3.jpg)
Mi egy tulajdonnév?• Magyar Helyesírási kézikönyv:
tulajdonnév pl: Magyar Nemzeti Bankköznév pl: asztal, alma, bank? File Transfer Protocol, Blootouth, BUX ? Botond étteremNincs egzakt szabály ennek eldöntésre!
• named entity: „a szövegnek egy olyan eleme, amely a világ valamely entitására unikusan referál”[email protected] is egy NE
![Page 4: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/4.jpg)
Tulajdonnév a HLT-ben „Előre definiált osztályokba tartozó
tokensorozatok felismerése és klasszifikálása”.Az osztályokat egy tanítóhalmaz manuális
annotációjával „definiálják”.Például: helynevek, személynevek, szervezetek,
e-mail címek
Vannak olyan osztályok amik egyszerű szabályokkal (általában reguláris kifejezésekkel) leírhatóak, például e-mail címek
![Page 5: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/5.jpg)
A klasszifikáció nehézségeiFelismerés (viszonylag) egyszerű feladat
Nyílt halmaz, nem fedhető le szótárakkal!
Gyakran a szövegkörnyezet dönti el a jelentést
pl.: Ford személy, repülőtér, vállalat vagy márkanév?
Szintaktikai információkból kell szemantikai döntéseket meghozni.
![Page 6: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/6.jpg)
Gépi tanulási megközelítések
Mivel minden feladat más és más, egy szabály alapú rendszer előállítása igen költséges lenne.
Milyen jellemzőkkel írhatóak le az osztályok?
Két különböző megközelítés:– Token alapú klasszifikáció– Szekvencia jelölés
![Page 7: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/7.jpg)
Jellemzőkészlet• Ortográfiai jellemzők
kezdőbetű típusa, szóhossz, tartalmaz számot / írásjelet, arab / római szám
• Gyakorisági adatokkis/nagybetűs-, mondatközi nagybetűs/nagybetűs arányok,
gyakoriság
• Szövegkörnyezet infotrigger uni- / bi- / trigramok, mondatpozíció, dokumentum pozició
• Kifejezés-szintű infomegelőző tokenek címkéi, zárójelben/idézőjelben van,
reguláris kifejezések
• Egyértelmű szavak szótáratanuló adatbázisból összegyűjtve, betegségek nevei
• Trigger szótárakkeresztnevek, kórházformák, országok, városok
![Page 8: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/8.jpg)
Token szintű osztályozásAz egyes tokeneket klasszifikáljuk.
A környezetből nyerhető információkat egy ablakkal felvesszük a token jellemzői közé:
pl: elöző szó kisbetűs-e
Kérdés: megadhatjuk-e a környezet osztálycímkéit?
Általában szükség van egy utófeldolgozó lépésre:
MagyarORG NemzetiLOC BankORG Rt.ORG
![Page 9: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/9.jpg)
Szekvenciális modellekCél: egész szekvenciára (mondatra) egyszerre megmondani a legvalószínűbb jelölést.
P(T|x) : címkeeloszlás a jellemzőtér felett
x: {kisbetűs, gyakori, zárójelben van}
T: {nem tulajdonnév, szervezet, helység}
P(Tt|Tt-1) : átmenet-valószínűségek
P(helység|szervezet)=0.0001
Ezeket a tanuló adatbázis alapján becsüljük.
![Page 10: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/10.jpg)
Viterbi algoritmus
![Page 11: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/11.jpg)
Alkalmazási területek• Magyar gazdasági rövidhírek elemzése
• Angol újsághírek elemzése
• Orvosi kórlapok anonimizálása
• Lényegében ugyanaz a modell működik:– angolra és magyarra– Két teljesen más feladatra (domainre)
![Page 12: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/12.jpg)
Kiértékelési metrikaCsak a tulajdonnév osztályokra számoljuk.Precízió: Amit C-nek jelölünk az hány esetben CLefedettség: Az összes C-ből hányat találtunk
meg.Fβ=1 a precízió és a lefedettség harmonikus
közepe
MagyarORG NemzetiLOC BankORG Rt.ORG
Frázis szintű metrika Token szintűP_tokenORG=3/3 R_tokenORG=3/4P_frázisORG=0/2 R_frázisORG=0/1
![Page 13: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/13.jpg)
SzegedNE korpusz• 200 ezer szövegszó
• Gazdasági rövidhírek (NewsML)
• Személynév, Szervezet, Hely és Egyéb
• 15 ezer tulajdonnév
• A korpusz és magyar tulajdonnévtrigger-listák letölthetőek
![Page 14: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/14.jpg)
Eredmények a SzegedNE korpuszon
Első statisztikai tulajdonnév-felismerő modell magyar nyelvre
Fβ=1
Szervezet 95,84%
Személy 94,67%
Hely 95,07%
Egyéb 85,96%
mindösszesen 94,77%
![Page 15: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/15.jpg)
CoNLL 2003 adatbázis• A tulajdonnév-felismerés
legfontosabb nemzetközi referencia adatbázisa
• 200+50 ezer szövegszó• Angol nyelvű újsághírek
– gazdaság, sport, politika témában
• Személynév, Szervezet, Hely és Egyéb• Ez szolgált mintául a SzegedNE
korpuszhoz
![Page 16: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/16.jpg)
Eredmények angol nyelvre
egyéni
Szervezet 84,53%Személy 93,55%Hely 92,90%Egyéb 79,67%mindösszesen 89,02%
hibrid
88,32%96,27%93,43%82,29%91,41%
![Page 17: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/17.jpg)
Orvosi rekordok feldolgozása
Motiváció: Hasznos információk tűnnek el a szövegben Szöveges adatbázisok megosztása szélesebb
körben (kórházak)Adatok gyűjtése, statisztikák készítéseKutatómunka elősegítéseA feladatok nagy része automatizálható
Ehhez azonban a személyes információkat el kell távolítani, pontosabban
le kell őket generált egyedekre cserélni!
![Page 18: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/18.jpg)
AnonimizálásCél: PHI-k azonosítása és osztályozása a
zárójelentésekben– 8 különböző kategória (sok mindent lefed):
PATIENT, DOCTOR, HOSPITAL, LOCATION, ID, PHONE, DATE, AGE (csak ha 90 év feletti)
–Ezek pont a klasszikus named entity osztályok!
Anonimizálás vs De-identifikáció
![Page 19: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/19.jpg)
A felhasznált adatbázis• I2B2 nemzetközi nyílt verseny• 671 címkézett orvosi zárójelentés
– (400 ezer token, tartalmaz strukturált részeket is)
• Kiértékelés 206 ismeretlen zárójelentésen
• Orvosi nyelvi feldolgozás„A/P: 64 yo M known CAD, s/p CABG and PCI in '03presents w NSTEMI in settin of EKG changes s/p cardiaccath and ETT MIBI positive for diffuse disease w mildreversibility in PDA territory cw 100% lesion in SVG.”
• Anonimizált adatbázis
![Page 20: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/20.jpg)
Kiértékelés (Fβ=1)
Token Phrase
NON-PHI 99.88
PATIENT 97.27 96.72
DOCTOR 97.41 95.52
HOSPITAL 95.54 94.17
ID 99.29 99.13
DATE 99.44 99.17
PHONE 89.61 91.07
LOCATION 67.82 56.70
AGE 100.0 100.0
overall 99.75 96.79
![Page 21: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/21.jpg)
A rendszer adaptálása a három feladatra
• Szótárak (keresztnevek, cégformák stb.) cseréje angolra
• Orvosi szövegekhez mindössze a cégforma listát cseréltük le {hospital, clinics, memorial, …}-re
• A CoNLL és I2B2 adatbázisokon felhasználtuk a dokumentumok struktúrájában rejlő információkat (1-1 plusz jellemző)
![Page 22: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/22.jpg)
A jellemzők jellemzői • Próbáltunk POS és szintaktikai kódokat
használni, de vagy elhanyagolható volt a jelentőségük vagy csak összekavarták a rendszert
• Nem használtunk semmilyen domain-specifikus szótárat (mint például MeSH kódok)
• Csak felszíni információk felhasználásával elérhető versenyképes eredmény!
![Page 23: Tulajdonnév felismerés](https://reader035.vdocuments.net/reader035/viewer/2022070401/5681369b550346895d9e3836/html5/thumbnails/23.jpg)
A jellemzők hatása az anonimizálás feladatnál
1. Alap jellemzők: kezdőbetű, triggerek, előző tokenek címkéi
2. Ortográfiai jellemzők3. Gyakorisági adatok4. Struktúra információ5. Reguláris kifejezések6. Helység szótárak (országok,
városok)7. Mondat pozíció8. Idézőjelek / Zárójelek között9. Keresztnevek10. Nem-NE listák