przetwarzanie jezyka naturalnego lab 8 nerapohllo.pl/text/lab8.pdf · przetwarzanie jezyka˛...
TRANSCRIPT
![Page 1: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/1.jpg)
Przetwarzanie Jezyka NaturalnegoLab 8 – NER
Aleksander Smywinski-Pohl
Wydział IEiTKatedra Informatyki
11.04.2017
1/13
![Page 2: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/2.jpg)
Rozpoznawanie jednostek referencyjnych (nazewniczych)
z Named Entity Recognition – NER
Rozpoznawanie jednostek referencyjnych1 polega naokresleniu, które sposród wyrazen wystepujacych wtekscie odnosza sie do specyficznych obiektównajczesciej posiadajacych własna nazwe oraz jakajest kategoria semantyczna obiektów, do którychodnosza sie te wyrazania.
A. Smywinski-Pohl, Automatyczna ekstrakcja relacji semantycznych z tekstów w jezyku polskim
1W polskiej literaturze funkcjonuje równiez termin rozpoznawaniejednostek nazewniczy.
2/13
![Page 3: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/3.jpg)
Przykład
Korea Północna[GPE ] zagroziła wystrzeleniempocisku balistycznego w kierunku USA[GPE ].
Typy jednostek referencyjnych:z ludzie (ang. people),z organizacje (ang. organizations),z miejsca (ang. locations),z podmioty geopolityczne (ang. geo-political entitites),z obiekty uzytecznosci publicznej (ang. facilities),z pojazdy (ang. vehicles),z etc.
3/13
![Page 4: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/4.jpg)
Popularne metody
z HMM, CRF – modele statystyczne oparte na załozeniuliniowosci zjawisk tekstowych
z entity linking – wykorzystanie mechanizmuujednoznaczniania wyrazen do rozwiazania problemu NER
z (D)RNN – wykorzystanie sieci neuronowych domodelowania odległych zaleznosci tekstowych
4/13
![Page 5: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/5.jpg)
Warunkowe pola losowe
z (linear chain) Conditional Random Fields – CRF
https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond
5/13
![Page 6: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/6.jpg)
Modele generatywne i dyskryminacyjne
https://www.codeproject.com/Articles/559535/Sequence-Classifiers-in-Csharp-Part-II-Hidden-Cond
6/13
![Page 7: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/7.jpg)
Entity linking
z Wykorzystanie Wikipedii jako słownika nazw własnych
Figure: Hasło Polska w poslkiej Wikipedii.
7/13
![Page 8: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/8.jpg)
Entity linking – cd.
Pokrewienstwo semantyczne dwóch haseł w Wikipedii:
SRJ(σa, σb) =
1
1−log(
|A∩B||A∪B|
) |A ∩ B| > 0
0 |A ∩ B| = 0 ∧ a 6= b1 |A ∩ B| = 0 ∧ a = b
(1)
Cechy ujednoznaczniajace:
Hasło SRw Psense G RSR Rsense Plink +/−Burowie 0,32 0,93 84 0 0 0,18 +Afrykanerzy 0,18 0,04 84 1 1 0,18 -Burowo 0,01 0,03 84 2 1 0,18 -
8/13
![Page 9: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/9.jpg)
Entity linking – cechy ujednoznaczniajace
z SRw – wazone pokrewienstwo semantycznez Psense – prawdopodobienstwo sensuz G – „gestosc” kontekstu semantycznegoz RSR – ranga pokrewienstwa semantycznegoz Rsense – ranga sensuz Plink – prawdopodobienstwo wystepowania jako odnosnik
w Wikipediiz +/− – przykład pozytywny/negatywny
9/13
![Page 10: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/10.jpg)
Rekurencyjne sieci neuronowe – seq2seq
https://www.slideshare.net/emorynlp/rnn-lstm-and-seq2seq-models
10/13
![Page 11: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/11.jpg)
Rekurencyjne sieci neuronowe – LSTM
https://www.slideshare.net/eefjeopdenbuysch/machine-learning-for-robot-journalism-59993401
11/13
![Page 12: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/12.jpg)
Zadania
Celem zadania jest utworzenie indeksu nazw osobowych imiejscowych dla pliku potop.txt.
1 zapoznac sie ze schematami klasyfikacyjnymi orazformatami wyjsciowymi narzedzia Liner2, wybrac schematoraz format adekwatny dla zadania, przetworzyc próbketekstu w oparciu o Linera (1 pkt)
2 stworzyc indeks nazw osobowych i miejscowych dla całegopliku potop.txt oraz narzedzie pozwlajace na wyswietleniewszystkich wystapien okreslonej nazwy wraz z kontekstem(obejmujacym stała liczbe linii tekstu) wystapienia (1 pkt)
3 obliczyc statystyke wystepowania poszczególnych nazwosobowych i miejscowych; znalezc 10 najczestszych nazwosobowych i 10 najczestszych nazw miejscowych (1 pkt)
12/13
![Page 13: Przetwarzanie Jezyka Naturalnego Lab 8 NERapohllo.pl/text/lab8.pdf · Przetwarzanie Jezyka˛ Naturalnego Lab 8 – NER Aleksander Smywinski-Pohl´ Wydział IEiT Katedra Informatyki](https://reader035.vdocuments.net/reader035/viewer/2022071014/5fcc91be4510046e8c42e5f7/html5/thumbnails/13.jpg)
Materiały
z http://apohllo.pl/texts/lab3.tar.gz (plikpotop.txt)
z Clarin WS http://nlp.pwr.wroc.pl/redmine/projects/nlprest2/wiki/Liner2
z Smywinski-Pohl A. (2015). Automatyczna ekstrakcja relacjisemantycznych z tekstów w jezyku polskimi (pracadoktroska).
z Pohl A. (2013). Knowledge-based Named EntityRecognition in Polish
z Pohl A. (2012). Improving the Wikipedia Miner WordSense Disambiguation Algorithm.
13/13