ansätze des tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../montyansatzref.pdf ·...

47
"Ansätze des Tagging" "Ansätze des Tagging" 1 14.07.2003 14.07.2003 Ansätze des Ansätze des Tagging Tagging Ein Seminarreferat, Ein Seminarreferat, vorgestellt von vorgestellt von Alexander Valet, Christian Pretzsch und Vanessa Alexander Valet, Christian Pretzsch und Vanessa Micelli Micelli im Rahmen des Hauptseminars „ im Rahmen des Hauptseminars „ Parsing Parsing “ bei “ bei Dr. Karin Haenelt im SS 2003 an der Dr. Karin Haenelt im SS 2003 an der Ruprecht Ruprecht-Karls Universität Heidelberg Karls Universität Heidelberg

Upload: ngoquynh

Post on 06-Mar-2018

250 views

Category:

Documents


4 download

TRANSCRIPT

Page 1: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

"Ansätze des Tagging" "Ansätze des Tagging" 1114.07.200314.07.2003

Ansätze des Ansätze des TaggingTagging

Ein Seminarreferat, Ein Seminarreferat, vorgestellt vonvorgestellt von

Alexander Valet, Christian Pretzsch und Vanessa Alexander Valet, Christian Pretzsch und Vanessa MicelliMicelli

im Rahmen des Hauptseminars „im Rahmen des Hauptseminars „ParsingParsing“ bei “ bei Dr. Karin Haenelt im SS 2003 an der Dr. Karin Haenelt im SS 2003 an der

RuprechtRuprecht--Karls Universität HeidelbergKarls Universität Heidelberg

Page 2: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 22

ÜbersichtÜbersicht

•• Einführung in das Einführung in das POSPOS--TaggingTagging–– GenerellGenerell–– ProbabilistischProbabilistisch–– RegelbasiertRegelbasiert

•• MontyMonty TaggerTagger–– BeispielBeispiel–– ArchitekturArchitektur–– ModuleModule–– TestTest–– EvaluationEvaluation

•• Semantisches Semantisches TaggingTagging–– AllgemeinAllgemein–– SemanticSemantic WebWeb

Page 3: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 33

EinführungEinführung

•• Was ist „Was ist „TaggingTagging“?“?–– Wörter werden mit vordefinierten Etiketten Wörter werden mit vordefinierten Etiketten

versehen (Tagset versehen (Tagset -- abhängig)abhängig)–– Etiketten = Wortarten (Part of Etiketten = Wortarten (Part of SpeechSpeech) oder ) oder

semantische Informationsemantische Information–– Wichtig: Wichtig: DisambiguierungDisambiguierung durch Kontext, etc.durch Kontext, etc.–– Vorstufe des Vorstufe des ParsingsParsings

Page 4: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 44

ProbabilistischesProbabilistisches TaggingTagging II

•• AnnotiertAnnotiert einein WortWort in in einemeinem bestimmtenbestimmtenKontextKontext mitmit demdem wahrscheinlichstenwahrscheinlichsten TagTag

•• Die Die WahrscheinlichkeitWahrscheinlichkeit wirdwird durchdurchBeobachtungenBeobachtungen, die an , die an einemeinem richtigrichtig getaggtengetaggtenKorpusKorpus festgestelltfestgestellt werdenwerden, , berechnetberechnet. .

Page 5: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 55

ProbabilistischesProbabilistisches TaggingTagging IIII

nach Bohm, Stefan / nach Bohm, Stefan / KinscherKinscher, Jürgen W. (1995), Jürgen W. (1995)

RAW TEXT

TOKENIZATION + PRE -

TAGGING

AMBIGUOUSLY ANNOTATED TEXT

DISAMBIGUATION

UNAMBIGUOUSLY ANNOTATED

REFERENCE CORPUS

LEXICAL RESSOURCES

TRANSITION TABLES + WORD

TAG PROBAB.

Page 6: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 66

Regelbasiertes Regelbasiertes TaggingTagging II

•• AnnotierenAnnotieren des des WortsWorts mitmit demdem Tag, Tag, derder am am häufigstenhäufigsten imim TrainingskorpusTrainingskorpus in in VerbindungVerbindung mitmiteinemeinem Token Token auftrittauftritt ((bisbis zuzu 90% 90% richtigerichtige TrefferTreffer) )

•• LernenLernen und und anschließendesanschließendes AnwendenAnwenden derderTransformationenTransformationen

•• RichtigkeitRichtigkeit wirdwird an an manuellmanuell getaggtemgetaggtemReferenzkorpusReferenzkorpus, (100%ige , (100%ige RichtigkeitRichtigkeitvorausgesetztvorausgesetzt), ), gemessengemessen

Page 7: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 77

Regelbasiertes Regelbasiertes TaggingTagging IIII

ANNOTATED TEXT

RAW TEXT

INITIAL STATE CORRECTLY TAGGED TEXTCORPUS

TRANSFORMATIONS

LEARNER

nach nach BrillBrill (1995)(1995)

Page 8: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 88

Tagsets I Tagsets I –– Penn Penn TreebankTreebank

stirring focusing stirring focusing angering...angering...

verb, present verb, present participle or participle or gerund gerund

VBGVBG

third illthird ill--mannered premannered pre--war regrettable...war regrettable...

adjectiveadjective orornumeralnumeral, , ordinalordinal

JJJJ

ExamplesExamplesDescriptionDescriptionTagsTags

http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html

Page 9: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 99

Tagsets I Tagsets I –– Penn Penn TreebankTreebank

Ist nicht eindeutig, welcher Tag annotiert Ist nicht eindeutig, welcher Tag annotiert werden soll, gibt es die Möglichkeit „werden soll, gibt es die Möglichkeit „verticalverticalslashslash Tags“ zu verwendenTags“ zu verwenden

http://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.html

Page 10: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1010

Tagsets I Tagsets I –– Penn Penn TreebankTreebank

Beispiel:Beispiel:

–– The duchess was entertaining last night.The duchess was entertaining last night.

FrageFrage: : IstIst “entertaining” “entertaining” hierhier VBG VBG oderoder JJ? JJ?

......entertainingJJ|VBGentertainingJJ|VBG......

http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html

Page 11: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1111

Tagsets I Tagsets I –– Penn Penn TreebankTreebank

•• Insgesamt 48 Tags (inklusive 12 Tags für Insgesamt 48 Tags (inklusive 12 Tags für Interpunktion)Interpunktion)

•• Penn Penn TreebankTreebank Tagset basiert auf BROWN Tagset basiert auf BROWN Corpus (186 Tags) Corpus (186 Tags) àà Eliminierung Eliminierung üüberflberflüüssiger Tags (Verwenden von ssiger Tags (Verwenden von lexikalischer und semantischer Information) lexikalischer und semantischer Information)

http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html

Page 12: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1212

Tagsets I Tagsets I –– Penn Penn TreebankTreebankElimination of Elimination of lexicallylexically recoverablerecoverable distinctionsdistinctions

hadhad/VBN/VBNdonedone/VBN/VBNbeenbeen/VBN/VBNsungsung/VBN/VBN

havinghaving/VBG /VBG doingdoing/VBG/VBGbeingbeing/VBG/VBGsingingsinging/VBG/VBGhadhad/VBD/VBDdiddid/VBD/VBDwas/VBDwas/VBDsang/VBDsang/VBD

has/VBZ has/VBZ doesdoes/VBZ/VBZisis/VBZ/VBZsingssings/VBZ/VBZ

havehave/VB /VB do/VBdo/VBbebe/VB/VBsing/VB sing/VB

http://http://www.ldc.upenn.eduwww.ldc.upenn.edu//CatalogCatalog//docsdocs /treebank2/cl93.html/treebank2/cl93.html

Page 13: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1313

Lexikalische Regeln ILexikalische Regeln I

•• NN s NN s fhassuffhassuf 1 NNS x 1 NNS x –– verändere den Tag eines Wortes von NN zu NNS, wenn es verändere den Tag eines Wortes von NN zu NNS, wenn es

das Suffix das Suffix --s hat; s hat;

z.B. z.B. webpageswebpages/NN to /NN to webpageswebpages/NNS/NNS

•• NN NN -- fcharfchar JJ xJJ x–– verändere den Tag eines Wortes von NN zu JJ, wenn es verändere den Tag eines Wortes von NN zu JJ, wenn es

den den CharacterCharacter ''--' beinhaltet; ' beinhaltet;

z.B. z.B. manman--mademade, , rulerule--basedbased......

Page 14: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1414

Lexikalische Regeln IILexikalische Regeln II

•• NN ed NN ed fhassuffhassuf 2 VBN x2 VBN x–– verändere den Tag eines Wortes von NN zu VBN, verändere den Tag eines Wortes von NN zu VBN,

wenn es das Suffix wenn es das Suffix --eded hat; hat; –– z.B. z.B. donateddonated/NN to /NN to donateddonated/VBN/VBN

Page 15: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1515

KontextKontext--RegelnRegeln((TransformationsTransformations))

•• CONTEXTUALRULEFILE:CONTEXTUALRULEFILE:

•• NN VB PREVTAG TONN VB PREVTAG TO

•• VBP VB PREV1OR2OR3TAG MDVBP VB PREV1OR2OR3TAG MD•• NN VB PREV1OR2TAG MDNN VB PREV1OR2TAG MD•• VB NN PREV1OR2TAG DTVB NN PREV1OR2TAG DT

Page 16: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1616

KontextKontext--RegelnRegeln

One of One of thethe prevprev. . twotwo tags tags isis DTDT

NNNNVBVB44

One of One of thethe prevprev. . twotwo tags tags isis MDMD

VBVBNNNN33

One of One of thethe prevprev. . threethreetags tags isis MDMD

VBVBVBPVBP22

PreviousPrevious tag tag isis TOTOVBVBNNNN11

ConditionConditiontoto

Change TagChange Tagfromfrom##

nach nach BrillBrill (1995), 20.(1995), 20.

Page 17: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1717

STTSSTTS--TagsetTagset

•• Verschmelzung zweier Verschmelzung zweier PartPart--ofof--SpeechSpeech Tagsets (Uni Tagsets (Uni Tübingen und Uni Stuttgart)Tübingen und Uni Stuttgart)

•• 54 Tags: 48 POS Tags, 6 zusätzliche Tags für 54 Tags: 48 POS Tags, 6 zusätzliche Tags für fremdsprachlfremdsprachl. Material. Material

•• Mehrwortlexeme (entweder...oder, so dass etc. Mehrwortlexeme (entweder...oder, so dass etc. werden als einzelne Worte werden als einzelne Worte getaggtgetaggt àà ideal wideal wääre re Erkennung als ML (Mehrwortlexem)Erkennung als ML (Mehrwortlexem)

•• AbkAbküürzungen: werden wie ausgeschriebene Form rzungen: werden wie ausgeschriebene Form getaggtgetaggt (USA/NE)(USA/NE)

Page 18: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1818

STTSSTTS--TagsetTagset IIII

•• Nomina NNomina N•• Verben V Verben V •• Artikel ARTArtikel ART•• Adjektive ADJ Adjektive ADJ •• Pronomina P Pronomina P •• Kardinalzahlen CARDKardinalzahlen CARD•• Adverbien ADVAdverbien ADV•• Konjunktionen KOKonjunktionen KO•• AdpositionenAdpositionen APAP•• Interjektionen ITJInterjektionen ITJ•• Partikeln PTKPartikeln PTK

Page 19: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 1919

STTSSTTS--TagsetTagset IIIIII

Tag Beispiele:Tag Beispiele:

NNNN NomenNomenNENE EigennamenEigennamenFMFM fremdsprachliches Materialfremdsprachliches Material

(„Er hat das mit „a („Er hat das mit „a bigbig fishfish“/FM übersetzt.“)“/FM übersetzt.“)

Page 20: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2020

STTSSTTS--TagsetTagset IVIV

•• SchreibSchreib--, Syntaxfehlertolerantes Vorgehen, Syntaxfehlertolerantes Vorgehen–– Hautür Hautür àà HaustHaustüür/NNr/NN–– Er hat im gesagt…Er hat im gesagt…àà Er hat ihm/PPERSEr hat ihm/PPERS……

•• Produktnamen: werden als NN nicht als NE Produktnamen: werden als NN nicht als NE getaggtgetaggt

•• DisambiguierungDisambiguierung von Partizipien bzw. von Partizipien bzw. AdjektivenAdjektiven–– Er hat die Haare kurz geschnitten. Er hat die Haare kurz geschnitten.

Page 21: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2121

STTSSTTS--TagsetTagset VV

Kriterien zur Abgrenzung NN/FMKriterien zur Abgrenzung NN/FM•• Deutsche Flexion Deutsche Flexion àà NNNN•• Großgeschrieben, wenn das Großgeschrieben, wenn das

entsprechende Wort in Originalsprache entsprechende Wort in Originalsprache kleingeschrieben wurde kleingeschrieben wurde àà NN, z.B. die NN, z.B. die Contras/NNContras/NN

Page 22: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2222

MontyMonty TaggerTagger II

•• Regelbasierter POS Regelbasierter POS –– TaggerTagger•• Basiert auf Basiert auf BrillsBrills 1994 entwickelten 1994 entwickelten

TransformationalTransformational –– BasedBased LearningLearningPOS POS TaggerTagger

•• In plattformunabhängigem Python In plattformunabhängigem Python und Javaund Java

•• Benutzt als Grundlage die Penn Benutzt als Grundlage die Penn TreebankTreebank

http://web.media.mit.edu/~hugo/research/montytagger.html

Page 23: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2323

MontyMonty TaggerTagger IIII

•• Tokenizer:Tokenizer:–– „Tokenization“ des Eingabetextes„Tokenization“ des Eingabetextes

•• children's children's ----> children 's > children 's •• parents' parents' ----> parents ' > parents ' •• won't won't ----> wo n't > wo n't •• I'm I'm ----> I 'm > I 'm

ØØ Trennung von Wörtern und Interpunktion durch Trennung von Wörtern und Interpunktion durch LeerzeichenLeerzeichen

–– Ausnahme: Abkürzungen und AkronymeAusnahme: Abkürzungen und Akronyme

Page 24: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2424

MontyMonty TaggerTagger IIIIII

•• Lexikon und lexikalische Regeln:Lexikon und lexikalische Regeln:–– Einbindung eines Lexikons und eines Regelsets Einbindung eines Lexikons und eines Regelsets

(„Brill94 lexical rule files“)(„Brill94 lexical rule files“)–– Morphosyntaktische Analyse Morphosyntaktische Analyse –– Zuordnung des „wahrscheinlichsten“ TagsZuordnung des „wahrscheinlichsten“ Tags

•• „golden gate“ „golden gate“ --> /NNP> /NNP•• „race“ „race“ --> /NNS oder /VB ?> /NNS oder /VB ?

Page 25: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2525

MontyMonty TaggerTagger IVIV

•• Kontextregeln und Syntaxanalyse:Kontextregeln und Syntaxanalyse:–– Einbindung der Kontextregeln („Brill94 Einbindung der Kontextregeln („Brill94 contextcontext

rule files“)rule files“)–– Syntaktische (KontextSyntaktische (Kontext--) Analyse: jede Regel wird ) Analyse: jede Regel wird

für alle Wörter geprüft für alle Wörter geprüft –– Überprüfung und anschließende Zuordnung bzw. Überprüfung und anschließende Zuordnung bzw.

Auswahl der „wahrscheinlichsten“ TagsAuswahl der „wahrscheinlichsten“ Tags•• „golden gate“ „golden gate“ --> /NNP> /NNP•• „race“ „race“ --> /NNS oder /VB ? > /NNS oder /VB ? --> Entscheidung: > Entscheidung: racerace /NNS/NNS

Page 26: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2626

BeispielBeispiel

•• OrginaltextOrginaltext::–– “All the 100 million words of the British National “All the 100 million words of the British National

Corpus (BNC) have been grammatically tagged: Corpus (BNC) have been grammatically tagged: that is, a label is attached to each of them, that is, a label is attached to each of them, indicating its grammatical class, or part of speech.” indicating its grammatical class, or part of speech.”

MontyMonty TaggerTagger

Page 27: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2727

BeispielBeispiel ((MontyMonty TaggerTagger))

TokenizerLexikon

ParserKontextParser

TextText

MontyTagger

MontyTagger

Optional für Evaluation TagsetAnalyse

Kontext Regeln

LexikonAusgabe

LexikonRegeln

Page 28: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2828

BeispielBeispiel ((TokenizerTokenizer))•• EingabeEingabe des des TokenizerTokenizer::

–– “All the 100 million words of the British National Corpus “All the 100 million words of the British National Corpus (BNC) have been grammatically tagged: that is, a label is (BNC) have been grammatically tagged: that is, a label is attached to each of them, indicating its grammatical class, or attached to each of them, indicating its grammatical class, or part of speech.”part of speech.”

•• AusgabeAusgabe des des TokenizerTokenizer::–– AllAllÿÿthetheÿÿ100100ÿÿmillionmillionÿÿwordswordsÿÿofofÿÿthetheÿÿBritishBritishÿÿNationalNationalÿÿ

CorpusCorpusÿÿ((ÿÿBNCBNCÿÿ))ÿÿhavehaveÿÿbeenbeenÿÿgrammaticallygrammaticallyÿÿtaggedtaggedÿÿ::ÿÿthatthatÿÿisisÿÿ,,ÿÿaaÿÿlabellabelÿÿisisÿÿattachedattachedÿÿtotoÿÿeacheachÿÿofofÿÿthemthemÿÿ,,ÿÿindicatingindicatingÿÿitsitsÿÿgrammaticalgrammaticalÿÿclassclassÿÿ,,ÿÿororÿÿpartpartÿÿofofÿÿ speechspeechÿÿ..

Lexikon ParserLexikon Parser

Page 29: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 2929

BeispielBeispiel ((Lexikon ParserLexikon Parser))

•• Nach Lexikon „Look up“:Nach Lexikon „Look up“:–– All/DT the/DT 100/UNK million/CD words/NNS of/IN All/DT the/DT 100/UNK million/CD words/NNS of/IN

the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNCBNC/UNK/UNK )/) have/VBP been/VBN grammatically/RB )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.or/CC part/NN of/IN speech/NN ./.

Lexikon RegelnLexikon Regeln

Page 30: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3030

BeispielBeispiel ((Lexikon ParserLexikon Parser))

•• Nach Lexikon Regeln:Nach Lexikon Regeln:–– All/DT the/DT 100/CD million/CD words/NNS of/IN All/DT the/DT 100/CD million/CD words/NNS of/IN

the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNCBNC/NNP/NNP )/) have/VBP been/VBN grammatically/RB )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.or/CC part/NN of/IN speech/NN ./.

Kontext ParserKontext Parser

Page 31: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3131

BeispielBeispiel ((Kontext ParserKontext Parser))

•• All/DT the/DT 100/CD million/CD words/NNS of/IN All/DT the/DT 100/CD million/CD words/NNS of/IN the/DT British/JJ National/NNP Corpus/NNP (/( the/DT British/JJ National/NNP Corpus/NNP (/( BNC/NNP )/) have/VBP been/VBN BNC/NNP )/) have/VBP been/VBN grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, grammatically/RB tagged/VBN :/: that/IN is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO each/DT a/DT label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.speech/NN ./.

AusgabeAusgabe

Page 32: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3232

BeispielBeispiel ((AusgabeAusgabe))

•• All/DT the/DT 100/CD million/CD All/DT the/DT 100/CD million/CD words/NNS of/IN the/DT British/NNP words/NNS of/IN the/DT British/NNP National/NNP Corpus/NNP (/( BNC/NNP )/) National/NNP Corpus/NNP (/( BNC/NNP )/) have/VBP been/VBN grammatically/RB have/VBP been/VBN grammatically/RB tagged/VBN :/: that/WDT is/VBZ ,/, a/DT tagged/VBN :/: that/WDT is/VBZ ,/, a/DT label/NN is/VBZ attached/VBN to/TO label/NN is/VBZ attached/VBN to/TO each/DT of/IN them/PRP ,/, indicating/VBG each/DT of/IN them/PRP ,/, indicating/VBG its/PRP$ grammatical/JJ class/NN ,/, or/CC its/PRP$ grammatical/JJ class/NN ,/, or/CC part/NN of/IN speech/NN ./.part/NN of/IN speech/NN ./.

Page 33: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3333

ArchitekturArchitektur

Lexicon.py ContextualRuleParser.pyLexicalRuleParser.py

EvaluateMonty.py

CleanGoldenStandard.py

MontyTagger.py

Lexicon LexicalRules ContextualRules

MontyTagFile.py

output

Page 34: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3434

DatenbasisDatenbasis

•• Komponenten:Komponenten:–– LexiconLexicon

•• Ca. 100 000 EinträgeCa. 100 000 Einträge–– LexicalRuleFileLexicalRuleFile

•• 148 Regeln 148 Regeln •• NNP NNP inging fhassuffhassuf 3 VBG x3 VBG x

–– ContextualRuleFileContextualRuleFile•• 177 Regeln177 Regeln•• JJ NN SURROUNDTAG IN INJJ NN SURROUNDTAG IN IN•• NN VBG NEXTBIGRAM JJ NNSNN VBG NEXTBIGRAM JJ NNS

Page 35: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3535

MontyTagger.pyMontyTagger.pyAlgorithmus IAlgorithmus I

Ablauf in drei Stufen:Ablauf in drei Stufen:ààINPUT:INPUT:

LexikonabfrageLexikonabfrageLexikonLexikon--RegelnRegeln

KontextKontext--RegelnRegelnàà OUTPUTOUTPUT

Page 36: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3636

LexikonabfrageLexikonabfrage

text_arrtext_arr = [ ]= [ ]BEGINBEGIN

all_posall_pos = = Lexicon.all_pos(tokenLexicon.all_pos(token))IF NOTIF NOT entryentry in in all_posall_pos

THENTHEN markmark pospos as `UNK`as `UNK`ELSEELSE markmark tokentoken withwith firstfirst pospos in listin list

appendappend dictdict {{tokentoken, , pospos, , all_posall_pos} to } to text_arrtext_arr

Page 37: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3737

LexikonLexikon--RegelnRegeln

FORFOR dictdict in in text_arrtext_arrIFIF pospos NOTNOT ´UNK´´UNK´

continuecontinueIFIF tokentoken ISIS uppercaseuppercase

tag as NNPtag as NNPELSEELSE

tag as NNtag as NNapplyapply all all lexlex--rulesrules ( ( text_arrtext_arr, , dictdict ) )

Page 38: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3838

KontextKontext--Regeln IRegeln I

BrillBrill –– VersionVersion

FORFOR i i ININ text_arrtext_arrFORFOR j j IN IN rulerule

apply_ruleapply_rule to to wordword

Page 39: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 3939

KontextKontext--Regeln IIRegeln II

MontyMonty –– versionversiondepth_or_breadth_firstdepth_or_breadth_first::

IFIF depthdepthsamesame as as BrillBrill, , applyapply everyevery rulerule to word1to word1

IFIF breadthbreadthfirefire onlyonly oneone rulerule to word1, word2 ...to word1, word2 ...

Page 40: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4040

KontextKontext--Regeln IIIRegeln III

mainmain--functionfunction: : apply_ruleapply_rule

IFIF from_tagfrom_tag != != pospos::EXITEXIT

IFIF 'UNK' 'UNK' NOT INNOT IN all_posall_pos ANDAND to_tag to_tag NOT INNOT IN all_posall_posEXITEXIT

IFIF predicatepredicate == ´....´== ´....´IFIF real_argsreal_args[…] in [.....]:[…] in [.....]:

update update pospos

Page 41: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4141

EvaluationEvaluation

ØØ PerformancePerformance–– 200 Wörter /s200 Wörter /s

ØØ GenauigkeitGenauigkeit–– ca. 96 ca. 96 –– 97 %97 %

ØØ Fehler: Evaluationsmodul Fehler: Evaluationsmodul

Page 42: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4242

Semantisches Semantisches TaggingTagging

•• Idee:Idee:Statt rein syntaktische Informationen,werden Statt rein syntaktische Informationen,werden einem Text bzw. einem Text bzw. TokenToken auch semantische auch semantische Merkmale zugewiesen.Merkmale zugewiesen.

<<namename> Hellwig </> Hellwig </namename> > <<name><titelname><titel> Prof. </> Prof. </titeltitel> Hellwig </> Hellwig </namename> >

Page 43: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4343

VorgehensweiseVorgehensweise

–– Syntaktisches Syntaktisches TaggingTagging–– Semantisches Semantisches TaggingTagging mit Hilfe von Ontologienmit Hilfe von Ontologien–– MarkupMarkup mit XMLmit XML

Page 44: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4444

XMLXML

•• Auszeichnung des Textes mit XML, einer Auszeichnung des Textes mit XML, einer MetaMeta--MarkupMarkup Sprache.Sprache.

•• XML Standart: well XML Standart: well –– formedformed–– W3CW3C

•• DTD: DTD: validvalid–– legt Elemente festlegt Elemente fest

Page 45: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4545

ProblemProblem

•• Konsistenz der MarkierungKonsistenz der Markierung–– Theater: Gebäude oder InstitutionTheater: Gebäude oder Institution

•• Anaphorische BezügeAnaphorische Bezüge–– „Der Präsident[...]. Er erklärte[...] „Der Präsident[...]. Er erklärte[...]

•• Sehr aufwendiges Sehr aufwendiges TaggingTagging

Page 46: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4646

SemanticSemantic WebWeb

Tim BernersTim Berners--Lee / 1998Lee / 1998Das WWW soll von einem Netz von Hyperlinks Das WWW soll von einem Netz von Hyperlinks zu einem Netz von Inhalten werden.zu einem Netz von Inhalten werden.Informationen sollen in einem maschineInformationen sollen in einem maschine--lesbaren Format abgelegt werden. lesbaren Format abgelegt werden.

www.semanticweb.orgwww.semanticweb.org

Page 47: Ansätze des Tagging - kontext.fraunhofer.dekontext.fraunhofer.de/.../MontyAnsatzRef.pdf · 14.07.2003 "Ansätze des Tagging" 1 Ansätze des Tagging Ein Seminarreferat, vorgestellt

14.07.200314.07.2003 "Ansätze des Tagging" "Ansätze des Tagging" 4747

LiteraturLiteratur

•• Bohm, Stefan / Bohm, Stefan / KinscherKinscher, Jürgen W. (1995), Jürgen W. (1995) : : Das Münster Das Münster TaggingTagging Projekt Projekt ----Automatische Automatische DisambiguierungDisambiguierung deutscher Zeitungstexte" In: Sprache und deutscher Zeitungstexte" In: Sprache und Datenverarbeitung 19(1995)2, S. 3Datenverarbeitung 19(1995)2, S. 3--18 18 ; ;

•• BrillBrill, Eric (1995), Eric (1995) : : ""TransformationTransformation--BasedBased ErrorError--DrivenDriven LearningLearning and and NaturalNaturalLanguageLanguage ProcessingProcessing: A : A CaseCase StudyStudy in in PartPart--ofof--SpeechSpeech TaggingTagging" In: " In: ComputationalComputationalLinguisticsLinguistics 21(1995)4, S. 54321(1995)4, S. 543--565 565 ; ;

•• Schiller, Anne / Teufel, Simone / Schiller, Anne / Teufel, Simone / StöckertStöckert, Christine / Thielen, Christine (?), Christine / Thielen, Christine (?) : : Vorläufige Vorläufige GuidelinesGuidelines für das für das TaggingTagging deutscher Textcorpora mit STTS"deutscher Textcorpora mit STTS" ; ;

•• http://www.csic.cornell.edu/201/natural_language/#lexRuleshttp://www.csic.cornell.edu/201/natural_language/#lexRules•• http://web.media.mit.edu/~http://web.media.mit.edu/~hugohugo//researchresearch//montytagger.htmlmontytagger.html•• http://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.htmlhttp://www.scs.leeds.ac.uk/amalgam/tagsets/upenn.html•• http://http://www.cis.upenn.eduwww.cis.upenn.edu/~/~treebanktreebank//home.htmlhome.html