proseminar linguistische annotation · linguistische annotation hinzufugen von linguistischer...
TRANSCRIPT
Proseminar Linguistische Annotation
Ines Rehbein und Josef Ruppenhofer
SS 2010
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 1 / 22
Seminarplan
I. Linguistische Annotation - UberblickI Welche Arten von linguistischer Annotation gibt es?I Wozu sind sie gut?
II. Der AnnotationsprozessI Wie wird annotiert?I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?
III. Wie gut sind unsere Annotationen?
IV. Wie bekomme ich großere Mengen an annotierten Daten?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 2 / 22
Linguistische Annotation
Hinzufugen von linguistischer Information zu einem KorpusI phonetische Annotation (SAM-PA, BITS Sprachsynthesekorpora)I Intonation / prosodische Annotation (ToBI/GToBI)I Wortarten-Annotation (POS-Tagging)I Morpho-SyntaxI Syntax (Baumbanken)I Word Senses (WordNet)I Semantische Rollen (Propbank, Framenet, SALSA)I Named Entities (Person, Organisation, Datum, ...)I Temporale Annotation (TimeBank)I Anaphor/Coreference Annotation (TuBa-D/Z, PoCos)I Diskurs (Penn Discourse Treebank, Chinese Discourse Treebank)I Sentiment-AnnotationI Meta-Information (Alter, Herkunft, Geschlecht, ...)I ...
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 3 / 22
Linguistische Annotationen - Beispiele
Text
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 4 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 5 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging)
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 6 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging) +
morphologische Information
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 7 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging) +
morphologische Information + Kasus
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 8 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging) +
morphologische Information + Kasus + Syntax
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 9 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging) +
morphologische Information + Kasus + Syntax +
Grammatikalische Funktionen (GF)
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 10 / 22
Linguistische Annotationen - Beispiele
Text + Lemmatisierung +
Part-of-speech (POS) (Wortarten-Tagging) +
morphologische Information + Kasus + Syntax +
Grammatikalische Funktionen (GF) + sekundare Kanten
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 11 / 22
Linguistische Annotationen - Beispiele
Wozu das Ganze?
I LemmatisierungF
I Part-of-speech (POS) (Wortarten-Tagging)F
I morphologische InformationF
I SyntaxF
I Grammatikalische Funktionen (GF)F
I sekundare KantenF
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 12 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(1) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(2) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(3) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(4) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(5) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(6) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(7) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(8) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(9) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(10) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Linguistische Annotationen - BeispieleLemmatisierung
I Zuruckfuhrung von flektierten Wortformen auf ihre Grundform - ermoglichtNachschlagen im Lexikon
I Problem: Mehrdeutigkeiten (Rohrohrzucker - Roh rohr zucker - Rohr ohr zucker)
Part-of-speech (POS) (Wortarten-Tagging)I Voraussetzung fur syntaktische AnalyseI hilft bei Information Extraction (und bei vielen anderen NLP tasks)
morphologische InformationI Bedeutungsdisambiguierung:
(11) Die VortragendenNOM PL
gebenPL
der StudentinDAT SG
das Buch.ACC
(12) Den VortragendenDAT PL
gibtSG
die StudentinNOM SG
das Buch.ACC
SyntaxI Suche nach bestimmten syntaktischen StrukturenI Trainingsdaten fur statistische Parser
Grammatikalische Funktionen (GF)I Disambiguierung: Mann/SB beißt Hund/OA vs. Mann/OA beißt Hund/SB
sekundare KantenI vollstandige semantische Interpretation einer Außerung, Identifikation fehlender
Subjekte etc.
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 13 / 22
Seminarplan
I. Linguistische Annotation - Wozu?
I mehr Information (erhoht die Interpretierbarkeit eines Korpus)I Untersuchung linguistischer PhanomeneI Uberprufung linguistischer Theorien
F viele linguistische Theorien entstehen aufgrund von Introspektion→ Armchair linguistics
F aber manchmal ubersieht man was...F Uberprufung linguistischer Theorien mit Hilfe von realistischen Daten
Laßt sich meine Theorie anhand der Daten widerlegen?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 14 / 22
Beispiel I: Partikelverben (Muller & Meurers, 2006)
Theorie: Verbpartikeln konnen nicht vorangestellt werden(Ausnahme: pradikative Partikeln wie auf in aufmachen)
Korpusevidenz:LosPART ging es schon in dieser Woche. (taz, 11.10.1995)VorPART hat er das jedenfalls. (taz, 15.07.1999)
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 15 / 22
Beispiel II: Idiome (Geyken et al., 2004)
Theorie: klassische Ansatze betonen die Invariabilitat von Idiomen(Katz, 1973; Chomsky, 1980)
Korpusevidenz: ein Blatt vor den Mund nehmen
I Pluralisierung:F ohne Blatter vor den Mund zu nehmen
I Quantifizierung:F Hier nahm er manches Blatt vor den MundF der sich 100 Blatter vor den Mund nimmt
I Adjektivische Modifikation eines oder beider Nomen:F mit einem postmodernen Blatt vor dem MundeF kein Blatt vor seinen republikfeindlichen Mund
I Nomen-Modifikation:F ohne das geringste (Klee-)Blatt vor den vorlauten Mund zu nehmen
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 16 / 22
Seminarplan
I. Linguistische Annotation - Wozu?I mehr Information (erhoht die Interpretierbarkeit eines Korpus)I Untersuchung linguistischer PhanomeneI Uberprufung linguistischer TheorienI Ressourcen zum Training von statistischen NLP-Systemen:
F Wortarten-TaggerF Syntaktische ParserF Semantische Parser / Labelling von Semantischen RollenF Systeme zur Lesarten-DisambiguierungF Anaphern-AuflosungF Maschinelles UbersetzenF Automatische SpracherkennungF ...
I Linguistisch annotierte Daten zur Evaluation von NLP-Systemen(Goldstandard)
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 17 / 22
Linguistische Annotation
erhoht die Interpretierbarkeit eines Korpus
zeitaufwandig!
1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten
F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...
2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue
Sprachen Penn Chinese Treebank , Penn Arabic Treebank
I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser
Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22
Linguistische Annotation
erhoht die Interpretierbarkeit eines Korpus
zeitaufwandig!
1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten
F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...
2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue
Sprachen Penn Chinese Treebank , Penn Arabic Treebank
I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser
Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22
Linguistische Annotation
erhoht die Interpretierbarkeit eines Korpus
zeitaufwandig!
1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten
F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...
2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue
Sprachen Penn Chinese Treebank , Penn Arabic Treebank
I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser
Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22
Linguistische Annotation
erhoht die Interpretierbarkeit eines Korpus
zeitaufwandig!
1 StandardisierungI Standards erhohen Konsistenz und VerwendungsbreiteI ermoglichen den Austausch von Daten
F EAGLES (Expert Advisory Group on Language Engineering Standards)F TEI (Text Encoding Initiative)F GrAF (A Graph-based Format for Linguistic Annotations)F ...
2 InteroperabilitatI z.B. die Ubertragung von vorhandenen Annotationsschemata auf neue
Sprachen Penn Chinese Treebank , Penn Arabic Treebank
I oder die Kombination verschiedener Annotationsebenen in eine vereinteReprasentation (z.B. Propbank + Nombank + TimeBank + PennDiscourse treebank + Coreference) XBank Browser
Aber: bevor man Annotationsschemata vereint oder ubertragtI Was sind die Vor- und Nachteile verschiedener Annotationsschemata?I Wie vergleicht man Annotationsschemata?
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 18 / 22
Seminarplan
II. Der AnnotationsprozessI Wie wird annotiert?
F Erstellung von AnnotationsrichtlinienF TrainingF AnnotationsprozessF Qualitatssicherung
I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?
F Annotations-ToolsF RichtlinienF personliche Eignung und Neigung der Annotator/innen
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 19 / 22
Seminarplan
III. Evaluation - Wie gut sind unsere Annotationen?I Evaluation gegen einen manuell annotierten GoldstandardI Inter-Annotator AgreementI Einsatz der Daten als Trainingsset fur Systeme der automatischen
Sprachverarbeitung (Task-based evaluation)
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 20 / 22
Seminarplan
IV. Wie bekomme ich große Mengen an annotierten Daten?I Halb-automatische AnnotationI BootstrappingI Active LearningI Games with a Purpose (z.B. ESP-Game)I kollaborativ erstellte Ressourcen wie WikipediaI ...
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 21 / 22
Seminarplan
I. Linguistische Annotation - UberblickI Welche Arten von linguistischer Annotation gibt es?I Wozu sind sie gut?
II. Der AnnotationsprozessI Wie wird annotiert?I Welche Probleme treten dabei auf?I Welche Faktoren konnen die Annotation beeinflussen?
III. Wie gut sind unsere Annotationen?
IV. Wie bekomme ich großere Mengen an annotierten Daten?
Leistungsnachweis:I 5 LeistungspunkteI Schein fur Hausarbeit + VortragI Beteiligung an kleinen praktischen Ubungen
Ines Rehbein und Josef Ruppenhofer (SS10) Linguistische Annotation April 2010 22 / 22