grammatische annotation historischer texte – ein …...ablauf 10.09.2015 1 •ren-projekt...
TRANSCRIPT
![Page 1: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/1.jpg)
SARAH IHDEN [email protected]
FABIAN BARTELD [email protected]
KATHARINA DREESSEN [email protected]
INGRID SCHRÖDER [email protected]
GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN TAGSET FÜR DAS MITTELNIEDERDEUTSCHE
RÄUME - GRENZEN - ÜBERGÄNGE: 5. Kongress der Internationalen Gesellschaft für Dialektologie des Deutschen
10. - 12. September 2015 Universität Luxemburg
![Page 2: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/2.jpg)
Ablauf
10.09.2015
1
• ReN-Projekt • Rahmendaten • Korpusdesign und -erstellung
• Besonderheiten des Mittelniederdeutschen • Historisches-Niederdeutsch-Tagset (HiNTS)
• Basis • PoS-Tagging • Flexionsmorphologisches Tagging
• Resümee
![Page 3: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/3.jpg)
Rahmendaten
![Page 4: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/4.jpg)
Rahmendaten
10.09.2015
2
Referenzkorpus Mittelniederdeutsch/ Niederrheinisch (1200-1650) • Teil des ‚Korpus historischer Texte des Deutschen‘, gemeinsam mit den
Referenzkorpora • Altdeutsch • Mittelhochdeutsch • Frühneuhochdeutsch
• Basis sind Handschriften, Drucke und Inschriften Ziel des Projekts • digitale Veröffentlichung diplomatisch transkribierter, lemmatisierter und
grammatisch annotierter Texte Nutzen des Referenzkorpus • verschafft Einblicke in die Sprach- und Textkultur des niederdeutschen und
niederrheinischen Raums • ermöglicht sprachwissenschaftliche Analysen
![Page 5: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/5.jpg)
Korpusdesign
![Page 6: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/6.jpg)
Korpusdesign
10.09.2015
3
Korpusfeld
Schreib-sprachlandschaft
Standort Hamburg Standort Münster Nordniedersächsisch Lübeckisch
Ostelbisch Westfälisch Baltisch Ostfälisch
Südmärkisch Elbostfälisch Niederrheinisch
![Page 7: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/7.jpg)
Korpusdesign
10.09.2015
3
Korpusfeld
Schreib-sprachlandschaft
Zeitraum
I: 1200-1300 V: 1451-1500 II: 1301-1350 VI: 1501-1550 III: 1351-1400 VII: 1551-1600 IV: 1401-1450 VIII: 1601-1650
![Page 8: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/8.jpg)
Korpusdesign
10.09.2015
3
Recht Urkunden
Verwaltung Wissensvermittlung Religion (Kirchliches)
Literarische Texte Private Schriftlichkeit und Korrespondenz
Inschriften
Korpusfeld
Schreib-sprachlandschaft
Zeitraum Feld der
Schriftlichkeit
![Page 9: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/9.jpg)
Korpuserstellung
![Page 10: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/10.jpg)
Korpuserstellung
10.09.2015
4
Phase 1: Textaufbereitung/ Transkription
Phase 2: Annotation (PoS- und flexionsmorph. Tagging, Lemmatisierung)
Phase 3: Publikation (Annis, TEI)
Nutzung
![Page 11: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/11.jpg)
Sprachspezifische Besonderheiten
![Page 12: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/12.jpg)
Sprachspezifische Besonderheiten
10.09.2015
5
Wortartwechsel to dondeVVINF hebben oder
to dondeNA hebben Syntaktische Ambiguität dochterNA.Fem.Gen.Sg nameNA.Masc.Nom.Sg oder dochternameNA.Masc.Nom.Sg
![Page 13: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/13.jpg)
Historisches-Niederdeutsch-Tagset (HiNTS) Basis
![Page 14: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/14.jpg)
Voraussetzungen
10.09.2015
6
• low-resourced language • keine Tools zur automatischen Annotation vorhanden • keine Trainingsdaten für statistische Tools vorhanden • kaum elektronische Ressourcen vorhanden
(z.B. Wörterbuch) → keine Standards für die Annotation mnd. Daten
• POS-Tagset (inkl. Morphologie), Lemmainventar
![Page 15: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/15.jpg)
Existierende Tagsets
10.09.2015
7
STTS (PoS + Morphologie)
→ HiTS (PoS)
Stuttgart-Tübingen-Tagset (Schiller et al. 1999)
Historisches Tagset (Dipper et al. 2013)
![Page 16: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/16.jpg)
Wortarten STTS und HiTS
10.09.2015
8
Nomen – N Adverbien – ADV, AV
Verb – V Junktionen – KO
Determinierer – D (Artikel – ART) Appositionen – AP
Adjektiv – ADJ Interjektion – ITJ
Pronomina – P (Pronominaladverb – PAV) Partikel – PTK
Kardinalzahlen – CARD
![Page 17: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/17.jpg)
Tag-Aufbau
10.09.2015
9
• Die Hauptwortarten sind nach funktionalen und distributionellen Kriterien subklassifiziert
Beispiel (HiTS): DDART Determinativ, definit, artikelartig
• Angabe einer Basiswortart Beispiel: to dondeNA < VVINF hebben
![Page 18: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/18.jpg)
Anforderungen an ein MND-Tagset
10.09.2015
10
Anforderungen (I) 1. Möglichst nah an existierenden Tagsets bleiben
(POS: HiTS, Morphologie: STTS) → Aber: 2. Tags müssen anhand des konkreten Kontextes auswählbar sein
(keine muttersprachliche Intuition) • Beispiel (STTS):
• PIAT (attribuierendes Indefinitpron., ohne Determinierer vorkommend) • [etwas] Schokolade
vs. • PIDAT (attribuierendes Indefinitpron., mit Determinierer vorkommend)
• [solch] eine Frage
→ dies ist erst als Ergebnis der Korpusauswertung entscheidbar
![Page 19: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/19.jpg)
Anforderungen an ein MND-Tagset
10.09.2015
11
Anforderungen (II)
3. Ambiguitäten kennzeichnen • Beispiel:
• KON vs. KOU nicht immer entscheidbar > HiTS hat KO*
4. Aber: so spezifisch wie möglich sein • STTS kennt in der Morphologie nur eine eindeutige
Zuweisung oder ambig (*)
![Page 20: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/20.jpg)
Konsequenz
10.09.2015
12
→ daher weder STTS noch HiTS ohne Modifikation geeignet → Eigene angepasste Version von HiTS:
HiNTS (PoS + Morphologie)
![Page 21: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/21.jpg)
Historisches-Niederdeutsch-Tagset (HiNTS) Part of Speech (PoS) Flexionsmorphologie
![Page 22: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/22.jpg)
Historisches-Niederdeutsch-Tagset (HiNTS) Part of Speech (PoS) Flexionsmorphologie
![Page 23: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/23.jpg)
Abweichungen von HiTS
10.09.2015
13
HiTS (Dipper et al. 2013: 36f.) unterscheidet zwischen: • Tags mit D... (Determinativa) → 2 Unterkategorien: Typ + Position, z.B.:
• [dise]DDA rede (Determinativ, definit/demonstrativ, attributiv)
• [dizze]DDS ist ein anphanclich zít (Determinativ, definit/demonstrativ, substituierend)
• Tags mit P... (Pronomen): stets substituierend → nur eine Unterkategorie: Typ, z.B.: • manPI (Pronomen, indefinit)
→ Problem: vorab als Pronomen klassifiziertes Lexem in anderer Distribution (nicht substituierend), z.B. man vor einem Substantiv i.S.v. ‚irgendein‘(Bsp. konstruiert)
![Page 24: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/24.jpg)
Abweichungen von HiTS
10.09.2015
14
→ lexembezogene Vorannahmen in HiNTS vermeiden → 2 Gruppen: • Tags mit D... → attributiv, z.B.:
• [dyt]DDA ghut kanstu allene nyth ghe wynnen (Determinativ, definit/demonstrativ, attributiv, vorangestellt)
• Tags mit DP... → substituierend, z.B.: • dat my [nemant]DPNEGS kunne lyken (Determinativ/Pronomen, negativ, substituierend)
↓ Nutzen: Ermittlung von Lemmata, die nur substituierend vorkommen und daher tatsächlich Pronomen sind
![Page 25: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/25.jpg)
Qualitätssicherungsverfahren Inter-Annotator-Agreement
10.09.2015
15
• Anwendung des MAMA-Zyklus (vgl. Pustejovsky/ Stubbs 2012) • 2 Inter-Annotator-Agreements mit je 2 Annotatoren
• IAA I: • PoS-Taggings und flexionsmorphologisches Tagging • keine Lemmatisierung • ausschließlich manuelles Tagging
• IAA II: • PoS-Taggings und flexionsmorphologisches Tagging • Lemmatisierung mittels Lemmaliste • halbautomatisches Tagging
![Page 26: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/26.jpg)
Qualitätssicherungsverfahren Inter-Annotator-Agreement PoS
10.09.2015
16
ART DER ABWEICHUNG IAA I IAA II IAA III
Abweichungen aufgrund fehlender Regeln 8,9% 3,7% ↘
Abweichungen trotz bestehender Regeln 3,1% 5,7% ↘
unterschiedliches Textverständnis 1,0% 1,9% →
gesamt 13,0% 11,3% ↘
Abweichungen trotz bestehender Regeln: • Regelverstoß • Folgefehler • Annotation vergessen/ Aufmerksamkeit
![Page 27: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/27.jpg)
Historisches-Niederdeutsch-Tagset (HiNTS) Part of Speech (PoS) Flexionsmorphologie
![Page 28: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/28.jpg)
Flexionsmorphologisches Tagset
10.09.2015
17
• Die Art und der Umfang der Tags sind abhängig von PoS
Beispiele:
Her marcus meyger myn leue frunth klagent mack my nycht baten [...] (Brief v. A. Willeken, 1535)
frunthNA.Masc.Nom.Sg mackVMFIN.3.Sg.Pres.Ind nychtPTKNEG
• STTS nutzt das Sternchen (*) für Ambiguitäten
→ Nachteile:
• keine Angabe der konkreten möglichen Werte (z.B. Dat. und Akk., aber nicht Gen.)
• Tendenz, eine Entscheidung herbeizuführen, vgl. TIGER : „[...] Nur wenn es nicht gelingt, im gegebenen Kontext dem Attribut einen eindeutigen Wert zuzuweisen, soll der Wert * zugewiesen werden.“ (TIGER-Morphologie-Annotationsschema 2015: 5)
→ für Nhd. möglich, für historische Sprachstufen problematisch, da zu interpretatorisch
![Page 29: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/29.jpg)
Herausforderungen der flexionsmorphologischen Annotation
10.09.2015
18
Genusambiguität Beispiel:
Dit is der sassen speyghel (Oldb. Ssp., Überschrift)
TOKEN POS MORPHOLOGIE
Dit DPDS
is VVFIN
der DDARTA
sassen NA
speyghel NA Masc-Neut.Nom.Sg
Vgl. Barteld et al. (2014)
![Page 30: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/30.jpg)
Qualitätssicherungsverfahren Inter-Annotator-Agreement Morph.
10.09.2015
19
ART DER ABWEICHUNG IAA I IAA II IAA III
Abweichungen aufgrund fehlender Regeln 8,2% 1,7% ↘
Abweichungen trotz bestehender Regeln 11,6% 12,6% ↘
unterschiedliches Textverständnis 0% 0,5% →
gesamt 19,8% 14,8% ↘
Abweichungen trotz bestehender Regeln: • Regelverstoß • Folgefehler • Annotation vergessen/ Aufmerksamkeit
![Page 31: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/31.jpg)
Resümee
![Page 32: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/32.jpg)
Resümee
10.09.2015
20
• Entwicklung des HiNTS aufgrund sprachspezifischer Besonderheiten des Mittelniederdeutschen
• Qualitätssicherungsverfahren sind von hoher Wichtigkeit • Inter-Annotator-Agreements zeigten:
• HiNTS ist erfolgreich anwendbar • mit HiNTS sinkt der Grad der Interpretation • Abweichungen zwischen den Annotatoren haben unterschiedliche
Ursachen • systematische Abweichungen lassen sich reduzieren • Routinierte Anwendung wird aufmerksamkeitsbedingte Fehler und
Regelverstöße herabsetzen
![Page 33: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/33.jpg)
Herzlichen Dank für Ihre Aufmerksamkeit!
![Page 34: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/34.jpg)
Literatur
10.09.2015
21
• Barteld, Fabian/ Ihden, Sarah/ Schröder, Ingrid/ Zinsmeister, Heike (2014): „Annotating descriptively incomplete language phenomena”. In: Proceedings of LAW VIII - The 8th Linguistic Annotation Workshop, August 2014, Dublin, S. 99-104. Online verfügbar unter: http://www.aclweb.org/anthology/W14-4915.
• Dipper, Stefanie/ Donhauser, Karin/ Klein, Thomas/ Linde, Sonja/ Müller, Stefan/ Wegera, Klaus-Peter (2013): „HiTS: ein Tagset für historische Sprachstufen des Deutschen“. In: Journal for Language Technology and Computational Linguistics, Special Issue, 28(1), 85-137.
• Pustejovsky, James/ Stubbs, Amber (2012): Natural Language Annotation for Machine Learning. A Guide to Corpus-Building for Applications. Beijing [u.a.].
• Rehbein, Ines/ Hirschmann, Hagen/ Lüdeling, Anke/ Reznicek, Marc (2012): “Better tags give better trees – or do they?”. In: Linguistic Issues in Language Technology (LILT). Volume 7, S. 1-18.
• Rehbein, Ines/ Schalowski, Sören (2013): „STTS goes Kiez – Experiments on Annotating and Tagging Urban Youth Language“. In: Journal for Language Technology and Computational Linguistics (JLCL), Special Issue, 28(1), S. 199-227.
• Schiller, Anne/ Teufel, Simone/ Stöckert, Christine: Guidelines für das Tagging deutscher Textcorpora mit STTS (Kleines und großes Tagset). Stuttgart, Tübingen 1999: Univ. Stuttgart, Univ. Tübingen
• TIGER Morphologie-Annotationsschema (2015). Auf: http://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/TIGERCorpus/annotation/tiger_scheme-morph.pdf. [Zuletzt gesehen am 02.09.15]
![Page 35: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/35.jpg)
Anhang
![Page 36: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/36.jpg)
Qualitätssicherungsverfahren Inter-Annotator-Agreement PoS
10.09.2015
22
ART DER ABWEICHUNG IAA I IAA II IAA III
Abweichungen aufgrund fehlender Regeln 8,9% 3,7%
Abweichungen trotz bestehender Regeln 3,1% 5,7%
unterschiedliches Textverständnis 1,0%
gesamt 13,0%
![Page 37: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/37.jpg)
IAA PoS Abweichungen trotz bestehender Regeln
10.09.2015
23
ART DER ABWEICHUNG IAA I IAA II
Regelverstoß 78,6% 62,5%
Folgefehler 21,4% 23,2%
Annotation vergessen, Aufmerksamkeit 0% 14,3%
gesamt 100% 100%
![Page 38: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/38.jpg)
Qualitätssicherungsverfahren Inter-Annotator-Agreement Morph.
10.09.2015
24
ART DER ABWEICHUNG IAA I IAA II IAA III
Abweichungen aufgrund fehlender Regeln 8,2% 1,7%
Abweichungen trotz bestehender Regeln 11,6% 12,6%
unterschiedliches Textverständnis 0%
gesamt 19,8%
![Page 39: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/39.jpg)
IAA Morphologie Abweichungen trotz bestehender Regeln
10.09.2015
25
ART DER ABWEICHUNG IAA I IAA II
Regelverstoß 35,6% 47,3%
Folgefehler 57,8% 25,5%
Annotation vergessen, Aufmerksamkeit 5,6% 17,3%
tagger-reproduzierte Fehler - 10,0%
verschiedene 1,1% 0%
gesamt 100% 100%
![Page 40: GRAMMATISCHE ANNOTATION HISTORISCHER TEXTE – EIN …...Ablauf 10.09.2015 1 •ReN-Projekt •Rahmendaten •Korpusdesign und -erstellung •Besonderheiten des Mittelniederdeutschen](https://reader034.vdocuments.net/reader034/viewer/2022042418/5f35183fda69452636411bb5/html5/thumbnails/40.jpg)
IAA in anderen Korpora (PoS)
10.09.2015
26
• Rehbein et al. (2012, 8): • Annotation von Lernersprache mit dem STTS • Annotatorenübereinstimmung von 97,9 %
• Rehbein/ Schalowski (2013: 208) • Annotation des Kiezdeutsch-Korpus mit dem dafür
erweiterten Tagset • Annotatorenübereinstimmung von 96,5 %