hs 2016: einführung in die computerlinguistik i · kapitel1 organisatorisches 1.1...
Post on 16-Aug-2019
220 Views
Preview:
TRANSCRIPT
-
HS 2016: Einführung in die Computerlinguistik I
Simon Clematidesimon.clematide@cl.uzh.ch
Hinweis: Dieses Skript umfasst nur den Stoff, der von Simon Clematide unterrichtet wurde. Dieses Lauftext-skript wurde automatisch aus den Vorlesungsfolien generiert und ist deshalb bezüglich Layout und Formulie-rungen nicht für Fliesstext optimiert.
Version von 2. November 2017PDF-Skript: http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfOLAT-Seite: https://lms.uzh.ch/url/RepositoryEntry/16112484562
Universität ZürichInstitut für ComputerlinguistikBinzmühlestr. 148050 Zürich
1
mailto:simon.clematide@cl.uzh.chhttp://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfhttps://lms.uzh.ch/url/RepositoryEntry/16112484562http://www.uzh.chhttp://www.cl.uzh.ch
-
Inhaltsverzeichnis
1 Organisatorisches 51.1 Organisatorisches . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.1.1 Leistungsnachweis . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 61.1.2 Lernen und Lehren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
1.2 Kontrollfragen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
2 Was ist CL? 82.1 Motivation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82.2 Fachrichtungen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2.1 Computerlinguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.2 Sprachtechnologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2.3 Weitere . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102.2.4 Anliegen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
2.3 Nachbardisziplinen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3.1 Linguistik . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3.2 Kognitionswissenschaft . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
2.4 Krux . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17
3 Tokenisierung 193.1 Tokenisierer . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
3.1.1 Grundproblem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 193.1.2 Kodierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203.1.3 Programme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
3.2 XML . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 253.3 Tokenisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
3.3.1 Problem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 273.3.2 Punktdisambiguierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 283.3.3 Normalisierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.3.4 NER . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30
3.4 Multilingualität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 303.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32
4 Linguistisches Propädeutikum I 344.1 Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
4.1.1 Token . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.2 Wortform . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.3 synt. Wort . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 354.1.4 Lexem . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
1
-
4.2 Wortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.1 5 Hauptwortarten . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2.2 UD . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 384.2.3 STTS/PTTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41
4.3 Merkmale . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.3.1 Genus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.3.2 Zahl . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.3 Kasus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.4 Modus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 444.3.5 Zeit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.6 Person . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.7 Grad . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 454.3.8 Flexion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45
4.4 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.1 Ersetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 464.4.2 Einsetzen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47
4.5 Morphologie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 474.5.1 Lemmatisierung/Morphologieanalyse . . . . . . . . . . . . . . . . . . . . . 484.5.2 Morphologiegenerierung . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
4.6 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50
5 Linguistisches Propädeutikum II 525.1 Proben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
5.1.1 Weglassen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 535.1.2 Verschieben . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545.1.3 Umformen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
5.2 Satz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.1 Satzglieder . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2.2 Köpfe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
5.3 Syntaxanalyse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.1 Konstituenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 565.3.2 Dependenz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 585.3.3 UD-DE . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 595.3.4 Suche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
5.4 Ambiguität . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 645.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
6 Endliche Automaten 656.1 Formale Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 66
6.1.1 Mengen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.1.2 Zeichen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 666.1.3 Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
6.2 EA und reguläre Sprachen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 696.2.1 Konkatenation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 716.2.2 Reguläre Ausdrücke . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72
6.3 Transduktoren . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75
2
-
7 Flache Satzverarbeitung 777.1 Tagging . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
7.1.1 Probleme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 797.1.2 Fallstudie TnT-Tagger . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81
7.2 Evaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 837.2.1 Zweck . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.2.2 Accuracy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 847.2.3 Lernkurven . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2.4 Recall . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 857.2.5 Precision . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 867.2.6 F-Measure . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86
7.3 Chunking . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 877.3.1 Abney . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3.2 IOB-Chunk . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 887.3.3 Verschachtelte Chunks . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89
7.4 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 897.5 Exkurs: Evaluation binärer Klassifikatoren . . . . . . . . . . . . . . . . . . . . . . 90
7.5.1 TP:FP:FN:TN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 907.5.2 Fehlerparadoxe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.5.3 Unterschiede . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 917.5.4 Mittelwerte . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 927.5.5 Vertiefung . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3
-
Abbildungsverzeichnis
2.1 Sprechende Maschine von 1791 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
3.1 Navigationselemente der Web-Site der Olympischen Spiele 2008 . . . . . . . . . . 203.2 Schematische Darstellung der Verschachtelung der XML-Tags . . . . . . . . . . . 253.3 Demo von Standford Temporal Tagger: Eingabeformular . . . . . . . . . . . . . . 313.4 Demo von Standford Temporal Tagger: Resultatsdarstellung in XML . . . . . . . 313.5 N-Gramm-Profile nach [Cavnar und Trenkle 1994] . . . . . . . . . . . . . . . 32
4.1 5 Hauptwortarten nach Glinz . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 374.2 Deutsche UD-Baumbank . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 394.3 CoNLL-U und CoNLL-X . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 414.4 Hauptkategorien von STTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 424.5 Hauptkategorien des PTTS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
5.1 Moderne Satzgliedlehre . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 555.2 Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung . . . . . . . . . . 565.3 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 575.4 Syntaktische Funktion in der NEGRA-Darstellung . . . . . . . . . . . . . . . . . 585.5 Syntaktische Funktionen in Balken-Darstellung (Balkendiagramm) . . . . . . . . 595.6 Beispielsatz mit allen zu annotierenden NP- und S-Knoten . . . . . . . . . . . . . 63
6.1 Sprache mit 3 Wörtern/Zeichenketten . . . . . . . . . . . . . . . . . . . . . . . . 696.2 Deterministischer EA . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 706.3 Formale Sprachen, reguläre Ausdrücke und endliche Automaten . . . . . . . . . . 74
7.1 Tagging-Ambiguitätsraten aus der Frankfurter Rundschau . . . . . . . . . . . . . 807.2 Training, Tagging und Evaluation mit dem TnT-Tagger . . . . . . . . . . . . . . 827.3 Tnt-Evaluation an Penn Treebank durch Thorsten Brants . . . . . . . . . . . . . 867.4 Tnt-Evaluation an NEGRA Treebank durch Thorsten Brants . . . . . . . . . . . 877.5 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 887.6 Partielle Analyse von einem Chunk-Tagger (TreeTagger) von H. Schmid . . . . . 887.7 F-Mass in dreidimensionaler Darstellung . . . . . . . . . . . . . . . . . . . . . . . 937.8 Arithmetisches vs. harmonisches Mittel . . . . . . . . . . . . . . . . . . . . . . . 94
4
-
Kapitel 1
Organisatorisches
1.1 OrganisatorischesInhalt der Vorlesung ECL I
• „Einführung in die Computerlinguistik I (+ II)“ geben eine Übersicht über die wichtigstenpraktischen und theoretischen Ziele der Computerlinguistik.
• Vorgestellt werden texttechnologische Grundlagen (Textsegmentierung, Wortartenbestim-mung, Syntaxanalyse) und wichtige Anwendungen (Maschinelle Übersetzung, Sprachsyn-these, Spracherkennung Textsuche, Informationsextraktion)
• Im Kurs integriert ist ein linguistisches Propädeutikum, wo das notwendige grammati-kalische Wissen im Rahmen computerlinguistischer Annotation aufgefrischt bzw. vertieftwird.
• Keine Programmiersprachenkenntnisse vorausgesetzt!
Kurs-Leitseite im WWW und Lehrmaterialien
OLAT-Campus-Kurs “16HS 520001.0 CL EV: Einführung in die Computerlinguis-tik I”1
• Wer belegt diese Vorlesung via Modul “Introduction to Computational Linguistics, PartI”?
• Folien als PDF-Dokumente unter “Materialien” (4up-Format zum Ausdrucken für VL-Teilvon Clematide) nach der Vorlesung verfügbar
• Lauftextversion des Folienskripts (PDF-Dokument) mit Index und Ergänzungen für Prü-fungsvorbereitung2
Kursbuch (3. Auflage): [Carstensen et al. 2009]3Computerlinguistik und Sprachtechnologie: Eine Einführung.→ Pflichtlektüren stehen auf OLAT als PDF zur Verfügung.
1https://lms.uzh.ch/url/RepositoryEntry/161124845622 http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdf3http://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html
5
https://lms.uzh.ch/url/RepositoryEntry/16112484562http://www.cl.uzh.ch/siclemat/lehre/hs16/ecl1/script/script.pdfhttp://www.linguistics.ruhr-uni-bochum.de/CLBuch/buch.html
-
1.1.1 Leistungsnachweis
6 obligatorische schriftliche Übungen (SU)
Bewertungprinzip: Punkte SU = Note SU = 25% der Modulnote
Punktzahl pro ÜbungBestanden 1 Punkt
Halb bestanden 0.5 PunkteNicht-Bestanden 0 Punkte
Note SU = Summe der Punkte aus den 6 Übungen
• Übungsausgabe donnerstags 18h (Information via OLAT-Mailversand)
• Lösungsabgabe spätestens mittwochs 18h
• Einige Übungen werden Sie stark fordern. Sie dürfen maximal zu zweit arbeiten! Lern-partnerschaft muss deklariert sein bei der Abgabe!
• Keine Musterlösungen! Dafür Frage- und Diskussionsgelegenheit sowie Nachbesprechungin Übungsstunde oder im Forum auf OLAT
• Freiwilliges Tutorat freitags 12.15-13.45h im Raum AND AND-3-02
• Start in 2. Semesterwoche (PCL-I-Tutorat bereits in 1. Semesterwoche)
Schriftliche Prüfung
• Zeit: Donnerstag, 19. Januar 2017, von 16.15 - 18.00h
• Dauer: 90 Minuten
• Stoff: Skript, Übungen, Pflichtlektüren
1.1.2 Lernen und Lehren
E-Learning und Übungen
CLab http://clab.cl.uzh.chFür einige Übungen benutzen wir Lerneinheiten aus unserem interaktiven, web-basierten Computerlinguistik-Laboratorium (CLab).
Applikationen auf CL-Linux-Server r2d2.cl.uzh.chEinzelne Übungsteile nutzen CL-Tools auf unserem Studierenden-Server, der über SSH (SecureShell bzw. Putty (Win)) zugänglich ist. Installationshilfe für Win dazu im Tutorat zu „Pro-grammiertechniken der CL“ diesen Freitag 14-15.45h.
Virtuelle Linux-Maschine (2.5GB) http://kitt.cl.uzh.ch/CLHS16.ovaIm PCL-I-Tutorat der 1. Woche wird auch die VM (virtuelle Maschine) mit Linux erklärt,welche die wichtigste Software für PCL/ECL vorinstalliert enthält und auf allen Plattformen(Win, MacOS) frei benutzbar ist (virtualbox.org). Für SSH benutzbar. (Link ab Freitag gültig!)
6
http://clab.cl.uzh.chhttp://kitt.cl.uzh.ch/CLHS16.ovavirtualbox.org
-
Anforderungen und Rückmeldungen
• Nutzen Sie die Übungsstunden!
• Fragen Sie bei den Mitstudierenden nach (OLAT-Forum)!
• Wenden Sie sich an die Übungsverantwortlichen!
• Geben Sie den Dozierenden Rückmeldungen zu Unklarheiten und Problemen im Kurs!Direkt nach der Stunde oder via Mail. Wir machen diese Veranstaltung nur für Sie!
Hochrechnung zum Workload für 6 ECTS-Punkte
“Bei der Berechnung der ECTS-Punkte wird der ganze studentische Zeitaufwand berück-sichtigt, der für das Erreichen einer genügenden Prüfungsleistung erforderlich ist.” (§14,Abs. 2)
“Ein ECTS-Punkt entspricht einer Studienleistung von 30 Stunden.” (§13, Abs. 2)
[Universitätsrat 2004]
• Präsenz in Vorlesung, Übungsstunde und schriftlicher Prüfung:
2× 15× 2h = 60h
• Zeit pro Woche für (Pflicht-)Lektüre, Lösen der schriftlichen Übungen und Prüfungsvor-bereitung:
180h− 60h15 = 8h
1.2 KontrollfragenKontrollfragen
• Welche Buchungsfristen für Sie relevant? Bis wann können Sie sich noch einschreiben,bzw. das Modul stornieren?
• Wie viele SU müssen Sie bestehen, damit eine 4.5 in der schriftlichen Prüfung noch aufeine 5 aufgerundet wird?
• Wieso sollten Sie die Übungsstunde besuchen?
• Welche Hauptthemen werden in dieser Vorlesung besprochen?
7
-
Kapitel 2
Was ist CL?
Lernziele
• Kenntnis der grundlegenden Thematik von Computerlinguistik, Sprachtechnologie undLinguistik
• Kenntnis der zentralen Anliegen der modernen Computerlinguistik
• Kenntnis der verschiedenen wissenschaftlichen Disziplinen und Fachbezeichnungen, welchemit Computerlinguistik interdisziplinär und transdisziplinär verbunden sind
• Kenntnis der wichtigsten Meilensteine, Personen und Strömungen innerhalb der CL-Geschichte(Pflichtlektüre)
• Kenntnis der Krux der Sprachverarbeitung
2.1 MotivationCL-haltige Produkte im (Computer-)Alltag
Partneraufgabe: Diskutieren Sie mit SitznachbarIn (2 Minuten)Was ist für Sie die wichtigste (a) bereits alltägliche bzw. (b) noch zukünftige Anwendungen vonSprachtechnologie?
• Auskunftssysteme (z.B. [Kassensturz 2006])
• Digitale Assistenten mit Sprachschnittstellen
• Textverarbeitung (Rechtschreibe- und Grammatikkorrektur)
• Elektronische Wörterbücher (Thesauri)
• Automatische Übersetzung
• Recherchen im WWW
• . . .
8
-
Anwendungsfall: Texttechnologie
2.2 Fachrichtungen
2.2.1 Computerlinguistik
Was ist CL?
Definition 2.2.1 (weiter Begriff). Computerlinguistik (CL; engl. computational linguistics) isteine Wissenschaft im Überschneidungsbereich von Sprachforschung und Informatik, welche sichmit der maschinellen Verarbeitung von natürlicher Sprache beschäftigt.
Frage IIst das Kopieren einer MS-Word-Datei mit schweizerdeutschem Text von einer CDROM auf dieFestplatte eine Anwendung von CL?
Frage IIIst die 1791 beschriebene Maschine zur Sprachsynthese von Wolfgang von Kempelen (1734-1804)eine frühe Anwendung von CL?
Sprachsynthese nach NKempelen
2.2.2 Sprachtechnologie
Was ist Sprachtechnologie?
Definition 2.2.2. Sprachtechnologie (NLE, engl. Natural Language Engineering) beschäftigtsich mit der praxis- und anwendungsbezogenen, ingenieursmässig konzipierten Entwicklung vonSprachsoftware.
9
http://www2.ling.su.se/staff/hartmut/kempln.htm
-
Abbildung 2.1: Aus dem Buch “Mechanismus der menschlichen Sprache nebst Beschreibungeiner sprechenden Maschine” (1791) [Traunmüller 1997]
2.2.3 Weitere
Verwandte/Alternative FachbezeichnungenDeutsch Englisch
Linguistische Datenverarbeitung (LDV) Linguistic and Literary Computing (LLC)Maschinelle Sprachverarbeitung Natural Language Processing (NLP)
Automatische Sprachverarbeitung (ASV) Natural Language Engineering (NLE)Sprachtechnologie Speech ProcessingSprachtechnologie Human Language Technology (HLT)Texttechnologie Text Technology
Computerphilologie Computational PhilologyDigitale Geisteswissenschaften Digital Humanities
Korpuslinguistik Corpus LinguisticsMedieninformatik
Linguistische InformatikInformationslinguistik
Schwerpunkte der verwandten Disziplinengesprochene vs. verschriftlichte Sprache (Text)
Hilfswissenschaft vs. eigenständige Forschungtheorieorientiert vs. anwendungsorientiert
Algorithmisierung als Machbarkeitsnachweis (Proof Of Concept) vs. effiziente Industrie-Softwarekognitive Plausibilität vs. ingenieurmässige Lösung
symbolische, logikbasierte und theoriegetriebene Ansätze vs. statistische, probabilistische und datengetriebene Methoden
10
-
2.2.4 Moderne Computerlinguistik
4 zentrale Anliegen der modernen Computerlinguistik
• Formalisierung natürlichsprachlicher Phänomene und ihre Operationalisierung auf demComputer (oft mittels maschineller Lernverfahren)
• Aufbau, Verwaltung und linguistische Interpretation (Erkennung von Wortarten, Grund-formen, syntaktische und semantische Strukturen) von grossen Textsammlungen (Korpo-ra) und strukturierter Ressourcen (Lexika, annotiertes Textmaterial)
• Entwicklung technologisch fortschrittlicher Anwendungen
• Systematische empirische Evaluation von Verfahren, Komponenten und sprachverarbei-tenden Systemen
Google-Books Wort-N-Gramm-Suche
Suchphrasen: phone , mobile phone , sms , telegram , faxWelche der 4 zentralen Anliegen der CL sind hier realisiert?
Syntax-Analyse
11
https://books.google.com/ngrams
-
Welche der 4 zentralen Anliegen der CL sind hier realisiert?
2.3 Nachbardisziplinen
Nachbardisziplinen in Übersicht
• Linguistik: formale Linguistik für Sprachmodelle; beschreibende Linguistik und Korpus-linguistik für empirische Basis
• Informatik: praktische und theoretische Informatik (Was lässt sich mit welchem Forma-lismus wie effizient berechnen?); Künstliche Intelligenz
• Mathematik: Mengenlehre (Funktionen, Relationen, Bäume, Graphen) und Statistik/Ma-schinelle Lernverfahren (engl. Machine Learning)
• Kognitionswissenschaft und Psychologie
• Logik und Sprachphilosophie
QUIZ: Was ist was? [Weisser 2005]
Frage 1: Welche Fachrichtung wird hier beschrieben?
The use and possibly also compilation of computer-based text materials to investi-gate linguistic phenomena and ways of teaching about language.
Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering
12
http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/
-
� Corpus Linguistics
Frage 2: Welche Fachrichtung wird hier beschrieben?
The compilation, annotation and use of written and spoken corpora for the investi-gation of linguistic phenomena, mainly by means of easy to use software.
Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics
Frage 3: Welche Fachrichtung wird hier beschrieben?
The automated analysis and modelling of language by means of sophisticated pro-gramming techniques.
Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.
Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics
Frage 4: Welche Fachrichtung wird hier beschrieben?
The creation and application of corpora for use in computer-based systems, such asspeech recognition engines, translation systems, etc.
Antwort� Computational Linguistics� Computational Philology� Natural Language Engineering� Corpus Linguistics
13
-
2.3.1 Linguistik
Linguistik
Definition 2.3.1 (Moderne strukturalistische Sprachwissenschaft nach [Bussmann 2002]). DieLinguistik (engl. linguistics) beschäftigt sich mit den verschiedenen Beschreibungsebenen derSprache (gesprochene Sprache und Schrift): Phonetik/Phonologie, Morphologie, Syntax, Se-mantik und Pragmatik.Als moderne, synchron orientierte Sprachwissenschaft untersucht sie sprachliche Regularitätenund hält diese in expliziter (formalisierter) Beschreibungssprache und erklärenden Modellen fest.
Lautlehre: Phonetik und Phonologie
Definition 2.3.2. Die Phonetik (engl. phonetics) ist die Lehre von der Lautbildung. Sie umfasstdie artikulatorische, akustische und auditive Ebene.
Definition 2.3.3 (enger strukturalistischer Begriff). Die Phonologie (engl. phonology) ist dieLehre von den bedeutungsunterscheidenden Sprachlauten (Phonemen) und ihren regelhaftenEigenschaften und Beziehungen.
Beispiel 2.3.4 (Phonologische Regel der Auslautverhärtung).
1. Dieb /di:p/
2. Diebe /di:b@/
Exkurs: Internationales Phonetisches Alphabet (IPA)
Die Symbole zwischen den Schrägstrichen wie in “/di:p/” sind eine Lautschrift, d.h. ein schrift-liches Notationssystem, welches die Lautform beliebiger Sprachen wiedergeben können soll. DieIPA-Notationen für die Laute des Standarddeutschen sind in Carstensen:2009 erklärt.Die IPA-Zeichen sind Teil des UNICODE-Standards (http://wwww.unicode.org), welcher alleSchriftsysteme der Welt wiedergeben können will.Eine Kodierung, welche die IPA-Symbole mit Hilfe eines 7-Bit-ASCII-Zeichensatzes (Gross- undKleinbuchstaben von a bis z, Ziffern, einige Interpunktionszeichen – jedoch keine Umlaute undandere exotische Glyphen) erlaubt, heisst SAMPA. Die Kodierung für /di:b@/ lautet darin:di:b@.
Wortlehre: Morphologie
Definition 2.3.5. Die Morphologie (engl. morphology) ist die Lehre von der Funktion undStruktur der Wörter und deren Bildung.
Beispiel 2.3.6 (Flexion).
1. Dieb-e DIEB-NOMEN-PLURALNOM/AKK/GEN “Mehr als ein Dieb”
2. Dieb-e DIEB-NOMEN-SINGULARDAT IV “dem Dieb”
14
http://wwww.unicode.org
-
Satzlehre: Syntax
Definition 2.3.7. Die Syntax ist die Lehre vom zulässigen (wohlgeformten) strukturellen Auf-bau von Sätzen aus Wörtern, Satzgliedern (Subjekt, Objekt, Prädikat usw.) und Teilsätzen.
Beispiel 2.3.8 (Grammatikalität, d.h. syntaktische Wohlgeformtheit).
1. Der gewitzte Dieb stahl den Diamanten.
2. *Der Dieb gewitzte stahl den Diamanten.
3. *Den gewitzten Dieb stahl den Diamanten.
Bedeutungslehre: Semantik
Definition 2.3.9. Die Semantik (engl. semantics) ist die Lehre von der Bedeutung der Wörter(lexikalische Semantik), der grösseren syntaktischen Einheiten (Satzsemantik) und von Texten(Diskurssemantik).
Beispiel 2.3.10 (Sprachliche Varianz unter Bedeutungsgleichheit).
1. Die Polizei beschlagnahmte das Diebesgut gestern.
2. Das Diebesgut beschlagnahmte die Polizei gestern.
3. Das Diebesgut wurde gestern von der Polizei beschlagnahmt.
4. Die Beschlagnahmung des Diebesgut durch die Polizei war gestern.
5. [Die Polizeii fasste die Täterin gestern.] Siei beschlagnahmte gleichzeitig das Diebesgut.
Lehre von der Sprachverwendung: Pragmatik
Definition 2.3.11. Die Pragmatik ist die Lehre vom (Kommunikations-)Zweck der Äusserungenvon Sprachnutzern und den Gesetzmässigkeiten natürlichsprachlicher Kommunikation (Dialoge)in der Welt.
Beispiel 2.3.12 (Sprachliche Varianz unter Zweckgleichheit).
1. Ist das Fenster auf?
2. Bitte schliessen Sie das Fenster!
2.3.2 Kognitionswissenschaft
Kognitionswissenschaft1
Definition 2.3.13. Die Kognitionswissenschaft (engl. cognitive science) ist die interdisziplinäreErforschung kognitiver Fähigkeiten durch Psychologie, Neurowissenschaft, Informatik, Linguis-tik und Philosophie. Zu den kognitiven Fähigkeiten werden etwa Wahrnehmung, Denken, Ler-nen, Motorik und Sprache gezählt.
1https://de.wikipedia.org/wiki/Kognitionswissenschaft
15
https://de.wikipedia.org/wiki/Kognitionswissenschaft
-
Quelle: Wikipedia
Turing-Test: Können Maschinen denken?
Turing-Test im Original [Turing 1950]The new form of the problem can be described in terms of a game which we call the ’imitationgame’. It is played with three people, a man (A), a woman (B), and an interrogator (C) whomay be of either sex. The interrogator stays in a room apart front the other two. The object ofthe game for the interrogator is to determine which of the other two is the man and which isthe woman. He knows them by labels X and Y, and at the end of the game he says either “Xis A and Y is B” or “X is B and Y is A”. [. . . ]We now ask the question, “What will happen when a machine takes the part of A in this game?”Will the interrogator decide wrongly as often when the game is played like this as he does whenthe game is played between a man and a woman? These questions replace our original, “Canmachines think?”
Turing-Test: Antwortet Mensch oder Maschine?Seit 1991 werden öffentliche Wettbewerbe (Loebner-Preis) mit Dialogsystemen gemacht, welcheden Turing-Test bestehen wollen2. Preisträgersysteme lassen sich imWWW direkt ausprobieren.
2http://www.loebner.net/Prizef/loebner-prize.html
16
https://commons.wikimedia.org/wiki/File:Kognitionswissenschaft.svghttp://www.elbot.de/http://www.loebner.net/Prizef/loebner-prize.html
-
Das Ziel dieser Test lautet: Kann eine Maschine so antworten in einem Dialog, dass man sienicht mehr von einem Menschen unterscheiden kann?
2.4 Die Krux der Mehrdeutigkeit
Mehrdeutigkeit [Jurafsky und Martin 2008]Beispiel 2.4.1.I made her duck.
Welche Lesarten sind denkbar?
• Welche Wörter sind alleine betrachtet eigentlich mehrdeutig?
• Schreiben Sie Paraphrasen auf, welche die denkbaren Lesarten eindeutig machen (desam-biguieren)!
• Auf welchen linguistischen Ebenen unterscheiden sich die Lesarten?
1. I cooked waterfowl for her.
2. I cooked waterfowl belonging to her.
3. I created the (plaster?) duck she owns.
4. I caused her to quickly lower her head or body.
5. I waved my magic wand and turned her into undifferentiated waterfowl.
Zusammenfassung
• Die Computerlinguistik ist ein interdisziplinär vielfältig verflochtenes Fach mit einer star-ken Anwendungsorientierung.
• Moderne empirische CL umfasst Erstellen von sprachlichen Ressourcen, Algorithmisie-rung, Maschinelles Lernen und systematische Evaluation.
• Die Mehrdeutigkeit von natürlicher Sprache ist die grösste Herausforderung für CL.
2.5 Vertiefung• Pflichtlektüre [Carstensen et al. 2009, 1–23] http://www.linguistics.rub.de/CLBuch/kapitel1A3.
pdf
• Konversation mit einem deutschsprachigen Chat-Bot wie etwa http://www.elbot.de (Ge-winner des Chatterbox Contests 2003)
• Turing-Text mit dem Gewinnersystem des Loebner-Preises 2013 http://www.mitsuku.com
17
http://www.linguistics.rub.de/CLBuch/kapitel1A3.pdfhttp://www.linguistics.rub.de/CLBuch/kapitel1A3.pdfhttp://www.elbot.dehttp://www.mitsuku.com
-
Kontrollfragen
• Welche Disziplinen verbindet die Computerlinguistik? Mit welchen Disziplinen steht siein enger Nachbarschaft?
• Geben Sie je ein Beispiel, welches die Analyseebenen der verschiedenen linguistischenTeildisziplinen illustriert.
• Was ist der Unterschied zwischen Computerlinguistik und Sprachtechnologie?
• Nennen Sie 3 Bezeichnungen für Fachausrichtungen, welche teilweise ähnliche Ziele verfol-gen wie die CL oder Sprachtechnologie. Wo können unterschiedliche Schwerpunkte ausge-macht werden? (Recherchieren Sie dafür allenfalls im Web zu den einzelnen Stichworten.)
• Was ist von der modernen Computerlinguistik gefordert?
18
-
Kapitel 3
Tokenisierung: Automatische Satz-und Wortsegmentierung
Lernziele
• Kenntnis über die Kodierung sprachlicher Zeichen
• Kenntnis über den Zweck und die Probleme der textuellen Vorverarbeitung von natürlicherSprache: Text-Segmentierung und Text-Normalisierung
• Kenntnis über XML zur Repräsentation von Text und Segmentstruktur
• Kenntnis über Methoden der Punktdisambiguierung und Satzendeerkennung
• Kenntnis über Textnormalisierung und Erkennung von interessierenden Grössen (NamedEntity Recognition)
• Kenntnis und Umgang mit regulären Ausdrücken
3.1 Tokenisierer
3.1.1 Grundproblem
Wörter aus linguistischer Sicht
Definition 3.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprach-lich verwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftli-che Definitionsversuche uneinheitlich und kontrovers sind.
Was ist ein Wort?
1. Z.B. nahm sie am Text Mining Workshop teil.
2. Das gibt’s doch nicht! “Joop!” ist pleite.
3. Blick Online verlost zum Film-Start das «Ich bin Borat»-Kit.
Wort-Segmentierung in nicht-segmentierten Schreibsystemen
19
-
Abbildung 3.1: Navigationselemente der Web-Site der Olympischen Spiele 2008
Rohtexte aus Computersicht: Welt der Bytes
$ hexdump datei.txt0000000 57 61 73 20 62 65 69 6e 68 61 6c 74 65 74 20 730000010 69 65 3f 0a0000014
(Der Dateiinhalt ist als Dump1 im Hexadezimalformat wiedergegeben, d.h. jedes Zeichen inForm seines Zeichenkodes als Hexadezimalzahl.)Beispiel 3.1.2 (Folge von Zeichenkodes in Hexadezimalnotation).Wie viele und welche Wörter enthält der folgende Datei-Inhalt?57 61 73 20 62 65 69 6E 68 61 6C 74 65 74 20 73 69 65 3F 0A
3.1.2 Zeichenkodierung
Was ist ein Zeichen auf dem Computer?
• Traditionell ein Byte, d.h. eine Folge von 8 Bits.Was ist ein Bit? Binäre Entscheidung (0 oder 1)
• Ein Byte kann als Zahl interpretiert werden, indem die Position eines Bits als Stelle imBinärsystem aufgefasst wird: 0100’0001
• Eine Zahl kann als Buchstabe/Zeichen interpretiert werden, indem eine Kodierungskon-vention aufgestellt wird: Z.B. ’A’=65, ’@’=64, ’1’=49
• Verbreitete Kodierungskonventionen (engl. charset): ASCII (128 Zeichen für Englisch),iso-latin-1 (256 Zeichen für westeuropäische Sprachen)
• Typische Speicherung bei ASCII und iso-latin-1: 1 Zeichen = 1 Byte
Binäres und Hexadezimales Stellensystem
1 Byte als binäre Zahlen (= 8 Bits)
__ __ __ __ __ __ __ __ 3b* * * * * * * * s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b* * * * s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kästchen = 1 Bit
4-stellige hexadezimale Zahl (= 4 Bytes)1Zum Beispiel mit dem Befehl $ hexdump datei.txt
20
-
__ __ __ __ __ __ __ __ 3b* * * * * * * * s27 + 26 + 25 + 24 + 23 + 22 + 21 + 20 = 12ddsdsd8
__ __ __ __ 3b* * * * s163 + 162 + 161 + 160 = 12ddsdsd8
Jedes Kästchen = 1 Byte
Die 128 ASCII-Kodes
Die 128’172 Unicode-Kodes
Moderne universale Kodierungskonvention: http://www.unicode.orgUNICODE(ISO/IEC 10646) Version 9.0: Kodes für 128’172 Zeichen in fast allen Schriftsystemender Welthttp://www.unicode.org/standard/WhatIsUnicode.html
GRINNING FACE:
• Kode 128512 (Hexadezimal: 1F600)
• UTF-8 Byte-Repräsentation F0 9F 98 80
•~ In UTF-8 sind nur Unicode-Kodes von ASCII-Zeichen direkt in ihrer Binärzahl-Repräsentationgespeichert!
21
http://www.unicode.orghttp://www.unicode.org/standard/WhatIsUnicode.html
-
Was ist ein Zeichen auf dem Computer? UTF-8-Format
• Speicherung bei UNICODE: UTF (Abk. für Unicode Transformation Format) beschreibtMethoden, einen Unicode-Kode auf eine Folge von Bytes abzubilden.
• UTF-8: (Abk. für 8-bit Universal Character Set Transformation Format) Ordnet jedemUnicode-Zeichen eine speziell kodierte Bytefolge von variabler Länge zu. UTF-8 unter-stützt bis zu 4 Byte pro Zeichen.
• Dateiformat: XML-Dateien sind defaultmässig UTF-8 kodiert. Bei andern Dateien mussman es wissen.
• Jede ASCII-Datei ist auch eine UTF-8-Datei (Rückwärtskompatibilität)
• Darstellung: Zeichensätze (engl. fonts) enthalten die graphischen Formen (glyphs), damitdas Betriebssystem die Kodes fürs Auge darstellen kann.
• Konversionswerkzeuge: Z.B. GNU-Kommandozeilentool iconv
Textkonversion mit iconv
Verlustfreie Textkonversion nach UTF-8
$ iconv -f EXOTISCHEKODIERUNG -t UTF-8 < INPUT > OUTPUT
Verlustbehaftete KonversionNebst der Konversion zwischen unterschiedlichen Zeichenkodierungen lässt sich auch Text-Normalisierung durch “Transliteration”2 durchführen.
$ echo "Klößchen" | iconv -f UTF-8 -t ASCII//TRANSLITKl"osschen
Das Löschen von nicht-repräsentierbaren Zeichen ist meist weniger nützlich:
$ echo "Klößchen" | iconv -f UTF-8 -t ASCII//IGNOREKlchen
3.1.3 Programme
Grundproblem: Vom Zeichenstrom zur Folge von Tokens
RohdatenRohe, elektronische Sprachdaten liegen in Dateien vor, welche nichts anderes als eine Folge vonkodierten Einzelzeichen, d.h. ein kontinuierlicher Zeichenstrom sind.
Token: Einheit der TextsegmentierungTokens sind die grundlegenden Analyseeinheiten nachgeschalteter sprachtechnologischer Sys-teme wie Wortartenbestimmung, Wortkorrektur, morphologische Analyse, Lexikonzugriff, syn-taktische Analyse.
Grundfunktionen eines Programmes zur Tokenisierung (EVA-Prinzip)
2~ Das Ergebnis kann von Landeseinstellungen (locale) abhängig sein.22
-
• Konsumieren der Zeichenfolge (Eingabe)
• Gruppieren und allenfalls normalisieren/modifizieren der Zeichen (Verarbeitung)
• Produzieren einer Folge von Tokens (Ausgabe)
Typische Beispiele für Tokenisierer: Vertikalisierter TextTokenisierung mit rein textuellem OutputLese eine Textdatei ein und erzeuge daraus vertikalisierten Text, d.h. 1 Token pro Zeile. Sätzesind durch Leerzeilen voneinander abgetrennt.
Schmids Tokenizer im UNIX-Stil [Schmid 2006]Relativ sprachunabhängiger Tokenisierer mit Befehlszeilen-Schnittstelle und Abkürzungsdatei(ger-abbrev).
$ cat file.txt"Bach’sche Musikmag Dr. Fritz. Ja."
$ cat ger-abbrevDr.usw.
$ utf8-tokenize.perl -a ger-abbrev file.txt"Bach’scheMusikmagDr.Fritz.
Ja."
Typische Beispiele für Tokenisierer: Reguläre AusdrückeAuf die Textsorte manuell angepasste Tokenisierer in einer Programmiersprache wie Python,PERL oder Finite-State Tools, welche einen einfachen Umgang mit regulären Ausdrücken er-lauben.
Definition 3.1.3 (Reguläre Ausdrücke (engl. regular expressions)). Ein regulärer Ausdruck isteine relativ standardisierte Kurz-Notation, um Zeichenketten mit bestimmten Eigenschaften zubeschreiben.Praktisch eingesetzt werden sie für die nicht-wörtliche Suche (engl. pattern matching), Suchen-und-Ersetzen und Segmentieren von Zeichenketten.
Einführung in reguläre AusdrückeZ.B. in unserem CLab: http://www.cl.uzh.ch/clab/regex
23
http://www.cl.uzh.ch/clab/regex
-
Tokenisierer in der ProgrammiersprachePython
Tokenisierer mit regulären Ausdrücken
• Jeder Computerlinguistik-Studierende im 2. Semester kann mit regulären Ausdrücken aufwenigen Zeilen einen regelbasierten Tokenisierer schreiben!
• Einfach anpassbar auf die Textsorte
• Für überschaubare Textmengen empfohlen!
• Vorteil: Machen dieselben Fehler konsequent!
• Gute Abkürzungslisten erlauben 99% korrekte Satzgrenzenerkennung.
Typische Beispiele für Tokenisierer: XMLTokenisierung mit XML-Output (ev. aus XML-Input), d.h. in einer Auszeichnungssprache (engl.markup language).Beispiel 3.1.4 (Der LT-TTT2 Tokenizer [Grover 2008]).
1. Rohtext
This is an example. There are two sentences.
2. XML-Input für Tokenisierer (Vortokenisierung)
This is an example. There are two sentences.
3. XML-Tokenisat
This isan example
24
-
.
There aretwo sentences.
Hinweis: Für Darstellungszwecke mit zusätzlichen Layoutzeichen angereichert.
Verschachtelung im XML-Stil
This is an example .
There are two sentences .
Abbildung 3.2: Schematische Darstellung der Verschachtelung der XML-Tags
3.2 Exkurs: XMLOnline-Video zu XML und Textrepräsentation
• Bitte den 1. Teil “Einführung in XML” (10 Minuten) unseres Online-Videos “Strukturierteund nachhaltige Repräsentation von Korpusdaten: XML-Standards zur Textrepräsentati-on” aus unserem MOOC-Kurs schauen. (Der 2. Teil “Einführung in TEI P5” ist nicht Teildes Stoffs.
• https://tube.switch.ch/videos/60fc01f1
XML (eXtensible Markup Language)
Definition 3.2.1. Der XML-Standard http://www.w3.org/XML/ spezifiziert, wie wohlgeformteXML-Dokumente aufgebaut sein müssen und wie mit Dokumenttypdefinitionen (DTD) derenStruktur genauer vorgeschrieben und validiert werden kann.
25
https://tube.switch.ch/videos/60fc01f1http://www.w3.org/XML/
-
XML in der Texttechnologie
• Textbasiertes Format, das geeignet ist, Texte und dazugehörigeMetainformation programm-unabhängig, strukturiert zu speichern (z.B. Text Encoding Initiative TEI für Lexika, Kor-pora und digitale Editionen)
• Dank Standardisierung gibt es viele Werkzeuge, Bibliotheken, Programmierschnittstellenzum Einlesen, Erstellen, Modifizieren von XML-Dokumenten
• Beliebig komplexe Datenstrukturen lassen sich in XML beschreiben
Aufbau von XML-Dokumenten
Elemente und ihre Attribute
• Elemente sind von Start-Tags (“
”) und End-Tags (“
”) begrenzt.
• Leere Elemente können aus einem Tag bestehen (“
”)• Elemente dürfen hierarchisch ineinander verschachtelt werden:
...
• Jedes XML-Dokument hat genau ein Wurzelelement: Z.B: ...
• Attribute eines Elements erscheinen als Paare der Form NAME="WERT" im Start-Tag:
• Elemente können Zeichendaten (d.h. normalen Text) enthalten: are
Zeichenreferenzen und Entity-Referenzen
Entitäten und Referenzen
• Zeichen mit Spezialbedeutung im Markup werden durch vordefinierte benannte Entitiesbezeichnet, welche zwischen & und ; notiert werden
• Zeichenreferenzen enthalten den numerischen Kode des bezeichneten Zeichens: nnn ;n=Dezimal, hhh ; h=Hexadezimal
• Zeichenreferenzen sind nur notwendig, wenn nicht UTF-8-kodierte Dateien verwendet wer-den
Zeichen Entität Referenz< < <> > >" " >’ ' '& & &
Newline Σ Σ
26
http://www.tei-c.org
-
3.3 Tokenisierung: Segmentieren von Wörtern und Sätzen
3.3.1 Problem
Naive ASCII-Tokenisierung mit 3 ZeichenklassenEin Token ist in segmentierten Schriftsystemen durch Leerraumzeichen und/oder Interpunktionbegrenzt.
• Wort-Zeichen: [a-zA-Z0-9]
• Einzel-Zeichen: [.,:;?!)("’$@-]
• Leerraum-Zeichen (white space): [\s], entspricht [ \t\n\r\v]
ProblemTokens können sowohl Einzel- wie Leerraum-Zeichen enthalten:“Joop!”, “usw.”, “1 000 000”, “«Ich bin Borat»-Kit”
Schwierigkeiten der Wortsegmentierung im engen Sinn
Schwierige Zeichen
• Anführungszeichen: «Naturfreunde»-Bergheim
• Apostrophe: geht’s → geht + ’s , l’eau → l’ + eau , aujourd’hui, don’t → ???
• Bindestriche: semble-t-il → semble + -t-il
• Punkte: S.A.C.
• Masseinheiten: 30% → 30 + %, 28◦ → 28 + ◦
• Leerraumzeichen: Mehrtokenwörter wie New York oder parce que
Teilprobleme der Tokenisierung im weiten Sinn
• Umgang mit Markup (HTML-Tags, Formatierungszeichen)
• Erkennung der “normalen” Tokengrenzen
• Erkennung von “komplexen Tokens”, d.h. Tokens, welche Einzel- oder Grenzzeichen bein-halten (aujourd’hui), oder aufgetrennt werden sollen (semble-t-il)
• Erkennung von Interpunktion (Disambiguierung von Punkten, Erkennung von Satzenden)
• Normalisierung von Zeichen und Token (z.B. Silbentrennung aufheben)
• Named Entity Recognition (z.B. Erkennung von Namen und Zeitangaben)
27
-
3.3.2 Punktdisambiguierung
Erkennung von Satzenden (Satz-Segmentierung)Im englischen Brown-Korpus steckt in jedem 14. Satz ein Punkt, der nicht satzfinal ist. Werjeden Punkt als Satzende interpretiert, liegt in 8-45% der Fälle daneben.
Verschärfend: Verschmelzung zweier FunktionenWiederholte Interpunktionszeichen werden orthographisch nicht repräsentiert.
Verschmelzung
• It was due Friday by 5 p.m. Saturday would be too late.
• Ich kenne die U.S.A. Frankreich kenne ich nicht.
WeiteresAuch andere Interpunktion als Punkte ist mehrdeutig.
Regelbasierter Algorithmus zur PunktdisambiguierungGegeben sei ein Token aus einem englischen Text, das auf einen Punkt endet.Der Punkt ist ein Abkürzungspunkt, falls
• das Token in einer Abkürzungsliste steht.
• nach dem Token eines der Zeichen aus [,;a-z] folgt.
• das Token kleingeschrieben ist, aber der Teil ohne den Punkt nicht in einem Lexikon steht.
• das Token grossgeschrieben ist, eher häufig vorkommt und im Text nicht ohne den Punktvorkommt.
Nach [Grefenstette und Tapanainen 1994]
LeistungsfähigkeitMit einer guten Abkürzungsliste erzielt man 99% korrekte Entscheidungen.
Statistische Verfahren zur PunktdisambiguierungPrinzipVerwende die Häufigkeiten von Vorkommen (occurrence) und Mit-Vorkommen (co-occurrence)von Tokens aus grossen Textsammlungen, um eine Entscheidung zu treffen.
Interessante Merkmale für statistische AnsätzeTOKEN . NEXTTOKEN
1. Wie viele Zeichen umfasst TOKEN?
2. Besteht TOKEN nur aus Ziffern? Enthält es keine Vokale?
3. Wie oft kommt TOKEN ohne Punkt vor?
4. Wie oft kommt nach TOKEN ein grossgeschriebenes Token vor?
5. Wie oft kommt NEXTTOKEN kleingeschrieben vor?
28
-
Satzsegmentierung mit maschinellen Lernverfahren
• Für grosse Textmengen empfohlen!
• Nachteil: Unsystematische Fehler können auftreten!
Statistisches System PUNKT ([Kiss und Strunk 2006])
• benötigt nur grosse Textmengen (mit Grossschreibung am Satzanfang) und keine Abkür-zungslisten
• klassifiziert für Zeitungstexte in 11 verschiedenen Sprachen im Schnitt 99,3% der Satz-punkte und 97,5% der Abkürzungspunkte korrekt.
iSentenizer ([Wong et al. 2014])Ebenfalls multilingual wie PUNKT. Lernt von perfekt segmentierten Trainingsdaten. Bestehen-de Modelle sind anpassbar auf neue Texte.
3.3.3 Zeichen- und Token-Normalisierung
Text-NormalisierungDie Modifikation der Zeichen des Eingabestromes kann von einfachsten orthographischen Vari-anten bis zu stark linguistisch motivierten Operationen gehen.
Normalisierung bei Suchmaschinen und anderen Anwendungen
• Zürich, Zuerich, Zurich, ZURICH, ZUERICH, ZÜRICH, zurich, zürich, Zü-rich . . .
• 4.8.97, 4-8-97, 4/8/97, 8/4/97
• 19000, 19’000, 19 000, 19,000
• Louisa, Luise, Louise, Luisa . . .
• doesn’t, does not
Rückgängig machen von Worttrennung am ZeilenendeBeispiel 3.3.1 (Graphematische Modifikationen bei Worttrennung).
• Deutsch alte Rechtschreibung: Zuk-ker → Zucker; Schiff-fahrt → Schiffahrt
• Holländisch: chocola-tje → chocolaatje
Definition 3.3.2. Der Rückbau von Silbentrennung (engl. dehyphenation) in Texten. In eini-gen Schriftsystemen gibt bzw. gab es neben dem Erscheinen von Trennungsstrichen weiteregraphematische Modifikationen.
29
-
Zeilen in % Typ101’860 100% Zeilen total12’473 12% mit Silbentrennung
Rückbau in % Typ11’858 95% Rückbau in existierende Tokens
615 5% Rückbau in neue Tokens
Tabelle 3.1: Übersicht: Rückbau von Silbentrennung im Brown-Korpus
Rückgängig machen von Worttrennung am Zeilenende
Probleme der Dehyphenation im Englischen [Grefenstette und Tapanainen 1994]Brown-Korpus (1 Mio. Wörter) wurde automatisch umgebrochen, danach Trennstriche entfernt.Vergleich mit den manuell kontrollierten originalen Tokens:
Beispiele: “rookie-of-theyear”, “sciencefiction”, “roleexperimentation”Ist im Deutschen Rückgängigmachung von Silbengtrennung ebenfalls so problematisch.
3.3.4 Named Entity Recognition
Named Entity Recognition
Named Entity Recognition DEMOUnter Named Entity Recognition (NER) versteht man die Identifizierung von Namen von Per-sonen, Organisationen, geographischen Grössen. Aber auch Mass-, Währungs- und Zeitangabenoder weitere textsortenspezifische interessierende Grössen.
Einheitliche (kanonische) Repräsentation (auch als Linked Data)Für die Zwecke der Informationsextraktion ist es oft sinnvoll, identifizierte interessierende Grös-sen in ein einheitliches und eindeutiges Format zu bringen.
Kanonische Formen und Entity Linking
• XXXX-XX-XXT13:20: “13:20h”, “1.20 pm”, “Zwanzig nach Eins”
• https://viaf.org/viaf/130168302: “U.S.A.”,“United States of America”, “U.S. of America”
Demo: Time Expression Recognition (TIMEX task)Stanford Temporal Tagger SUTime3
Demo: Time Expression Recognition (TIMEX task)
3.4 MultilingualitätMultilinguale Dokumente und Systeme
Herausforderung Multilingualität
• Multilinguale Dokumente oder Systeme erfordern Sprachidentifikation3http://nlp.stanford.edu:8080/sutime/process
30
http://cogcomp.cs.illinois.edu/page/demo_view/nerhttps://viaf.org/viaf/130168302http://nlp.stanford.edu:8080/sutime/process
-
Abbildung 3.3: Demo von Standford Temporal Tagger: Eingabeformular
Abbildung 3.4: Demo von Standford Temporal Tagger: Resultatsdarstellung in XML
• Bereits auf Tokenisierungsstufe sind sprachspezifische Ressourcen (Abkürzungslexika), Re-geln oder gelernte Modelle notwendig
• Sprachidentifikation ist neben der Identifikation der Zeichenkodierung eines Textes dasFundament, auf dem alle Textanalyse aufbaut.
• Traditionelles linguistisches Wissen ist für Sprachidentifikation nicht geeignet.
• Einfache Verfahren, welche auf Häufigkeiten von Buchstabenkombinationen aufbauen,funktionieren gut.
Ansatz von [Cavnar und Trenkle 1994]
31
-
1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenenSprachen über Trainingsdaten.
2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).
3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.
4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangun-terschieds von jedem N-Gramm.
5. Wähle für D die Sprache mit dem kleinsten Profilabstand.
N-Gramm-Profile und Profilabstand
Quelle: [Cavnar und Trenkle 1994]
Abbildung 3.5: N-Gramm-Profile nach [Cavnar und Trenkle 1994]
3.5 VertiefungZum Thema “Tokenisierung”:
• Online-Video zu Textsegmentierung aus unserem DH-MOOC zur Repetition: https://tube.switch.ch/videos/6ce37e28
• Pflichtlektüre: [Carstensen et al. 2009, 3.4.1]
• Guter Übersichtsartikel für Interessierte: [Palmer 2000]
Zum Thema “Reguläre Ausdrücke” (für Nicht-PCL-1-Teilnehmende empfohlen):
• http://www.cl.uzh.ch/clab/regex/
Zum Thema “XML”:
32
https://tube.switch.ch/videos/6ce37e28https://tube.switch.ch/videos/6ce37e28http://www.cl.uzh.ch/clab/regex/
-
• Pflichtvideo aus unserem DH-MOOC: Strukturierte und nachhaltige Repräsentation vonKorpusdaten: XML-Standards zur Textrepräsentation: https://tube.switch.ch/videos/60fc01f1
• Freiwillig: Kapitel 2.5.2 Texttechnologische Grundlagen in [Carstensen et al. 2009]
Zusammenfassung
• Textsegmentierung ist je nach Schriftsystem und Sprache unterschiedlich schwierig zulösen.
• Sie lässt sich für Texte mit normierter Orthographie im Allgemeinen sehr gut lösen mitbestehenden oder selbst erstellten Programmen.
• Aber es gibt immer Restfehler, welche in der nachgeschalteten Verarbeitung Nachfolge-fehler erzeugen.
• Regelbasierte oder statistische Lösungen erreichen bis 99% Genauigkeit bei der Satzseg-mentierung.
• Abkürzungslexika, welche auf die Textsorte zugeschnitten sind, stellen ein wertvolles Hilfs-mittel dar.
• Statistische Ansätze können bei genügend grossen Korpora ohne Abkürzungslisten ver-gleichbare Leistung erbringen.
• Die Tokenisierung muss oft auf die nachgeschalteten sprachtechnologischen Werkzeugeabgestimmt werden.
Kontrollfragen
• Was ist ein Bit, ein Byte und eine Zeichenkodierungskonvention?
• Welche Probleme stellen sich bei der Tokenisierung?
• Schildern Sie zwei unterschiedliche Ansätze zur Punktdisambiguierung.
• Was sind die wesentlichen Eigenschaften von XML-Dokumenten?
• Was versteht man unter NER?
• Wie funktioniert die Sprachidentifikation nach Cavnar und Trenkle?
33
https://tube.switch.ch/videos/60fc01f1
-
Kapitel 4
Linguistisches Propädeutikum I
Lernziele
• Unterscheidung zwischen Wort, Token, Wortform, syntaktisches Wort, Lexem, Lemma,Lexemverband kennen
• Kenntnis der Wortartenlehre für Deutsch und der “universalen” Wortartenklassen vonUniversalDependencies.org
• Kenntnis der morphologischen Kategorien für Deutsch und Englisch
• Kenntnis und Anwendung des UD-Tagsets für Deutsch mit Hilfe der Referenzkarte
• Kenntnis und Anwendung linguistischer Proben
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von Morphologie und Wortarten
• Kenntnis der computerlinguistischen morphologischen Verfahren der Lemmatisierung, Ana-lyse und Generierung
4.1 WörterPräzisierungsversuche des Wort-Begriffs
Definition 4.1.1 (nach [Bussmann 2002]). Wort. Intuitiv vorgegebener und umgangssprachlichverwendeter Begriff für sprachliche Grundeinheiten, dessen zahlreiche sprachwissenschaftliche Definiti-onsversuche uneinheitlich und kontrovers sind.
Präzisierungsversuche des Wort-Begriffs
• Phonetisch-phonologisch: kleinstes durch Wortakzent und Grenzsignale wie Pause oderKnacklaut theoretisch isolierbares Lautsegment
• Orthographisch-graphemisch: durch Leerstellen im Schriftbild isolierte Einheit
• Morphologisch: Grundeinheit, welche flektierbar ist
• Lexikalisch-semantisch: kleinster Bedeutungsträger, welcher im Lexikon kodifiziert ist
• Syntaktisch: kleinste verschieb- und ersetzbare Einheit des Satzes
34
http://universaldependencies.org
-
Gängige Auffassungen des Worts Wort [Linke et al. 2001]Wie viele verschiedene Wörter hat dieser Satz?Wenn hinter Fliegen Fliegen fliegen, fliegen Fliegen Fliegen nach.
Antworten� 4� 5� 6� 9� __
4.1.1 Token
Antwort 9: Wort als Vorkommen einer WortformWieviele verschiedene Wörter hat dieser Satz?Wenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen6 Fliegen7 Fliegen8 nach9 .
Definition 4.1.2 (Token). Ein Token ist ein einzelnes Vorkommen einer Wortform in einemText.
BemerkungIn der CL werden Interpunktionszeichen ebenfalls als textuelle Tokens betrachtet. Die Antwortlautet dann . . .
4.1.2 Wortform
Antwort 5: Wort als WortformWenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.
Definition 4.1.3 (Wortform). EineWortform ist eine rein graphematische Einheit eines Textes.
Identische Wortformen mit unterschiedlicher Bedeutung
• Die Fliege war tot.
• Er trug eine samtene Fliege.
• Fliege nicht so schnell!
4.1.3 Syntaktisches Wort
Antwort 6: Wort als syntaktisches WortWenn1 hinter2 Fliegen3 Fliegen4 fliegen5, fliegen5 Fliegen4 Fliegen3 nach6.
Definition 4.1.4 (Syntaktisches Wort). Ein syntaktisches Wort ergibt sich aus einer Wortformkombiniert mit ihren morphosyntaktischen Merkmalen.Rein orthographische Varianten einer Wortform werden für ein syntaktisches Wort normaler-weise zusammengefasst.
Wortform vs. syntaktisches WortDie Wortform “Fliegen” kann mindestens 4 syntaktische Wörter repräsentieren: “Fliege” inNominativ, Akkusativ, Dativ oder Genitiv Plural.
35
-
4.1.4 Lexem
Antwort 5: Wort als Lexem
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen4, fliegen4 Fliegen3 Fliegen3 nach5.
Definition 4.1.5 (Lexem im engen Sinn). Ein Lexem ist eine Menge (Paradigma) von syn-taktischen Wörtern, welche sich nur in bestimmten morphosyntaktischen Merkmalen (Kasus,Numerus, Tempus usw.) unterscheiden.
Definition 4.1.6 (Nennform, Zitierform, Grundform, Lemma). Ein Lemma ist eine lexikogra-phische Standard-Notation für ein Lexem.
Lexikographische Notationskonventionen
Wie sehen Verb-Lemma in Deutschen/Latein aus?
Antwort 4: Wort als Lexemverband
Wenn1 hinter2 Fliegen3 Fliegen3 fliegen3, fliegen3 Fliegen3 Fliegen3 nach4.
Definition 4.1.7 (Lexemverband, auch Lexem im weiten Sinn). Ein Lexemverband ist eineMenge von Lexemen, deren Wortbildung auf der gleichen Wortwurzel (oder dem Derivations-stamm) basiert.
Beispiel 4.1.8 (Derivationen von “fliegen” in Canoo).Lexemverbände umfassen typischerweise Lexeme mit unterschiedlichen Wortarten. Die Wort-bildungsinformation in http://www.canoo.net illustriert dies schön.
Stufen der Abstraktion: Vom Text zum Lexemverband
• Jedes Token ist eine Zeichenfolge, welche in einem Text an genau einer bestimmten Stellebeginnt (occurrence).
• Jede Wortform ist eine Menge von Tokens, welche aus der identischen Zeichenfolge beste-hen (sog. Type).
• Jedes syntaktisches Wort ist eine Menge von Tokens, welche identische morphosyntaktischeund semantische Eigenschaften aufweisen.
• Jedes Lexem ist eine Menge syntaktischer Wörter, welche sich nur in ihren morphosyn-taktischen Merkmalen unterscheiden.
• Jeder Lexemverband ist eine Menge der Lexeme, für die eine identische Wurzel (oderderselbe Derivationsstamm) angenommen wird.
36
http://www.canoo.net
-
4.2 Lehre von den WortartenWortarten nach [Bussmann 2002]
Definition 4.2.1 (Redeteile, engl. parts of speech (PoS)). Wortarten sind das Ergebnis derKlassifizierung der Wörter einer Sprache nach morphologischen, syntaktischen und/oder se-mantischen Kriterien.
Historisches [Gallmann und Sitta 2010]Die 8-Wortarten-Lehre von Dionysius Thrax (ca. 100 vor Chr.) wirkte stark bis ins 19. Jahr-hundert. Für Deutsch wurde in den Schulen lange die traditionelle 10-Wortarten-Lehre gemässAdelung (1781) vermittelt: Substantiv, Verb, Adjektiv, Artikel, Konjunktion, Interjektion, Nu-merale, Pronomen, Präposition, Adverb
5-Wortarten-LehreMit der 5-Wortarten-Lehre nach Hans Glinz setzte sich ab den 50er-Jahren eine Einteilungdurch, welche explizite (operationalisierbare) und durchgängige Klassifikationskriterien anwen-det.
4.2.1 5 Hauptwortarten nach Glinz
Klassifikationskriterien
Abbildung 4.1: Die 5 Hauptwortarten nach Glinz [Stocker et al. 2004]
Studien-CD-LinguistikInteraktives Lernen der linguistischen Grundkonzepte anhand der deutschen SpracheFür Studierende der UZH frei verfügbar unter http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web
37
http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0webhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web
-
UniversalAnnota.on
UniversalPOSTags(Wortart)
UniversalFeatures
(Morphologie)
UniversalDependencies
(Syntax)
4.2.2 UD
Übersicht zu Annotationsebenen in der NUDDie Kürzel für die Wortarten nennt man “Tags” (Etikett) (POS Tags = Part-of-Speech Tags)
Universal Part-of-Speech Tagset (Version 1)1
12 grundlegende Wortarten für viele Sprachen [Petrov et al. 2012]Für Baumbanken in 22 Sprachen angewendet! Arabic, Basque, Bulgarian, Catalan, Chinese,Czech, Danish, Dutch, English, French, German, Greek, Hungarian, Italian, Japanese, Korean,Portuguese, Russian, Slovene, Spanish, Swedish, Turkish
“Our universal POS tagset unifies this previous work and extends it to 22 lan-guages, defining the following twelve POS tags: NOUN (nouns), VERB (verbs),ADJ (adjectives), ADV (adverbs), PRON (pronouns), DET (determiners and artic-les), ADP (prepositions and postpositions), NUM (numerals), CONJ (conjunctions),PRT (particles), ‘.’ (punctuation marks) and X (a catch-all for other categories suchas abbreviations or foreign words).”
Universal Part-of-Speech Tagset (Version 2): UPOS2
Version 2 hat 17 POS-Tags
+ Eigennamen (PROPN) (vorher NOUN)
+ Hilfsverben (AUX) (vorher VERB)
+ Unterordnende Konjunktionen (SCONJ) (vorher CONJ)
+ Symbole (SYM) (vorher X)
+ Interjektionen (INTJ) (vorher PRT)
= Partikel (PART) (vorher PRT)
= Interpunktion (PUNCT) (vorher .)
Baumbanken sind für 51 Sprachen verfügbar!
38
http://universaldependencies.org/
-
Abbildung 4.2: Deutsche UD-Baumbank
UD V1.3 für Deutsch
NDurchsuchen
• Suche nach Wort: später
• Nach Wort+Wortart: später&ADV
UD V1.3 für Deutsch: Schwierigkeiten der Annotation...http://universaldependencies.org/de/pos/ADJ.html
Mehrdeutigkeiten, Unklarheiten, Fehlannotationen
Linguistische Annotation und Automatisierung
Computerlinguistische AnnotationExplizite linguistische Kategorisierung von Wortarten, morphologischen Merkmalen, Grundfor-men, syntaktischen Beziehungen etc. in digitaler Form
Möglichkeiten der Annotationserstellung1https://github.com/slavpetrov/universal-pos-tags2http://universaldependencies.org/u/pos/index.html
39
http://bionlp-www.utu.fi/dep_search/query?search=Linguistik&db=UD_German-v13http://universaldependencies.org/de/pos/ADJ.htmlhttps://github.com/slavpetrov/universal-pos-tagshttp://universaldependencies.org/u/pos/index.html
-
• Manuell: zeitaufwändig, teuer, genau (wenn unabhängige Doppelannotation inklusive Dif-ferenzbereinigung (adjudication) gemacht wird)
• Vollautomatisch: Schnell, billig, fehlerbehaftet
• Halbautomatisch: Zuerst automatisch annotieren, dann Fehler korrigieren: Vorteile? Nach-teile?
Automatische Vorannotation mit computerlinguistischen Werkzeugenhttp://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/
N CoNLL-Format: Spaltenformat für Annotationen3
• Vertikalisierter Text
• 1 Token pro Zeile
• Sätze mit Leerzeile getrennt
• 10 tabulatorgetrennte Spalten für die Annotationsinformation
• Für nicht-verfügbare Information wird “_” verwendet
Bedeutung relevanter Spalten
1. Tokennummer (1-basierte Zählung) pro Satz
2. Wortform (Token)
3. Lemma
4. Grobe Wortklasse (coarse-grained part-of-speech tag)
5. Feine Wortklasse (fine-grained part-of-speech tag)
6. Morphosyntaktische Merkmale
7. Syntaktischer Kopf als Tokennummer
8. Dependenztyp
CoNLL-U: Aufgetrennte TokensDie NUD-Tokenisierung löst gewisse verschmolzene Wörter auf in 2 Token: au = à le, dámelo= da me lo
Präposition und Artikel im Deutschen “beim = bei der” .Abweichung vom UD: Wir lassen es in den Übungen als ein Token!
3http://universaldependencies.org/format.html
40
http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-hunpos-maltparser/html/http://ilk.uvt.nl/conll/#dataformathttp://universaldependencies.org/u/overview/tokenization.html
-
Abbildung 4.3: CoNLL-U und CoNLL-X
Manuelle Annotation mit WebAnno und Exportformate
• WebAnno:Graphische Benutzerschnittstelle für die manuelle Annotation/Korrektur (DE-MO)
• Automatische Generierung des korrekten CoNLL-Datenformats
• Verifikation des CoNLL-Formats und Evaluation der Annotationen gegenüber unsermGoldstandard: http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-malteval/html/
4.2.3 Feine Tagsets
Verfeinertes Stuttgart/Tübingen-Tag-Set (STTS)Eine umfassende Standard-Klassifikation aus der CL-Praxis:
• Wichtigstes verfeinertes traditionelles Tagset des Deutschen [Schiller et al. 1999] mit 54Tags
• Eine Notationsvariante von STTS wurde als europäischer Standard für Deutsch (EAGLESELM-DE) [Teufel und Stöckert 1996] spezifiziert.
• Vergleichbar mit dem Tagset der Penn-Treebank für Englisch
• Alternativen: Münsteraner Tagset [Steiner 2003]
Wieso ist das STTS wichtig?
• Wichtige linguistisch annotierte Korpora (sog. Baumbanken) verwenden für die WortartenSTTS (nach Entstehungszeit geordnet):
– (20’000 Sätze) NNEGRA-Korpus NBeispiel– (50’000 Sätze) NTIGER-Korpus (leicht adaptiertes STTS) NBeispiel,– (90’000 Sätze) NTüBa-D/Z– (160’000 Sätze) NHamburg Dependency Treebank NBeispiel
• Es gibt verfügbare Programme, welche Wörter im Lauftext automatisch mit ihren STTS-Tags etikettieren. Solche Programme (z.B. TreeTagger) nennt man “Tagger” und denProzess “Tagging”.
41
http://localhost:8080http://localhost:8080http://pub.cl.uzh.ch/users/siclemat/lehre/ecl1/ud-de-malteval/html/http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/negra-corpus.htmlhttps://files.ifi.uzh.ch/cl/siclemat/lehre/negra/s1.htmlhttp://www.ims.uni-stuttgart.de/forschung/ressourcen/korpora/tiger.htmlhttp://www.cl.uzh.ch/siclemat/lehre/tiger/s1.htmlhttp://www.sfs.uni-tuebingen.de/ascl/ressourcen/corpora/tueba-dz.htmlhttps://corpora.uni-hamburg.de/drupal/de/islandora/object/treebank:hdthttps://weblicht.sfs.uni-tuebingen.de/visual-4_0/index.zul?dataFile=https://corpora.uni-hamburg.de:8443/hdt-tuendra/A/1/tcf.xml
-
Abbildung 4.4: Die Hauptkategorien von STTS:http://www.cl.uzh.ch/clab/hilfe/stts/
Penn-Treebank-Tagset II: Ein wichtiges Tagset für EnglischFür die wichtigste Englische Baumbank Penn-Treebank verwendet und als feines POS-Tagsetin UD-Baumbanken.
4.3 Morphologische MerkmaleMorphologische Kategorien und ihre Merkmale
Definition 4.3.1 (auch morphosyntaktisches oder grammatisches Merkmal). Die morphologi-schen Merkmale sind Ausprägungen von morphologischen Kategorien wie Genus, Kasus, Nu-merus, Person, Tempus, Modus und Komparation, welche durch die Flexion (Wortbeugung)realisiert werden.
Flexion: Bildung von den unterschiedlichen syntaktischen Wortformen eines Le-xems
• Konjugation von Verben
• Deklination von Nomen, Adjektiven, Artikeln und Pronomen
• Steigerung von Adjektiven (und wenigen Adverbien)
Diskussion: Sind steigerbare Adverbien ein Widerspruch im System?
Nach Glinz zählen die Adverbien zu den Partikeln. Partikeln sind gemäss dieser Einteilungnicht flektierbar. Zur Flexion wird normalerweise auch die Komparation gezählt. Es gibt einigeAdverbien, welche komparierbar sind (“sehr, mehr, am meisten”, “gern, lieber, am liebsten”. . . ).Ist dies ein Widerspruch? Ein bisschen schon. Aber: Steigerung wird oftmals nur für Adjektiveals Flexion betrachtet.
42
http://www.cl.uzh.ch/clab/hilfe/stts/
-
Abbildung 4.5: Die Hauptkategorien des PTTS: http://www.cl.uzh.ch/clab/hilfe/ptts/
Ist dies ein definitorischer Zirkel? Ein bisschen schon. Aber: Was ein Adjektiv ausmacht, istdie Gesamtheit der Attribute im Klassifikationsbaum, d.h. flektierbar nach Kasus, Genus undkomparierbar. Somit kann man Adjektiv-Lexeme von Adverb-Lexemen unterscheiden.Aber es gibt doch auch Adjektiv-Lexeme, welche nicht flektierbar nach Kasus und Genus sindoder nicht attributiv (d.h. in flektierter Position) verwendet werden können? Hmmh, dann musses wohl noch andere Gründe geben, ein Adjektiv-Lexem zu sein.Welche denn?
4.3.1 Genus
Das Genus (UD: Gender): Grammatisches Geschlecht
Fachbegriff Deutsch Englisch UD BeispielMaskulinum männlich masculine Masc ElephantFemininum weiblich feminine Fem GazelleNeutrum sächlich neuter Neut HuhnUnterspezifiziert n/a n/a Ferien
Tabelle 4.1: Übersicht: Genera
BemerkungDer Plural von Genus lautet Genera.
Bei welchen Wortarten ist die Kategorie Genus ausgeprägt?
Umgang mit mehrdeutigen oder unbestimmbaren Merkmalen
Nicht-ErwähnungKategorie soll ganz weggelassen werden, wenn alle Werte möglich sind.
Deutsch
43
http://www.cl.uzh.ch/clab/hilfe/ptts/
-
Wir hatten schöne/Case=Acc|Degree=Pos|Number=Plur Ferien/Case=Acc|Number=Plur .
AufzählungUntermenge an möglichen Werten wird komma-separiert aufgezählt.SpanischEl ordenador que compré aqui me/Case=Acc,Dat|Number=Sing|Person=1 dió problemas
4.3.2 Numerus
Der Numerus (UD: Number): Grammatische Zahl
Fachbegriff Deutsch Englisch UD BeispielSingular Einzahl singular Sing HuhnPlural Mehrzahl plural Plur Hühner
Tabelle 4.2: Übersicht: Numeri
BemerkungDer Plural von Numerus lautet Numeri.
Bei welchen Wortarten ist die Kategorie Numerus ausgeprägt?
4.3.3 Kasus
Der Kasus (UD: Case): FallUD-Kategorie: Case
Fachbegriff Deutsch Englisch UD BeispielNominativ Werfall nominative Nom der BaumGenitiv Wesfall genitive Gen des BaumesDativ Wemfall dative Dat dem BaumAkkusativ Wenfall accusative Acc den Baum
Tabelle 4.3: Übersicht: Kasus
BemerkungDer Plural von Kasus lautet Kasus.
4.3.4 Modus
Der Modus (engl. mode, mood, UD: Mood): Aussageweise
Fachbegriff Deutsch Englisch STTS BeispielIndikativ Wirklichkeitsform indicative Ind er gehtKonjunktiv Möglichkeitsform conditional Cnd er geheImperativ Befehlsform imperative Imp Geh!
Tabelle 4.4: Übersicht: Modi
In gewissen Sprachen wird zwischen Konjunktiv und Subjunktiv (Sub) unterschieden.BemerkungenDer Plural von Modus lautet Modi.
44
-
4.3.5 Tempus
Das Tempus (UD: Tense): grammatische Zeit, Zeitform
Fachbegriff Deutsch Englisch UD BeispielPräsens Gegenwart present tense Pres er gehtPräteritum Vergangenheit past tense Past er ging
Tabelle 4.5: Übersicht: Tempora
BemerkungenDer Plural von Tempus lautet Tempora. Wieso gibt es nur 2 morphologische Kategorien fürTempus im Deutschen? Es gibt doch viel mehr Zeiten.
4.3.6 Person
Die Person (UD: Person)
Fachbegriff Deutsch Englisch UD Beispiel1. Person Sprecher first person 1 ich gehe2. Person Angesprochene second person 2 du gehst3. Person Person, Sachverhalt third person 3 er geht
Tabelle 4.6: Übersicht: Personen
BemerkungenDer Plural von Person lautet Personen; die Verwendung ist allerdings ungebräuchlich.Bei welchen Wortarten ist die Kategorie Person ausgeprägt?
4.3.7 Grad
Der Grad (UD: Degree): Steigerung, Komparation
Fachbegriff Deutsch Englisch UD BeispielPositiv Normalform positive Pos schlauKomparativ Vergleichsform comparative Comp schlauerSuperlativ Höchststufe superlative Sup schlauste
Tabelle 4.7: Übersicht: Komparation
BemerkungenBei welchen Wortarten ist die Kategorie Grad ausgeprägt?
4.3.8 Adjektiv-Flexion
Die Adjektiv-Flexion (engl. adjective inflection)
BemerkungBis jetzt noch keine UD-Merkmale dafür definiert. Gibt es die Unterscheidung von schwacherund starker Flexion nur bei Adjektiven?
Beispiel 4.3.2 (Flexion von “schlau”).Darstellung bei www.canoo.net
45
http://www.canoo.net/services/Controller?dispatch=inflection&lang=de&view=split&input=schlau
-
Fachbegriff Deutsch Englisch STTS BeispielSchwache Flexion mit best. Artikel weak Schw der schlaue FuchsGemischte Flexion mit ein, kein,. . . mixed Mix keine schlauen FüchseStarke Flexion ohne Artikel strong St schlaue Füchse
Tabelle 4.8: Übersicht: Adjektiv-Flexion
Weitere morphologische KategorienIn der UD können morphologische Kategorien auch benutzt werden, um die groben UPOS-Tagszu verfeinern.
UPOS Kategorie Wert FeinbedeutungPRON PronType Dem DemonstrativpronomenPRON PronType Poss PossessivpronomenVERB VerbForm Fin Finites VerbVERB VerbForm Part Partizip Perfekt
Morphologische Englische UD-Annotation
1 Some some DET DT _ 9 nsubj _ _2 of of ADP IN _ 4 case _ _3 the the DET DT Definite=Def|PronType=Art 4 det _ _4 leaders leader NOUN NNS Number=Plur 1 nmod _ _5 of of ADP IN _ 8 case _ _6 these these DET DT Number=Plur|PronType=Dem 8 det _ _7 various various ADJ JJ Degree=Pos 8 amod _ _8 circles circle NOUN NNS Number=Plur 4 nmod _ _9 live live VERB VBP Mood=Ind|Tense=Pres|VerbForm=Fin 0 root _ _10 very very ADV RB _ 11 advmod _ _11 comfortably comfortably ADV RB _ 9 advmod _ _12 on on ADP IN _ 14 case _ _13 their they PRON PRP$ Number=Plur|Person=3|Poss=Yes|PronType=Prs 14 nmod:poss_ _14 loot loot NOUN NN Number=Sing 9 nmod _ SpaceAfter=No15 . . PUNCT . _ 9 punct _ _
4.4 Linguistische ProbenLinguistische Testverfahren
Definition 4.4.1 (Linguistische Proben). Eine linguistische Probe ist ein experimentelles Ana-lyseverfahren der strukturellen Linguistik, das gezielt die sprachliche Kompetenz benutzt, umgrammatische Aussagen verifizieren (bestätigen) oder falsifizieren (verwerfen) zu können.
4.4.1 Ersatzprobe
Ersatzprobe
Definition 4.4.2. In der Ersatzprobe wird ein mehrdeutiger Ausdruck in einem Satz durch einengrammatisch eindeutig zu interpretierenden Ausdruck ersetzt. Die Interpretation des Satzrestesmuss dabei unverändert bleiben.
46
-
Beispiel 4.4.3 (Bestimmung des Kasus).
Probe Mehrdeutig Eindeutig KasusBaumprobe Peter ist zornig Der Baum ist zornig NomBaumprobe Peter ist heiss Dem Baum ist heiss DatFrageprobe Peter ist zornig Wer ist zornig NomFrageprobe Peter ist heiss Wem ist heiss Dat
Manchmal kann das Scheitern einer Reihe von Ersatzproben Eindeutigkeit schaffen.
Bestimmung der Wortart von “das”: DET oder PRON (Demonstrativ-/Relativpronomen)
• Das ist das Angebot, das uns überzeugt hat.
• Dieses ist das Angebot, welches uns überzeugt hat.
• * Welches ist das Angebot, dieses uns überzeugt hat.
• ? Das ist dieses Angebot, welches uns überzeugt hat.
Probleme der Interpretation
• Test bestanden vs. nicht bestanden ist manchmal abhängig von der ursprünglichen Inter-pretation des Satzes.
• Ob sich der Sinn des Satzrests ändert durch den Ersatz, ist nicht immer ganz eindeutig.
4.4.2 Einsetzprobe
Einsetzprobe
Definition 4.4.4. In der Einsetzprobe wird ein mehrdeutiger Ausdruck in einem Kontext ein-gesetzt, der ihn grammatisch eindeutig interpretiert.
Beispiel 4.4.5 (Bestimmung der Wortart).
Probe Mehrdeutig Eindeutig WortartAttributivprobe Das war billig Der billige Baum AdjektivAttributivprobe Das war gratis *Der gratis Baum Adverb
Einsetzen in FlexionsparadigmenEine Variante der Einsetzprobe ist das Anwenden eines Flexikonsparadigmas wie Konjugationfür Verben oder Steigerung für Adjektive.
4.5 MorphologieMorphologische Ebene
Womit befasst sich die Morphologie? Wortstruktur und Wortbildung
• Flexion (Wortbeugung): such+en, such+e, such+test, such+ten, ge+such+t, such+end. . . Frucht,Frücht+e
47
-
• Derivation (Wortableitung): suchen, Suche Frucht, frucht+en, frucht+bar, un+frucht+bar,Un+frucht+bar+keit
• Komposition (Wortzusammensetzung): Such+ergebnis4, Text+zusammenfassung+s+system
4.5.1 Lemmatisierung/Morphologieanalyse
Lemmatisierung und Morphologieanalyse
Definition 4.5.1 (Lemmatisierung). Die Lemmatisierung (Grundformbestimmung) ist die Be-stimmung der Lemmas, welche einer Wortform zugrunde liegen.
Definition 4.5.2 (Morphologieanalyse). Die Morphologieanalyse ist die Bestimmung der mor-phologischen Merkmale einer Wortform bezogen auf ein bestimmtes Lemma.
Beispiel 4.5.3 (Analyse von “eine”).Wie viele verschiedene Lemmas und morphologischen Analysen hat die Wortform “eine”?
Analysen von GERTWOL5
eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2
Probleme morphologischer Analysen: Mehrdeutigkeit
eine"ein" ART INDEF SG NOM FEM"ein" ART INDEF SG AKK FEM"einer" PRON INDEF SG NOM FEM"einer" PRON INDEF SG AKK FEM"ein~en" V IND PRÄS SG1"ein~en" V KONJ PRÄS SG1"ein~en" V KONJ PRÄS SG3"ein~en" V IMP PRÄS SG2
Müller"*müller" S EIGEN Famname SG NOM"*müller" S MASK SG NOM
Kategorielle Mehrdeutigkeit4Wortbildungsanalyse von Canoo: www.canoo.net/wordformation/suchergebnis:N:N5http://www2.lingsoft.fi/cgi-bin/gertwol
48
http://www.canoo.net/wordformation/suchergebnis:N:Nhttp://www2.lingsoft.fi/cgi-bin/gertwol
-
• “eine” als . . .
• “Müller” als Eigenname oder Substantiv
Exakte morphologische Analyse in einem Text setzt die Bestimmung der Wortart voraus!
Verbrechen"*verb#rechen" S MASK SG NOM"*verb#rech~en" S NEUTR SG NOM"*ver|brech~en" S NEUTR PL DAT"ver|brech~en" * V INF"ver|brech~en" * V IND PRÄS PL1
Strukturelle MehrdeutigkeitUnterschiedliche Analysen bzw. unklare Gruppierung der Bestandteile
Probleme morphologischer Analyse
googelte
UnvollständigkeitNeubildungen, Spontanbildungen, Fremdwörter
Abchase"*abchas~e" S MASK SG NOM"*abc#hase" S MASK SG NOM
ZielkonfliktJe umfassender und vollständiger, umso mehrdeutiger das Resultat!
Lieblingsbeere"*lieb~ling\s#beere" S FEM SG NOM...
Erdbeere"*erd#beere" S FEM SG NOM...
Fingerbeeren"*finger#beere" S FEM PL NOM...
ÜberanalyseKein Unterschied zwischen lexikalisierter Form und produktiver Bildung!
49
-
Morphologieanalyse mit dem RFTaggerBestimmt für Lauftext die bestmögliche morphologische Analyse (morphologisches STTS-Tagset)und liefert passende Lemmas.
Output des RFTaggers für Deutsch (STTS-artige Tags) [Schmid und Laws 2008]
Das PRO.Dem.Subst.Nom.Sg.Neut dieist VFIN.Aux.3.Sg.Pres.Ind seinein ART.Indef.Nom.Sg.Masc eineschwacher ADJA.Pos.Nom.Sg.Masc schwachTrost N.Reg.Nom.Sg.Masc Trost. SYM.Pun.Sent .
4.5.2 Morphologiegenerierung
Generierung von syntaktischen Wortformen
Definition 4.5.4 (Morphologiegenerierung). Die Morphologiegenerierung ist das Erzeugen vonsyntaktischen Wortformen aus einem Lemma und einer morphologischen Merkmalsspezifikation.
Generieren mit UD-TagsLemma UPOS Morphologie Wortformgehen VERB Mood=Ind|Number=Sing|
Person=2|Tense=Past|VerbForm=Fingingst
backen VERB Mood=Cnd|Number=Sing|Person=2|Tense=Past|VerbForm=Fin
???
4.6 Vertiefung• Referenzkarte zum Annotieren liegt in OLAT
• http://www.canoo.net aus Basel hat eine sorgfältige traditionelle linguistische Terminolo-gie im Web und viel (!) Anschauungsmaterial aus ihrem Morphologiesystem.
• Die CDROM zum “Studienbuch Linguistik” enthält viel interaktiv aufbereitetes Lernma-terial6
• Die Website universaldependencies.org hat einige Dokumentation.
Zusammenfassung
• Unter “Wort” werden verschiedene Abstraktionen von Sprachmaterial bezeichnet
• Linguistische Annotation benötigt festgelegte und dokumentierte Kategorien und Werte
• Für Wortarten gibt es grobe (sprachübergreifende) und feine (sprachspezifische) Klassifi-kationssysteme
• AutomatischeWortartenbestimmung, morphologische Analyse und Generierung sind grund-legende computerlinguistische Anwendungen
6http://www.ds.uzh.ch/studien-cd
50
http://www.canoo.nethttp://universaldependencies.orghttp://www.ds.uzh.ch/studien-cd
-
Kontrollfragen
• Welche verschiedenen Auffassungen verbergen sich hinter dem Wort “Wort”?
• Nennen Sie die 5 Hauptwortarten nach Glinz und ihre Unterscheidungskriterien und kon-trastieren Sie sie mit UPOS 2.
• Worin besteht Morphologieanalyse und -generierung?
• Welche Vorteile und Nachteile hat automatische Annotation gegenüber manueller?
• Welche morphologischen Kategorien und Merkmale gibt es im Deutschen sowie in IhremDialekt?
• Was ist der Unterschied zwischen Lemma und Lexem?
51
-
Kapitel 5
Linguistisches Propädeutikum II
Lernziele
• Anwendung der klassischen syntaktischen Proben
• Kenntnis der Begriffe Satz, Konstituenz, Satzglied, Dependenz, Konstituente, Phrase,Kern/Kopf
• Kenntnis und Anwendung der Universal-Dependency Annotation mit Hilfe der Referenz-karte
• Bewusstsein über die hohe Ambiguität syntaktischer Strukturen
• Erfahrungen mit computerlinguistisch unterstützter, halbautomatischer linguistischer An-notation von syntaktischen Strukturen
• Erfahrungen mit der Suche von syntaktischen Strukturen in einer Baumbank mit demUD-Web-Suchwerkzeug
Motivation: 2 (halbwegs kompatible) Syntax-Welten
Konstituenten
!"#
$$%&
'($)(*(+,-
.#/#0
1123+
'($)($4#5(306
.#78.9#
:;"06?0.#0
++
2#-(:==($)(*
?06
@A+
!!
&"5"=#0
++
+#?9(:==($)(*
#"0
$B@1C
!!
D
ED
!!
F#45?G/#0
1123+
'($)($4#5(306
"/4#
$$A!:B
*(:==($)
HI.)"G/=#"9#0
++
2#-(:==($)(*
8?5J?4#"J#0
113CK
!!
(
E(
!!
+@ +@ +@ +@
+$
L< L; L<
+$
A: M;
!N M;
L+$
A: !1$ M;
1$
AL
!
L<
!
L<
O P Q ' R S T U V W PO PP PQ
SOO SOP
SOQ SO'
SOR SOS
SOT
L!
Dependenz
52
-
Hierarchische Verschachtelungsstruktur von PhrasenBinäre Abhängigkeitsverknüpfung zwischen WörternDie reine Dependenzanalyse ist in der CL die wichtigste (und effizienteste) automatische syn-taktische Analyse geworden.
(NGoogles SyntaxNet)
5.1 Syntaktische ProbenKonstituentenproben
Definition 5.1.1 (Konstituententests). Ein Konstituententest ist eine linguistische Probe, umfestzustellen, ob eine Wortfolge eine syntaktische Einheit (Konstituente) darstellt.
Hintergrund- und Übungsmaterial auf Studien-CD-Linguistik[Stocker et al. 2004] enthält eine ausführliche interaktive Einführung in Konstituenten undKonstituententests.Für Studierende der UZH frei verfügbar unter http://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web
5.1.1 Weglassprobe
Weglassprobe
Definition 5.1.2. In der Weglassprobe wird von einem grösseren unübersichtlichen Ausdrucksoviel Material wie möglich entfernt, um einen einfacheren Ausdruck zu erhalten.
Bestimmung eines Satzglieds
1. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
2. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
3. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
4. Schon einen Tag nach der Abreise seiner Freundin fühlte er sich einsam.
FrageWarum nicht Variante 4?
53
https://research.googleblog.com/2016/05/announcing-syntaxnet-worlds-most.htmlhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0webhttp://www.ds.uzh.ch/static/studien-cd/ssl-dir/1.0web
-
5.1.2 Verschiebeprobe
Verschiebeprobe
Definition 5.1.3. In der Verschiebeprobe werden Wörter und Wortgruppen im Satz umgestellt,so dass der Satz grammatisch bleibt und sich am Inhalt höchstens die Gewichtung ändert.Damit lassen sich Anfang und Ende von Satzgliedern erkennen.
Bestimmung von Satzgliedern
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. Morgen bereite ich die Sitzung mit dem Chef vor.
3. Ich bereite die Sitzung mit dem Chef morgen vor.
Tipp: Ersetze in einfachen Sätzen immer das Satzglied vor dem flektierten Verb.
Verschiebeprobe
Unzulässiges Verschieben
1. Die Sitzung mit dem Chef bereite ich morgen vor.
2. *Morgen ich bereite die Sitzung mit dem Chef vor.
3. #Die Sitzung bereite ich morgen mit dem Chef vor.
5.1.3 Umformungsproben
Umformungsprobe
Definition 5.1.4. In der Umformungsprobe werden Sätze umfassend umgebaut.
Funktion von Nebensätzen
1. Es würde mich freuen, wenn du mitkämest.
2. Dein Mitkommen würde mich freuen.
Der Nebensatz mit "‘wenn"’ erfüllt eine analoge Funktion wie "‘Es"’.
Infinitivumformung zur Subjekterkennung
1. Die Lärche ist ein Nadelbaum.
2. ein Nadelbaum sein / die Lärche
54
-
Abbildung 5.1: Moderne Satzgliedlehre nach [Stocker et al. 2004]
5.2 SatzSatz
Definition 5.2.1 (nach [Bussmann 2002]). Satz (engl. clause oder sentence). Nach sprach"-spezifischen Regeln aus kleineren Einheiten (sog. Konstituenten) konstruierte Redeeinheit, diehinsichtlich Inhalt, grammatischer Struktur und Intonation relativ vollständig und unabhängigist.
Definition 5.2.2 (nach [Dudenredaktion 2005]). Ein Satz ist eine Einheit, die aus einemfiniten Verb und allen vom Verb verlangten Satzgliedern besteht. Darüber hinaus kann der Satzzusätzliche Angaben enthalten.
5.2.1 Satzglieder
Moderne Satzgliedlehre
5.2.2 Köpfe (oder Kerne) von Konstituenten
Syntaktische Köpfe (engl. head) / Kern (engl. kernel)
Definition 5.2.3. Ein Kopf oder Kern einer Konstituente ist diejenige Tochterkonstituente,welche die grammatischen Eigenschaften ihrer Mutterkonstituente bestimmt und von der dieGeschwisterkonstituenten abhängig sind. Der Kern ist normalerweise nicht weglassbar.
Beispiel 5.2.4 (Welches ist der Kern der geklammerten Konstituenten?).
1. Er [hält ihm den Ausweis unter die geschwollene Nase].
2. Sie rennt [mit dem Mobile hantierend] zum Kiosk.
3. Es wird [viel zu oft] telefoniert.
55
-
4. [Die Frau, die zum Kiosk rannte, ] war aufgeregt.
5. Sie fühlte sich [wie in einem schlechten Film].
6. Aber sie war auch [in einem ziemlich schlechten Film].
5.3 Syntaxanalyse
5.3.1 Konstituenz
Konstituenten und Konstituenz
Definition 5.3.1 (Konstituente nach [Bussmann 2002]). Konstituente. In der strukturellenSatzanalyse [sog. Konstituentenanalyse] Bezeichnung für jede sprachliche Einheit (Wort, Wort-gruppe) die Teil einer grösseren sprachlichen Einheit ist.
Definition 5.3.2 (Konstituentenanalyse nach [Bussmann 2002]). Ziel und Ergebnis der Kon-stituentenanalyse ist die Zerlegung eines sprachlichen Ausdrucks in eine hierarchisch definierteAbfolge von Konstituenten.
Definition 5.3.3 (Konstituenz). Konstituenz ergibt sich aus der unmittelbaren Dominanz undlinearen Präzedenz zwischen Konstituenten.
Konstituenten in der TIGERSearch-Darstellung
!"#
$$%&
'($)(*(+,-
.#/#0
1123+
'($)($4#5(306
.#78.9#
:;"06?0.#0
++
2#-(:==($)(*
?06
@A+
!!
&"5"=#0
++
+#?9(:==($)(*
#"0
$B@1C
!!
D
ED
!!
F#45?G/#0
1123+
'($)($4#5(306
"/4#
$$A!:B
*(:==($)
HI.)"G/=#"9#0
++
2#-(:==($)(*
8?5J?4#"J#0
113CK
!!
(
E(
!!
+@ +@ +@ +@
+$
L< L; L<
+$
A: M;
!N M;
L+$
A: !1$ M;
1$
AL
!
L<
!
L<
O P Q ' R S T U V W PO PP PQ
SOO SOP
SOQ SO'
SOR SOS
SOT
L!
unmittelbare Dominanz
Konstituente auf Wortebene
Syntaktische Konstituente
Präzedenz auf Wortebene
Präzedenz zwischen Tochterkonstituenten
Abbildung 5.2: Konstituenz, Dominanz und Präzedenz in NEGRA-Darstellung
Jedes Wort (Terminal) und jeder ovale Knoten (Nichtterminal) repräsentiert eine Konstituente.
Konstituententypen
Typen von Konstituenten in TIGER/NEGRA
1. (Teil-)Sätze (S): Konstituente mit finiten Verbalkernen.
56
-
2. Verbalgruppe, -phrase (VP): Konstituente mit einem nicht-finiten (!) verbalen Kern.
top related