semimanuelle generierung und auswertung von alternativentexten christian chiarcos...
TRANSCRIPT
![Page 1: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/1.jpg)
Semimanuelle Generierung und Auswertung von Alternativentexten
Christian [email protected]
IDS JahrestagungMannheim, 18.03.2005
![Page 2: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/2.jpg)
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke bezeichnen prototypische „Objekte“ in der
Diskurswelt (Diskursreferent, Karttunen 1975) wirken kohärenzstiftend
beeinflussen Wahrnehmung und Verständlichkeit
Instrument zur Strukturierung von Texten
![Page 3: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/3.jpg)
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF)
Was wollte dein Kollege vorhin von der Gärtnerin ?
Hans kaufte bei ihr Blumen. Pronomen
Hans kaufte bei Maria Blumen. Eigenname
Hans kaufte bei der Frau Blumen. definite NP
Hans kaufte bei dieser Frau Blumen. NP + dem.prn
![Page 4: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/4.jpg)
I MotivationVariation sprachlicher Mittel
referentielle Ausdrücke variieren bzgl. ihrer morphosyntaktischen Kategorie (REF) der Wortstellung (WS) der grammatischen Rollen (GR)
diese Variabilität ist nicht vollständig durch syntaktische und semantische Restriktionen determiniert
![Page 5: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/5.jpg)
I MotivationProbleme
Strenge einer Kodierungsentscheidung stilistische Präferenz oder sprachlich restriktiv
„Goldstandard-Problem“ für die Textgenerierung natürliche Texte können suboptimal sein Übereinstimmung ist damit kein hinreichendes Gütekriterium
verschränkte Variabilität Abweichungen bzgl. der erwarteten Kodierung auf einer
Ebene (z.B. REF) können durch Abweichungen auf einer anderen (z.B. WS) kompensiert werden
![Page 6: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/6.jpg)
II AlternativentexteHintergrund
Ziel Untersuchung dieser Freiheitsgrade Untersuchung kontextueller Parameter
Grundidee (Mellish & Yeh 1997) Lückentext Probanden wählen für jede Lücke aus
verschiedenen vorgegebenen Alternativen diese Kodierungsentscheidung kann mit der
eines Textgenerierungssystems verglichen werden
![Page 7: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/7.jpg)
II AlternativentexteZielstellung
Betrachtung mehrer Ebenen sprachlicher Variation REF, WS, GR
Sicherstellung hinreichender Überlappung kurze Texte (15-20 Sätze) skalierbare Variabilität der Lückentexte
REF REF+WO REF+WO+GR
![Page 8: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/8.jpg)
II AlternativentexteBasisdaten
Potsdamer Kommentarkorpus (Stede 2004) deutschsprachige Zeitungskommentare auf verschiedenen Ebenen annotiert
Morphosyntax (TIGER) Koreferenz (PoCoS) rhetorische Struktur (URML) Informationsstruktur (SFB 632) integratives Metaformat (ANNIS)
![Page 9: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/9.jpg)
II AlternativentexteErzeugung und Einsatz
Erzeugung aus morphosyntaktisch (TIGER) und Koreferenz-
(PoCoS) annotierten Texten wird ein Projekt-Skelett erzeugt,
dann semimanuell mit Alternativen angereichert
Einsatz menschliche Probanden werden mit dem daraus
erstellten Lückentext („Entscheidungsbaum“) konfrontiert
Kodierungsentscheidungen („Pfade“) werden separat gespeichert
![Page 10: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/10.jpg)
II AlternativentexteSemimanuelle Anreicherung
Projekt-Skelett
Koreferenz-Annotation
morphosyntaktischeAnnotation
nur eine Alternative enthaltend (denoriginalen Text)
GR
REF
WS
Alternativentext
Alternativen-annotiert
Alternativenannotation
Variation des referentiellen Ausdrucksund Kongruenzprüfung
+
Variation der grammatischen Rollen(Passivierung, Verbwechsel)
(+ )
Variation der Worstellung
(+ )
![Page 11: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/11.jpg)
III XALT
Ein Format für Alternativentexte
XML-basiertstandoff-Architektur verteiltes Format
mehrere Ebenen der Annotation beziehen sich auf dieselben Basisdaten werden separat gespeichert
modulare Struktur erweiterbar platzeffizient
![Page 12: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/12.jpg)
III XALT Ein Format für Alternativentexte
base.xml
ref.xml
die Worte des Textes
für jeden Referentenverschiedene referen-
tielle Ausdrücke
segments.xml
für jeden Satz alternative Ab-
folgen von Wor-ten und Ver-weisen aufReferenten
text.xml
die Abfolgeder Segmentein einem Text
![Page 13: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/13.jpg)
III XALT Ein Format für Alternativentexte
base.xml
ref.xml
die Worte des Textes
für jeden Referentenverschiedene referen-
tielle Ausdrücke
segments.xml
für jeden Satz alternative Ab-folgen von Wor-
ten und Ver-weisen aufReferenten
text.xml
die Abfolgeder Segmentein einem Text
paths.xml
vom Nutzer oderAutor gewählte
Kodierungsalter-nativen
![Page 14: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/14.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xml text.xml
paths.xml
Was wollte dein Kollege vorhin von der Gärtnerin ?
![Page 15: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/15.jpg)
III XALT Beispiel
base.xmlbase.xml
ref.xml segments.xml text.xml
paths.xml
Was1 wollte2 dein3 Kollege4 vorhin5 von6 der7 Gärtnerin8 ?9
word_1: wasword_2: wollteword_3: dein....
![Page 16: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/16.jpg)
III XALT Beispiel
base.xml
ref.xmlref.xml segments.xml
paths.xml
[Was]1 wollte [[dein][[dein]22 Kollege] Kollege]33 vorhinvon [der Gärtnerin]4 ?
text.xml
ref_3: [dein]2 Kollegeder Kollege[dein]2 netter Kollegeder Kollege HansHansder Hansdieser Hans...
![Page 17: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/17.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 alt_2 ...ref_1 ref_3word_2 word_2ref_3 word_5word_5 ref_1word_6 word_6ref_4 ref_4word_9 word_9
![Page 18: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/18.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 ...ref_1 („was“)word_2 („wollte“)ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4 („der Gärtnerin“)word_9 („?“)
![Page 19: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/19.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1: alt_1 ...ref_1ref_1 („was“)word_2 („wollte“)ref_3ref_3 („dein Kollege“)word_5 („vorhin“)word_6 („von“)ref_4ref_4 („der Gärtnerin“)word_9 („?“)
Entscheidungsknoten:referentielle Ausdrücke
![Page 20: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/20.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xmlsegments.xml text.xml
paths.xml
Was wollte dein Kollege vorhinvon der Gärtnerin ?
seg_1seg_1: alt_1 alt_2 ...... ref_3 („Hans“)
word_2 („wollte“)word_5 („vorhin“)ref_1 („was“)word_6 („von“)ref_4 („der G.“)word_9 („?“)
Entscheidungsknoten:Form der Äußerung
![Page 21: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/21.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xml text.xmltext.xml
paths.xml
[Was wollte dein Kollege vorhinvon der Gärtnerin ?]1
text_1: alt_text_1seg_1seg_2
[Hans kaufte bei ihr Blumen.]2
![Page 22: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/22.jpg)
III XALT Ein partieller Entscheidungsbaum
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
ref_3ref_3dein
Kollegeder
Hans...
wollte vorhin
ref_1ref_1was
von
ref_4ref_4derGärtnerin
ihr
?
...
alt_1 alt_2
![Page 23: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/23.jpg)
III XALT Ein Pfad
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
ref_3ref_3dein
Kollegeder
Hans...
wollte vorhin
ref_1ref_1was
von
ref_4ref_4derGärtnerin
ihr
?
...
alt_1
![Page 24: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/24.jpg)
III XALT Beispiel
base.xml
ref.xml segments.xml text.xml
paths.xmlpaths.xml
seg_1seg_1
ref_1ref_1 was
wollte
ref_3ref_3 deinKollege
derHans
vorhin von
ref_4ref_4 derGärtnerin
ihr
?
...
...
...
pathid = „orig“
alt_1
![Page 25: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/25.jpg)
IV Anwendung und Auswertungpaths.xml
ordnet in jedem Pfad jedem Entscheidungsknoten eine getroffene Kodierungsentscheidung zu
gestattet die Rekonstruktion des Textes
enthält zusätzlich Verweise auf die Form des referentiellen Ausdrucks (REF) grammatische Relationen (GR) Wortstellung (WS)
alleiniger Gegenstand der empirischen Auswertung
![Page 26: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/26.jpg)
IV Anwendung und AuswertungStatistische Auswertung
empirische Erfassung der Voraussagekraft verschiedener Kontextfaktoren für das Eintreten und die Variabilität einer gewählten Realisierungsoption Relevanz- („importance/salience“) Indikatoren Givenness- („contextual boundedness/salience“)
Indikatoren
praktisch hochrelevant für Aspekte der Maschinellen Textgenerierung, -zusammenfassung und -interpretation
![Page 27: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/27.jpg)
IV Anwendung und AuswertungTheoretische Interpretation
Vergleich von Voraussagen verschiedener Theorien zu referentieller Kohärenz und Anaphernresolution anhand empirischer Daten Centering Theory (Grosz et al. 1995) Givón (2001) Sgall et al. (1986) ...
![Page 28: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/28.jpg)
IV Anwendung und AuswertungEvaluation der Textgenerierung
automatisch abgeleitete Kodierungspräferenzen werden mit manuell gewählten verglichen
der Grad der Übereinstimmung, gewichtet mit der Variabilität einer Kodierungsentscheidung, kann als Gütefunktion verwendet werden
Im Unterschied zum Goldstandard-Ansatz wird dabei über mehrere Varianten in einem festen lokalen Kontext generalisiert Minimierung von individuellen/stilistischen Artefakten
![Page 29: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/29.jpg)
A Platzkomplexität
wir betrachten einen Satz mit transitivem Verb, zwei Argumenten, einem Adjunkt und einem AdverbHans kaufte gestern bei Maria Blumen.
![Page 30: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/30.jpg)
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.
REF pro Referent durch eine große Konstante abschätzbar, z.B.
10, daher 103=1000
GR Passivierung: 2 Verbalternation: mind. 2 (verkaufen)
WS Vorfeldbesetzung + Variation im Mittelfeld ca. 4!=24
Permutationen
Varianten pro Satz 1.000 * 4 * 24 = 96.000
![Page 31: Semimanuelle Generierung und Auswertung von Alternativentexten Christian Chiarcos chiarcos@ling.uni-potsdam.de IDS Jahrestagung Mannheim, 18.03.2005](https://reader036.vdocuments.net/reader036/viewer/2022062404/55204d7e49795902118cefa8/html5/thumbnails/31.jpg)
in Abhängigkeit von der Länge n eines Satzesbase.xml O(log n + n)ref.xml O(n*log n) linear: max. konstant viele neue Referenten pro Satz mit
konstant beschränkbarer Länge
segment.xml O(n!*nc*log n) nur aus Verweisen bestehend
text.xml O(1)gesamt verteilt O(n!*nc*log n) monolithisch O(n!*nc)
A PlatzkomplexitätHans kaufte gestern bei Maria Blumen.