combinatory categorial grammar teil 2: semantik in der ccgmujdricz/referate/... · 2014. 2. 10. ·...
TRANSCRIPT
Combinatory Categorial Grammar–
Teil 2: Semantik in der CCG
Referat
Referentin: Éva Mújdricza
Semantikkonstruktion SS 08Dozenten: Anette Frank, Matthias Hartung
Ruprecht-Karls-Universität HD29.04.2008
CCG (2), 29.04.2008 2
Übersicht
● Wiederholung● Semantikkonstruktion und semantische Repräsentation(en)● Beispiele● Semantische Repräsentation für eine große CCG-Grammatik● Zusammenfassung● Quellen● Freiwillige Übung
CCG (2), 29.04.2008 3
Wiederholung
Syntaktische Kategorien und Regeln der CCG
CCG (2), 29.04.2008 4
Kategorien
● C&C tools Demo: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo● Kategorien: einfache und komplexe: ~ Argumente der kombinatorischen
Regeln– S = Satz– N = Nomen– NP = Nominalphrase– PP = Präpositionalphrase
CCG (2), 29.04.2008 5
Kategorien
● C&C tools Demo: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo● Kategorien: einfache und komplexe: ~ Argumente der kombinatorischen
Regeln– S = Satz– N = Nomen– NP = Nominalphrase– PP = Präpositionalphrase
CCG (2), 29.04.2008 6
Kategorien
● C&C tools Demo: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo● Kategorien: einfache und komplexe: ~ Funktoren
– S\NP = intransitives Verb– (S\NP)/NP = transitives Verb– (S\NP)\(S\NP) oder (S\NP)/(S\NP) = Adverb– ((S\NP)\(S\NP))/NP oder (NP\NP)/NP = Präposition
● Komplexe Kategorien werden nach ihren syntaktischen Eigenschaften kodiert:– X\Y oder X/Y– Y: Argument der Regel– X: Resultat der Regel– \,/: Richtung der
Regelanwendung
CCG (2), 29.04.2008 7
Kategorien
● C&C tools Demo: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo● Kategorien: einfache und komplexe: ~ Funktoren
– S\NP = intransitives Verb– (S\NP)/NP = transitives Verb– (S\NP)\(S\NP) oder (S\NP)/(S\NP) = Adverb– ((S\NP)\(S\NP))/NP oder (NP\NP)/NP = Präposition
● Komplexe Kategorien werden nach ihren syntaktischen Eigenschaften kodiert:– X\Y oder X/Y– Y: Argument der Regel– X: Resultat der Regel– \,/: Richtung der
Regelanwendung
CCG (2), 29.04.2008 8
Kombinatorische Regeln
● Kombinatorische Regeln:– Funktionale Applikation: Funktor + Argument– Typanhebung: Argument wird Funktor– Funktionale Komposition: Funktor + Funktor– Typwechsel: nach bestimmten syntaktischen Regularitäten
● Komplexe Kategorien werden nach ihren syntaktischen Eigenschaften kodiert:– X\Y oder X/Y– Y: Argument der Regel– X: Resultat der Regel– \,/: Richtung der
Regelanwendung
CCG (2), 29.04.2008 9
Kombinatorische Regeln
● Kombinatorische Regeln:– Funktionale Applikation: Funktor + Argument– Typanhebung: Argument wird Funktor– Funktionale Komposition: Funktor + Funktor– Typwechsel: nach bestimmten syntaktischen Regularitäten
● Komplexe Kategorien werden nach ihren syntaktischen Eigenschaften kodiert:– X\Y oder X/Y– Y: Argument der Regel– X: Resultat der Regel– \,/: Richtung der
Regelanwendung
CCG (2), 29.04.2008 10
Kombinatorische Regeln
● Kombinatorische Regeln:– Funktionale Applikation: Funktor + Argument– Typanhebung: Argument wird Funktor– Funktionale Komposition: Funktor + Funktor– Typwechsel: nach bestimmten syntaktischen Regularitäten
● Komplexe Kategorien werden nach ihren syntaktischen Eigenschaften kodiert:– X\Y oder X/Y– Y: Argument der Regel– X: Resultat der Regel– \,/: Richtung der
Regelanwendung
CCG (2), 29.04.2008 11
Kombinatorische Regeln
● Typanhebung: Ein Argument wird als Funktor, d.h. die Konstituente, der eine einfache Kategorie zugewiesen wurde, bekommt eine äquivalente komplexe Kategorie.
● Typanhebung ist nicht immer syntaktisch motiviert:
einmal forward, einmal backward zweimal forward funktionale Applikation funktionale Applikation
● Motivation für Typanhebung: z.B. Relativsätze
CCG (2), 29.04.2008 12
Kombinatorische Regeln
● Typanhebung: Ein Argument wird als Funktor, d.h. die Konstituente, der eine einfache Kategorie zugewiesen wurde, bekommt eine äquivalente komplexe Kategorie.
● Typanhebung ist nicht immer syntaktisch motiviert:
einmal forward, einmal backward zweimal forward funktionale Applikation funktionale Applikation
● Motivation für Typanhebung: z.B. Relativsätze
CCG (2), 29.04.2008 13
Kombinatorische Regeln
● Funktionale Komposition: Zwei Funktoren (komplexe Kategorien) werden miteinander kombiniert.– X/Y Y/Z → X/Z oder Y\Z X\Y → X\Z
● Das Verb likes erwartet eine NP rechts von sich. Diese Erwartung wird nach oben (Richtung Wurzel) weitergereicht, bis sie erfüllt werden kann.
● Die Interpretation der markierten Wortstellung kann mithilfe der Typanhebung und funktionaler Komposition durchgeführt werden.
CCG (2), 29.04.2008 14
Kombinatorische Regeln
● Funktionale Komposition: Zwei Funktoren (komplexe Kategorien) werden miteinander kombiniert.– X/Y Y/Z → X/Z oder Y\Z X\Y → X\Z
● Das Verb likes erwartet eine NP rechts von sich. Diese Erwartung wird nach oben (Richtung Wurzel) weitergereicht, bis sie erfüllt werden kann.
● Die Interpretation der markierten Wortstellung kann mithilfe der Typanhebung und funktionaler Komposition durchgeführt werden.
CCG (2), 29.04.2008 15
Kombinatorische Regeln
● Funktionale Komposition: Zwei Funktoren (komplexe Kategorien) werden miteinander kombiniert.– X/Y Y/Z → X/Z oder Y\Z X\Y → X\Z
● Das Verb likes erwartet eine NP rechts von sich. Diese Erwartung wird nach oben (Richtung Wurzel) weitergereicht, bis sie erfüllt werden kann.
● Die Interpretation der markierten Wortstellung kann mithilfe der Typanhebung und funktionaler Komposition durchgeführt werden.
CCG (2), 29.04.2008 16
Kombinatorische Regeln
● Funktionale Komposition: Zwei Funktoren (komplexe Kategorien) werden miteinander kombiniert.– X/Y Y/Z → X/Z oder Y\Z X\Y → X\Z
● Das Verb likes erwartet eine NP rechts von sich. Diese Erwartung wird nach oben (Richtung Wurzel) weitergereicht, bis sie erfüllt werden kann.
● Die Interpretation der markierten Wortstellung kann mithilfe der Typanhebung und funktionaler Komposition durchgeführt werden.
CCG (2), 29.04.2008 17
Semantikkonstruktion und semantische Repräsentation(en)
λ-KalkülDiskursrepräsentationsstruktur (DRS)
CCG (2), 29.04.2008 18
Semantikkonstruktion
● Jeder (syntaktischen) Kategorie wird eine semantische Repräsentation zugewiesen.
● Einfache Kategorien:– NP john’– S eats’(apple’, john’)
● Komplexe Kategorien:– S\NP intr. Verb λx.eats’(x)– (S\NP)/NP trans. Verb λx.λy.eats’(x,y)
CCG (2), 29.04.2008 19
Semantikkonstruktion
● Die kombinatorischen Regeln berechnen parallel den Aufbau der syntaktischen Struktur und deren semantische Repräsentation.– Funktionale Applikation: Funktor + Argument
● forward (>): X/Y:f Y:a → X:f(a)● backward (<): Y:a X\Y:f → X:f(a)
– Typanhebung: Argument wird Funktor● forward (>T): X:a → T/(T\X):λf.f(a)
– Funktionale Komposition: Funktor + Funktor● forward (>B): X/Y:f Y/Z:g → X/Z:λz.f(g(z))● backward (<B): Y\Z:g X\Y:f → X\Z:λz.f(g(z))
– Typwechsel: nach bestimmten syntaktischen Regularitäten
CCG (2), 29.04.2008 20
Semantikkonstruktion
● Die kombinatorischen Regeln berechnen parallel den Aufbau der syntaktischen Struktur und deren semantische Repräsentation.– Funktionale Applikation: Funktor + Argument
● forward (>): X/Y:f Y:a → X:f(a)● backward (<): Y:a X\Y:f → X:f(a)
– Typanhebung: Argument wird Funktor● forward (>T): X:a → T/(T\X):λf.f(a)
– Funktionale Komposition: Funktor + Funktor● forward (>B): X/Y:f Y/Z:g → X/Z:λz.f(g(z))● backward (<B): Y\Z:g X\Y:f → X\Z:λz.f(g(z))
– Typwechsel: nach bestimmten syntaktischen Regularitäten
CCG (2), 29.04.2008 21
Semantische Repräsentation(en)
● Die CCG-Parsebäume müssen in semantische Repräsentation übersetzt werden.
Der Semantikkonstruktionsprozess:1. Annotation der lexikalischen Einheiten mit ihrer semantischen
Repräsentation. Repräsentationssprache: λ-Kalkül für PL oder DRS.z.B.:
2. Berechnung der semantischen Strukturen entsprechend der Vorschriften der Kombinationsregeln.
3. Anwendung der β-Reduktion auf die semantische(n) Repräsentation(en) der Derivationsschritte (Entweder bei jedem Schritt oder auf einmal am Ende der Berechnung.)
CCG (2), 29.04.2008 22
Beispiele
A man lied.bananas which John likes
CCG (2), 29.04.2008 23
A man lied.
● Parsebaum:
● Kompositionelle Berechnung der Semantik mit dem λ-Kalkül:
CCG (2), 29.04.2008 24
A man lied.
● Parsebaum:
● Kompositionelle Berechnung der Semantik mit dem λ-Kalkül: f a
funktionale Applikation: f(a)
CCG (2), 29.04.2008 25
A man lied.
● Parsebaum:
● Kompositionelle Berechnung der Semantik mit dem λ-Kalkül: f
a
funktionale Applikation: f(a)
CCG (2), 29.04.2008 26
A man lied.
● Parsebaum:
● Kompositionelle Berechnung der Semantik mit dem λ-Kalkül: f
a Neo-Davidson’sche Ereignissemantik funktionale Applikation: f(a)
CCG (2), 29.04.2008 27
A man lied.
● Parsebaum:
● Kompositionelle Berechnung der Semantik mit dem λ-Kalkül:a f
Berechnung von f(a):
f(a)
CCG (2), 29.04.2008 28
A man lied.
● Parsebaum:
● Zielrepräsentationen:– FOPL:
– DRS:
CCG (2), 29.04.2008 29
A man lied.
CCG (2), 29.04.2008 30
A man lied.
CCG (2), 29.04.2008 31
A man lied.
CCG (2), 29.04.2008 32
..., which John likes, ...
● Typanhebung + funktionale Komposition
● Normalwortfolge: nur funktionale Applikationen
CCG (2), 29.04.2008 33
..., which John likes, ...
● Typanhebung + funktionale Komposition
● Normalwortfolge: nur funktionale Applikationen
CCG (2), 29.04.2008 34
..., which John likes, ...
● Typanhebung + funktionale Komposition f g
funktionale Komposition: λz.f(g(z))
CCG (2), 29.04.2008 35
Semantische Repräsentation für eine große CCG-Grammatik
Referenzen:● Bos et al. 2004
● Curran et al. 2007
Vorbereitung der Daten: Tagging und ParsingSemantische Annotation des Lexikons
Evaluierung
CCG (2), 29.04.2008 36
Vorbereitung der Daten
● Eingabesätze werden mit CCG-Supertagger getaggt: Maximum-Entropy POS-tagger für die Wahl der wahrscheinlichsten lexikalischen Kategorien für jedes Wort (97 % Genauigkeit).– + chunker – + named entity recognizer (person, location, organisation, date, time,
monetary amount)● Jeder Tagger wird als „Multi-Tagger” eingesetzt: Sie können den Wörtern
mehr als nur ein Tag zuweisen.● Der HMM-basierte (Maximum-Entropy) Tagger ordnet den Wörtern zuerst
eine kleinere Menge von Kategorien zu.● Wenn der Satz mit diesen Tags nicht erfolgreich geparst werden kann (CKY-
Algorithmus), wird wieder der Tagger eingeschaltet, der noch weitere Kategorien den Wörtern zuordnet. Danach wird der Satz neu geparst.
● ~ Der Supertagger und der Parser ergänzen einander.● Ausgabe: Die wahrscheinlichste Analyse des Satzes als Parsebaum.
CCG (2), 29.04.2008 37
Parsing
● Von 409 lexikalischen Kategorien der CCG-Grammatik, die mindestens zehnmal im Korpus der CCGBank vorkommen, wurde ca. 300 Kategorien von Johan Bos (2005) eine semantische Repräsentation in der Form von DRSen zugewiesen.
● Mit dieser kleiner DRS-Menge wurde ein robuster Parser gebaut. Ziel: hohe Genauigkeit/Korrektheit.
● Es wurden semantische Schablonen (template) für nichtanalysierbaren Baumteile eingesetzt. → Der Parser gibt auch dann eine Ausgabe aus, wenn nur eine Teilanalyse des Satzes möglich ist.
CCG (2), 29.04.2008 38
Parsing
● Beispiel für die Ausgabe des Parsers:The school-board hearing at which she was dismissed was crowded with students and teachers.
CCG (2), 29.04.2008 39
Parsing
● Beispiel für die Ausgabe des Parsers:The school-board hearing at which she was dismissed was crowded with students and teachers.
kompositionale Regeln
CCG (2), 29.04.2008 40
Parsing
● Beispiel für die Ausgabe des Parsers:The school-board hearing at which she was dismissed was crowded with students and teachers.
lexikalische Einheiten (Blätter der Baumstruktur): <CCG-Kategorie, Lemma>
CCG (2), 29.04.2008 41
Parsing
● Beispiel für die Ausgabe des Parsers:The school-board hearing at which she was dismissed was crowded with students and teachers.
lexikalische Einheiten (Blätter der Baumstruktur): <CCG-Kategorie, Lemma>
Die Blätter werden mit der semantischen Repräsentation angereichert.
CCG (2), 29.04.2008 42
Semantische Repräsentation(en)
● Die CCG-Parsebäume müssen in semantische Repräsentation übersetzt werden.
Der Semantikkonstruktionsprozess:1. Annotation der lexikalischen Einheiten mit ihrer semantischen
Repräsentation. Repräsentationssprache: λ-Kalkül für PL oder DRS.z.B.:
2. Berechnung der semantischen Strukturen entsprechend der Vorschriften der Kombinationsregeln.
3. Anwendung der β-Reduktion auf die semantische(n) Repräsentation(en) der Derivationsschritte (Entweder bei jedem Schritt oder auf einmal am Ende der Berechnung.)
CCG (2), 29.04.2008 43
Evaluierung
● Evaluierung ist sehr schwierig, weil es für diese Anwendung keine erprobten Evaluierungsmaße bzw. keinen Goldstandard gibt.
● Die Wohlgeformtheit der semantischen Repräsentation ist eine Voraussetzung für die richtige Interpretation.
● Daten:– PTB II wurde in CCG(Bank) überführt– Training set: Abschnitt 02-21 der CCGBank
● 1286 lexikalische Kategorien (Typen); 3262 Regeln– Development set: Abschnitt 00 der CCGBank– Test set: Abschnitt 23 der CCGBank (2401 Sätze)
● Der Parser hat in 98,6 % der Fälle eine Ausgabe geliefert.● F-score des Parsers: 84,6 % ● Für 92,3 % der Parsebäume wurde eine semantische
Repräsentation geliefert. Alle waren wohlgeformt.
CCG (2), 29.04.2008 44
Evaluierung
● Fehlerquellen: – falsche syntaktische Annotation der CCGBank– falsche semantische Repräsentation – falsch erkannte Abhängigkeiten– nicht erkannte lexikalische Einheiten
● Optimierungsmöglichkeiten:– Bisher wurden die 300 häufigsten Kategorien der 409 syntaktischen
Kategorien behandelt, die mindestens 10-mal im Korpus vorkommen.● Ziel: Alle Kategorien einbinden. → Höhere Genauigkeit
– Eine unterspezifizierte Semantikrepräsentation ausarbeiten.
CCG (2), 29.04.2008 45
Weitere Ziele
● Überprüfung der Konsistenz der DRSen, wobei sie in eine logische Form erster Stufe überführt werden.
● Einbinden von Hintergrundwissen aus WordNet, mit dessen Hilfe gezielte Schlussfolgerungen gezogen werden können:– WordNet wird entsprechend umgestaltet (MiniWordNet), damit für die
lexikalischen Einheiten der CCGBank eine kleine Ontologie erstellt werden kann:
● Eingabe: DRS● Ausgabe: Wissen zu den Wörtern in Form von Axiomen (Logik erster
Stufe): IS-A-Beziehungen (Hyperonyme) nach den Konzepten der Ontologie.
CCG (2), 29.04.2008 46
Zusammenfassung und Quellen
CCG (2), 29.04.2008 47
Zusammenfassung
● Aufbau der CCG:– Lexikon (einfache und komplexe Kategorien)– Kombinationsregeln– binäre Baumstruktur
● Die funktionalen lexikalischen Kategorien steuern den Aufbau der syntaktischen Struktur.– Erfolgreiche Behandlung von langen Abhängigkeiten, Koordination,
Raising, Kontrollkonstruktion, ...● Effizientes Parsing großer Grammatiken.
CCG (2), 29.04.2008 48
Zusammenfassung
● Syntaktische und semantische Struktur werden parallel aufgebaut. Es gibt eine transparente Schnittstelle zwischen der syntaktischen und semantischen Ebene.
● Die semantische Repräsentation der Sätze wird kompositionell mit dem λ-Kalkül (Logik erster Stufe) berechnet.
● Die Semantik kann durch verschiedene Repräsentationsformalismen dargestellt werden:– FOPL– Diskursrepräsentationsstrukturen (DRT)
● Mit Boxer können aus CCG-geparsten Sätzen DRSen generiert werden.
– Beschreibung unter: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer– On-line Demonstration: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo
CCG (2), 29.04.2008 49
Quellen
● Bos, Johan, Stephen Clark, Mark Steedman, James R. Curran & Julia Hockenmaier (2004): Wide-Coverage Semantic Representations from a CCG Parser, in: Proceedings of the 20th International Conference on Computational Linguistics (COLING '04). Geneva, Switzerland.– http://www.aclweb.org/anthology-new/C/C04/C04-1180.pdf (Stand: 12.04.2008, 17:09)
● Bos, Johan (2005): Towards Wide-Coverage Semantic Interpretation. In: Proceedings of the 6th International Workshop on Computational Semantics (IWCS-6). Tilburg, The Netherlands.– http://scholar.google.de/scholar?hl=de&lr=&cluster=6458462674561416714 (Stand: 14.04.2008,
20:56)
● Carstensen, Kai-Uwe, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde & Hagen Langer (Hrsg.) (22004): Computerlinguistik und Sprachtechnologie. München : Spektrum Akademischer Verlag. S. 302–305.
● Curran, James R., Stephen Clark & Johan Bos (2007): Linguistically Motivated Large-Scale NLP with C&C and Boxer, in: Proceedings of the Demonstrations Session of 45th Annual Meeting of the Association for Computational Linguistics. (ACL 2007). Prague, Czech Republic.– http://scholar.google.de/scholar?hl=de&lr=&cluster=12028260611526866070
(Stand: 12.04.2008, 17:14)
CCG (2), 29.04.2008 50
Quellen
● Genabith, Josef van, Julia Hockenmaier & Yusuke Miyao (2006): Treebank-Based Acquisition of LFG, HPSG and CCG Resources. ESSLLI Course 2006.– http://www.cl.uni-heidelberg.de/courses/ss08/semconstr/ESSLLI06-TBgram.pdf
(Stand: 12.04.2008, 16:50)
● Steedman, Mark & Jason Baldrige (2007): Combinatory Categorial Grammar. Unpublished Tutorial, School of Informatics, Edinburgh University.– ftp://ftp.cogsci.ed.ac.uk/pub/steedman/ccg/manifesto.pdf (Stand: 12.04.2008, 16:55)
● C&C Tools: – Online-Demo: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/Demo – Boxer: http://svn.ask.it.usyd.edu.au/trac/candc/wiki/boxer
CCG (2), 29.04.2008 51
Freiwillige Übung
● Fügen Sie der syntaktischen Kategorien der Konstituenten die Semantik hinzu und berechnen Sie die semantische Repräsentation des Satzes mithilfe des λ-Kalküls.