extracting opinion targets in a single- and cross-domain ... · 1 extracting opinion targets in a...
TRANSCRIPT
1
Extracting Opinion Targets in aSingle- and Cross-Domain SettingWith Conditional Random Fields
by
Niklas Jakob and Iryna Gurevych, 2010
Matteo Bonaker, 2017Selected Topics in Sentiment AnalysisDr. Michael Wiegand
Folien / PräsentationVeranstaltung
Dozent
3
Kontext
‣ 2010 veröffentlicht
‣ Damals existierende Forschung:
‒ Sentiment-Analysis auf Cross-Domain
‒ CRF für Sentiment-Analysis
‒ Opinion-Target-Extraction auf Single-Domain
‣ Neue Kombination:
‒ Opinion-Target-Extraction auf Cross-Domain (mit CRF)
6
CRF
CR
‣ CRF ist ein Machine-Learning-Modell
‣ Ähnlich wie HMMs
‣ Eingabe-Format unterschiedlich:
Bernie
would
have
won
HMM
NN
MD
VB
VBN
Theorie Anwendung Cross-Dom.
7
CRF
CR
‣ CRF ist ein Machine-Learning-Modell
‣ Ähnlich wie HMMs
‣ Eingabe-Format unterschiedlich:
Bernie
would
have
won
CRF
B
O
O
O
NN
MD
VB
VBN
…
…
…
…
Theorie Anwendung Cross-Dom.
8
Ausgabe
CR
‣ Ausgabe des CRF: Block-Markierung
‣ „Auflösung“ des Opinion-Target wird nicht gemacht
Bernie
would
have
won
CRF
B
O
O
O
...
...
...
...
B
O
O
O
Theorie Anwendung Cross-Dom.
9
Ausgabe (IOB)
‣ Beginning …
‣ Inside … … of Opinion Target
‣Outside …
‣Markierung angrenzender Blöcke möglich
Einfaches Beispiel: I like trains. O O B O
Beispiel:
Even though I like cottage cheese veganism is more important to me. O O O O B I B O O O O O O
10
Eingabe
‣ Token
‣ POS
‣ Short Dependency Path
‣ Word Distance
‣ Opinion Sentence
CRF
IOB
IOB
IOB
IOB
IOB
Token
Token
Token
Token
Token
POS
POS
POS
POS
POS
SDP
SDP
SDP
SDP
SDP
WD
WD
WD
WD
WD
OS
OS
OS
OS
OS
Theorie Anwendung Cross-Dom.
11
Eingabe
‣ Token
‒ Wort / Satzzeichen
‒ Lernbar: „crew“ häufiger Target, als „admire“admire
the
camera
crew
of
Gladiator
I
admire
the
camera
crew
of
Gladiator
I
..
Theorie Anwendung Cross-Dom.
12
Eingabe
‣ Token
‣ POS
‒ Lernbar: NN häufiger Target, als VBRVBR
DT
NN
NN
IN
NNP
PRP
admire
the
camera
crew
of
Gladiator
I
..
Theorie Anwendung Cross-Dom.
14
Eingabe
‣ Token
‣ POS
‣ Short Dependency Path
‣ Word Distance
‒ Zu jeder Opinion-Expression:NP mit kürzester Distanz
‒ Lernbar: Target häufig in nahegelegener NP
N
Y
Y
Y
N
N
Y
admire
the
camera
crew
of
Gladiator
I
N.
Theorie Anwendung Cross-Dom.
15
Eingabe
‣ Token
‣ POS
‣ Short Dependency Path
‣ Word Distance
‣ Opinion Sentence
‒ Wenn eine Opinion-Expression da ist,alle Token des Satzes markieren!
‒ Lernbar: Sätze ohne Opinion ignorieren
Y
Y
Y
Y
Y
Y
Y
admire
the
camera
crew
of
Gladiator
I
Y.
Theorie Anwendung Cross-Dom.
16
Eingabe
‣ Token
‣ POS
‣ Short Dependency Path
‣Word Distance
‣Opinion Sentence
CRF
IOB
IOB
IOB
IOB
IOB
Token
Token
Token
Token
Token
POS
POS
POS
POS
POS
SDP
SDP
SDP
SDP
SDP
WD
WD
WD
WD
WD
OS
OS
OS
OS
OS
Theorie Anwendung Cross-Dom.
27
Cross-Domain
‣ Warum sollte Cross-Domain schwieriger sein?
‒ Domain-Spezifisches „Wissen“ des CRF!
‣ Hier nochmal die Features:
‒ Token
‒ POS
‒ Short Dependency Path
‒ Word Distance
‒ Opinion Sentence
Theorie Anwendung Cross-Dom.
30
Vorgehen
‣ Token-Feature für Cross-Domain entfernt
‣ Training auf 3 oder weniger Domains
‣ Test auf einer der übrigen Domains
Theorie Anwendung Cross-Dom.
34
Schlussfolgerung
‣ Single-Domain‒ Höchster F-Score
Meiste Trainings-Daten
Alle Features
‣ Cross-Domain‒ Höchster F-Score
Training auf Kamera-Domain
Test auf Movie-Domain
Ohne Token-Feature
Theorie Anwendung Cross-Dom.
35
Danke für eure Aufmerksamkeit!