l’approccio lessico-grammaticale per la sentiment analysis ... · sentiment analysis task...
TRANSCRIPT
L’Approccio Lessico-Grammaticale per la Sentiment Analysis
L’Approccio Lessico-Grammaticale
Il metodo e la pratica di descrizione formale delle lingue
sviluppati da Maurice Gross a partire dalla seconda metà degli anni
Sessanta.
L’unità d’analisi non è la parola, ma la frase semplice, composta da
un verbo o da un altro operatore e da tutti i complementi di verbo
selezionati in base alla valenza dell’operatore stesso
Il lessico è considerato portatore di informazioni di tipo sintattico
e distribuzionale.
Background Teorico
Trattamento automatico di opinioni e sentimenti espressi all’interno di testi non strutturati
Cos’è la Sentiment Analiysis?
Alcune sfide nella ricerca sulla SA sono:
Sentiment and Subjectivity Classification Sentence-level Classification
Document –level Classification
Domain-specific Classification
Contextual Valence Shifting Intensificazione e Downtoning
Comparative Sentences Mining
Negation Modeling
Sentiment Analysis of Comparative Sentences
Sentiment Analysis of Interrogative Sentences
Feature-based Sentiment Analysis
oj
fjk
ooijkl
hi
tl
Cos’è un’opinione?
oj è l’oggetto sul quale viene espressa l’opinione
fjk rappresenta le caratteristiche (features) dell’oggetto
ooijkl è l’orientamento (positivo o negativo) dell’opinione
hi è opinion holder, colui che esprime l’opinione
tl rappresenta il tempo in cui l’opinione viene espressa
oj
fjk
ooijkl
hi
tl
Cos’è un’opinione?
oj è l’oggetto sul quale viene espressa l’opinione
fjk rappresenta le caratteristiche (features) dell’oggetto
ooijkl è l’orientamento (positivo o negativo) dell’opinione
hi è opinion holder, colui che esprime l’opinione
tl rappresenta il tempo in cui l’opinione viene espressa
Lessico dei Sentimenti
Sentiment Polarity Classification
Lessico dei Sentimenti
Categoria
Grammaticale Entrate Esempio
Aggettivi 5.383 allegro
Avverbi 3.626 tristemente
Avverbi composti 793 a gonfie vele
Frasi idiomatiche 552 essere in difetto
Nomi 3.122 eccellenza
Verbi psicologici 635 N0 amare N1
Altri verbi LG 879 N0 prendersla Prep N1
Parolacce 189 leccaculo
Totale 15.179 -
Sentiment Polarity Classification
Lessico dei Sentimenti
Aggettivo Tag Punteggio
Eva
lua
tio
n s
cale
meraviglioso +POS+FORTE +3
divertente +POS +2
accettabile +POS+DEB +1
insapore +NEG+DEB -1
cafone +NEG -2
disastroso +NEG+FORTE -3
Aggettivo Tag Punteggio S
tre
ng
ht
sca
le
straripante +FORTE +1
episodico +DEB -1
Classificazione Sentiment Polarity Classification
Sentiment Polarity Classification
Task
Cassificazione di opinionated documents a seconda che esprimano opinioni positive, negative o neutrali rispetto ad un oggetto.
Il documento nella sua interezza è considerato come unità informativa di base, sulla quale viene calcolato l’Orientamento Semantico (OS).
Metodo
Approccio basato sul lessico e sull’idea che l’OS di un testo sia strettamente dipendente da quello delle singole parole e delle sequenze di parole occorrenti in esso.
La Prior Polarity rappresenta l’OS delle parole fuori dal contesto.
Classificazione
Sentence-level analisys
Criticità: contesto locale (sintagma, frase nucleare)
Document-level analisys
Criticità: contesto testuale, discourse markers, interazione tra diversi orientamenti semantici
Domain-specic analysis
Criticità: orientamento del lessico che varia a seconda del dominio
Sentiment Polarity
Classification
Research Challanges
Classificazione
Carini gli attori, la fotografia, i dialoghi, ma il film nel complesso è noiosissimo.
+1 +1 +1 -3
È stato orribile, spaventoso, sono ancora scioccato!
Film horror
+3
Hotel -3
carino davvero carino non proprio carino più carino del tuo
+1 +2 -1
+1?
Contesto Contextual Valence Shifters
Sentiment Polarity Classification
Contesto
Capovolgimento +2 → -2 La Citroen non[Negative_Operator] produce auto valide[A+POS]
Slittamento +3 → -1 Grafica non[Negative_Operator] proprio spettacolare[A+POS+FORTE]
Negazione e Intensificazione +2 → +3
+3 → -1
Personale alla reception non[Negative_Operator] sempre[AVV+FORTE] gentile[A+POS].
Sentiment Polarity Classification
Contesto
Frasi idiomatiche Comparative N0 Agg come C1
+2 → +3 Mary è bella[A+POS] come il sole.
Comparativo di Minoranza e Maggioranza
0 → +2 L'S3 è complessivamente superiore all'Iphone5
Comparativo Assoluto
+2 → +3 Il suo motore era anche il più brioso[A+POS]
0 → -3 Un film peggiore di qualsiasi telefilm.
Contextual Valence Shifters Esempio CVS
Indicatori Polarizzati
Parole Negative Parole
Neutrali Parole Positive
osceno cafone distratto biondo carino buono prodigioso
PRIOR POLARITY -3 -2 -1 0 +1 +2 +3
INTENSIFICAZIONE parecchio
DOWNTONING leggermente
NEGAZIONE non
Il protagonista del film
osceno cafone distratto colorato carino buono prodigioso
-3 -2 -1 0 +1 +2 +3
Contextual Valence Shifters Esempio CVS
Indicatori Polarizzati
Parole Negative Parole
Neutrali Parole Positive
osceno cafone distratto biondo carino buono prodigioso
PRIOR POLARITY -3 -2 -1 0 +1 +2 +3
INTENSIFICAZIONE parecchio
DOWNTONING leggermente
NEGAZIONE non
Il protagonista del film è parecchio è leggermente non è
osceno cafone distratto colorato carino buono prodigioso
Intensification vs
Downtoning
Task
Localizzazione degli elementi lessicali e sintattici in grado di alterare l’intensità delle espressioni orientate semanticamente.
In letteratura tale funzione viene attribuita ad alcuni aggettivi e avverbi.
Metodo
Approccio differenziato su diversi livelli:
Livello morfologico: Suffissi per il superlativo assoluto
(-issimo, -errimo); Prefissi per l’intensificazione (-
super, stra-) e il downtoning (-micro, -semi);
Livello sintattico: Ripetizione di parole
positive/negative (bello bello bello; orribile, tremendo);
Co-occorrenza di parole intensive e parole polarizzate (molto carino)
Contesto
Intensification vs
Downtoning
Research Challanges
Modificatori aggettivali e avverbiali: AVVmod-A: Parzialmente[-] deludente[-2] anche il reparto degli attori [-1]
AVVmod-AVV: Ne sono rimasta molto[+] favorevolmente[+2] colpita [+3]
Amod-N: Ciò che ne deriva è una terribile[-2] confusione[-2] narrativa [-3]
AVVmod-V: Alla guida ci si diverte[+2] molto[+] [+3]
Verbi intensificatori/downtoners: Maria strilla[+] il suo risentimento[-2] [-3]
Maria accenna[-] al suo risentimento[-2] [-1]
Il cuore di Maria si gonfia[+] di risentimento[-2] [-3]
Il risentimento[-2] di Maria si placa[-] [-1]
Nomi intensificatori/downtoners: La sfrenatezza[+] dell’odio[-3] di Maria [-3]
Luca difendeva[+2] Maria con fervore[+] [+3]
Contesto
Intensification vs
Downtoning
Research Challanges
Excess Quantifiers
Contesto
Comparative Sentence Mining
Task
Individuazione automatica di:
delle entità messe in gioco nelle frasi comparative
delle opinioni espresse in merito a tali entità
delle preferenze espresse, riguardanti:
una delle entità
proprietà di una delle entità
Metodo
Classificazione della frase comparativa in:
Comparativo assoluto,
Comparativo relativo
Comparativo di maggioranza
Comparativo di minoranza
Comparativo di uguaglianza
Classificazione dell’opinione in: Opinione Negativa
Opinione Positiva
Classificazione dell’intensità dell’opinione in
Intensità Forte
Intensità Debole
Contesto
Regole
Contesto
Comparativo di maggioranza + parole positive + (intensificatori)
Comparativo di minoranza + parole positive + (intensificatori)
Comparative Sentence
Mining
Research Challanges
Regole
Contesto
Comparativo di minoranza + parole negative + (intensificatori)
Comparativo di maggioranza + parole negative + (intensificatori)
Comparative Sentence
Mining
Research Challanges
Regole
Contesto
Comparative Sentence
Mining
Research Challanges
Comparativo di minoranza + parole positive + (intensificatori) + negazione
Comparativo di minoranza + parole positive + (intensificatori) + negazione
Comparative Sentence
Mining
Regole
Contesto
Research Challanges
Comparativo di minoranza + parole negative + (intensificatori) + negazione
Comparativo di maggioranza + parole positive + (intensificatori) + negazione
Negation Modeling
Task
Individuazione automatica delle espressioni di negazione e calcolo dell’orientamento semantico risultante.
Il Negation Scope rappresenta la porzione di significato modificato dalla negazione.
Metodo
Approccio differenziato su diversi livelli:
Livello morfologico: Prefissi di negazione (non-
, a-, de-, contro/a-, ecc… );
Livello lessicale e sintattico Co-occorrenza di operatori
di negazione e parole polarizzate
Contesto
Negation Modeling
Indicatori
Prefissi di negazione non-, a-, de-, contro/a-, ecc… ;
Avverbi di negazione no, non, mica, affatto, ecc… In nessun modo, per nulla al mondo, neanche per sogno, ecc…
Quantificatori A: Nessun servizio nelle stanze [-2] AVV: Costa quasi niente [+1] PRON: Non gliene frega niente a nessuno [-3]
Lexical Negation Nomi, aggettivi e verbi legati all’assenza di qualità o proprietà
(mancanza, assenza, carente, privo, ecc…)
Contesto
Co-occorrenza tra: • Negation Operator • Sentiment Word
Co-occorrenza tra: • 2 Negation Operators • Sentiment Word
Regole
Contesto
Negation Modeling
Research Challanges
Co-occorrenza tra: • Strong Negation Operator • Sentiment Word
Co-occorrenza tra: • Weak Negation Operator • Sentiment Word
Negation Modeling
Research Challanges
Regole
Contesto
Sentiment Analysis of Interrogative Sentences
Metodo
Classificazione delle frasi interrogative
Interrogative dirette Interrogative indirette Interrogative totali Interrogative parziali
Interazione tra altri contextual valence shifters e frase interrogativa
Individuazione di diversi livelli di sicurezza del giudizio
Task
Analisi della co-occorrenza tra indicatori di frase interrogativa e parole polarizzate
In che modo la presenza di una frase interrogaziva altera l’Orientamento Semantico di una parola o di una frase?
Contesto
Interrogative Sentences
Research Challanges
Sicurezza del giudizio
É carino? FRASI DICHIARATIVE Punteggio
Alta Molto alta Alta Molto alta Media
Si Si No No Forse si
X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y
+1 +2 -2 -1 +1 (X)
Sicurezza del giudizio
É carino? FRASI INTERROGATIVE Punteggio
Nulla Bassa Media Alta bassa
Forse Forse Si Si Forse
X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?
0 +1? +1 +2 0
Contesto
Interrogative Sentences
Research Challanges
Sicurezza del giudizio
É carino? FRASI DICHIARATIVE Punteggio
Alta Molto alta Alta Molto alta Media
Si Si No No Forse si
X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y
+1 +2 -2 -1 +1 (X)
Sicurezza del giudizio
É carino? FRASI INTERROGATIVE Punteggio
Nulla Bassa Media Alta bassa
Forse Forse Si Si Forse
X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?
0 +1? +1 +2 0
Contesto
Abbassamento generale della sicurezza del giudizio
Interrogative Sentences
Research Challanges
Sicurezza del giudizio
É carino? FRASI DICHIARATIVE Punteggio
Alta Molto alta Alta Molto alta Media
Si Si No No Forse si
X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y
+1 +2 -2 -1 +1 (X)
Sicurezza del giudizio
É carino? FRASI INTERROGATIVE Punteggio
Nulla Bassa Media Alta bassa
Forse Forse Si Si Forse
X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?
0 +1? +1 +2 0
Contesto
Abbassamento (o azzeramento) dell’intensità della polarità
Interrogative Sentences
Research Challanges
Sicurezza del giudizio
É carino? FRASI DICHIARATIVE Punteggio
Alta Molto alta Alta Molto alta Media
Si Si No No Forse si
X è carino X è davvero carino X non è carino X non è proprio carino X è più carino di Y
+1 +2 -2 -1 +1 (X)
Sicurezza del giudizio
É carino? FRASI INTERROGATIVE Punteggio
Nulla Bassa Media Alta bassa
Forse Forse Si Si Forse
X è carino? X è davvero carino? X non è carino? X non è proprio carino? X è più carino del tuo?
0 +1? +1 +2 0
Contesto
Inversione della polarità delle interrogative contenenti operatori di negazione
Features Feature-based Sentiment Analysis
Feature-based Sentiment Analysis
Task
Localizzazione dei nomi, semplici o composti, che indicano le caratteristiche dei prodotti oggetto di opinione.
Nella quasi totalità dei casi questi nomi, essendo oggettivi e non soggettivi, non appartengono al nostro lessico dei sentimenti.
Metodo
Approccio basato sull’identificazione e sulla classificazione di nomi, semplici o composti, che nei testi appaiono frequentemente attorno a giudizi e valutazioni.
Features
Sperimentazione
Sentiment Polarity
Classification
Risultati
Document-level (%) Cars Smartphones Movies Books Hotels Videogames Average
PRECISION 71,0 72,0 63,0 74,0 91,0 72,0 74,0
RECALL 100 98,6 100 96,1 98,9 91,2 97,5
F-measure** 83,0 83,2 77,3 83,6 94,8 80,5 84,1
Sentence-level (%) Cars Smartphones Movies Books Hotels Videogames Average
PRECISION* 79,2 74,5 56,9 73,7 81,3 78,6 74,0
RECALL 72,7 79,6 64,8 65,7 72,1 58,8 69,0
F-measure** 75,8 77,0 60,6 69,5 76,4 67,3 71,4
Sperimentazione
Sentiment Polarity
Classification
Visualizzazioni
Andamento della Polarità di Tweet rispetto a segmenti temporali
Sperimentazione
Feature-based Sentiment
Analysis
Quali sono gli indicatori migliori
per la feature extraction?
I nodi più «pesanti» corrispondono quasi sempre agli
aggettivi
Rete di similarità semantica in un corpus orientato semanticamente
Sperimentazione
Feature-based Sentiment
Analysis
Visualizzazioni
Sperimentazione
Feature-based Sentiment Analysis su Twitter
Feature-based Sentiment
Analysis
Visualizzazioni
Sperimentazione
Feature-based Sentiment Analysis su Twitter
Feature-based Sentiment
Analysis
Visualizzazioni
Spider Graph per il confronto fra review basato su features
Grazie per l’attenzione