if sentences could see: investigating visual information ... · if sentences could see:...

39
If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and Simone Paolo Ponzetto (2017) Robin Ruland, Antonia von Hassell Ruprecht-Karls-Universit¨ at Heidelberg Institut f¨ ur Computerlinguistik Embeddings Katja Markert, Ines Rehbein SoSe 2019 9. Juli 2019

Upload: others

Post on 30-Aug-2019

8 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

If Sentences Could See: Investigating VisualInformation for Semantic Textual Similarity

Goran Glavas, Ivan Vulic and Simone Paolo Ponzetto (2017)

Robin Ruland, Antonia von Hassell

Ruprecht-Karls-Universitat HeidelbergInstitut fur Computerlinguistik

EmbeddingsKatja Markert, Ines Rehbein

SoSe 2019

9. Juli 2019

Page 2: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 3: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 4: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Einleitung

betrachtete Task: unsupervised Semantic Textual Similarity(STS)

misst Grad an semantischer Aquivalenz zwischen kurzenTexten (i.d.R. Satzpaaren)

bisherige Ansatze ausschließlich auf linguistischen Modellenbasierend

Page 5: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Einleitung

Ansatz des Papers: Verwendung von unsupervisedmulti-modalen Modellen (mit linguistischen und visuellenInformationen) und mehrsprachigen Modellen

Implementierung der Modelle mit unterschiedlichenGranularitatsebenen:

Early fusion (Wortebene)Middle fusion (Satzebene)Late fusion (Fusion der Similarity Scores)

Page 6: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 7: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Multi-modale Reprasentationen

sprachunabhangig

Mangel an Bildern fur ganze Satze

⇒ linguistische und visuelle Reprasentationen fur Unigramme(Worter)Satzreprasentationen durch Aggregation vonUnigrammreprasentationen

Page 8: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Linguistische Reprasentationen

sprachunabhangig (keine sprachspezifischen tools) &Reprasentationen fur Unigramme

Embeddings

englisch: GloVe (Pennington et al., 2014)spanisch, italienisch, kroatisch: Skip-Gram (Mikolov et al.,2013)

Page 9: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Linguistische Reprasentationen

fur mehrsprachige STS:

muss auf den gleichen embedding space projiziert werdenmit translation matrix model (Mikolov et al. 2013)

min{S i ,t i}n

i=1

n∑i=1

||si ∗M − ti ||2

mithilfe der gelernten Matrix M konnen dann problemlosEmbeddings aus einer Sprache in die andere ubersetzt werden,wobei der Informationsverlust fur die trainerten Paare minimalist

Page 10: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Visuelle Reprasentationen

n = 20 Bilder pro Wort via Bing

Page 11: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Visuelle Reprasentationen

deep CNN pre-trained auf dem ImageNet classification task(Russakovsky et al., 2015)

benutzt pre-softmax Schicht als Embedding

⇒ visuelle Reprasentation ist Menge von Embeddings

Page 12: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Multi-modale Reprasentationen

Early fusion:eef (w) = ev (w)||et(w)

ev (w) ist Durchschnitt oder elementweises Maximum dervisuellen Embeddings fur ein Wort

Middle fusion:

emf (S) = (1

|S |∑w∈S

ev (w))||( 1

|S |∑w∈S

et(w))

Page 13: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Multi-modale Reprasentationen

Late fusion:

Ahnlichkeit wird getrennt berechnet und gewichtet

a ∗ simv + b ∗ simt

default ist a = b = 0.5

Page 14: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Multi-modale Reprasentationen

selektive Aufnahme

semantische Reprasentation verschlechtert sich bei abstraktenKonzeptenIdee: Messe Qualitat der Bilder und selektiereimage dispersion score (Kiela et al., 2014)

id(W ) =1(|W |2

) ∑wi ,wj∈W ,i 6=j

1− cos(wi ,wj)

hoher score bedeutet die Bilder sind verschiedenartig(abstrakte und mehrdeutige Worter)

Page 15: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Multi-modale Reprasentationen

selektive Aufnahme

Middle fusion: maxid(W1,W2) > τLate fusion:(1−maxid(W1,W2)) ∗ simv + maxid(W1,W2) ∗ simt

Page 16: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 17: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Unsupervised STS Maße

optimal aligment similarity

zuordnen von Wortpaaren aus den 2 Satzen:

simOA(S1,S2) = max{w i

S1,wiS2}

Ni=1

N∑i=1

sim(w iS1,w

iS2)

mit Hungarian algorithm (Kuhn, 1955) in polynomialer Zeitnormalisiert uber die Lange beider Satze:

1

2∗ (

sim(S1,S2)

|S1|+

sim(S1,S2)

|S2|)

Page 18: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Unsupervised STS Maße

aggregation similarity

berechne Durchschnitt aller Embeddings(Worter) des Satzes:

e(S) =1

|S |∑w∈S

e(w)

berechne Kosinus-Ahnlichkeit:

simagg = cos(e(S1), e(S2))

Bemerkung: gleich fur Early und Middle fusion

Page 19: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 20: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze

Verwendung von zwei Datensatzen

1. Datensatz: MSRVID

Auswertungsteil des Microsoft Research Video CaptionDatasets der SemEval 2012 STS challenge (Agirre et al.(2012))enthalt 750 Satzpaare mit kurzen englischen Satzen und eherkonkreten Konzepten

Page 21: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze: MSRVID

Page 22: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze: MSRVID

Page 23: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze

Verwendung von zwei Datensatzen

2. Datensatz: NEWS-16

mehrsprachiger englisch-spanischer STS-Datensatz aus demSemEval 2016 STS shared task (Agirre et al. (2016))enthalt 301 Paare von langen Satzen aus Nachrichten

Page 24: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze: NEWS-16

Page 25: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze: Die Sprachvarianten

Erstellung unterschiedlicher SprachvariantenMSRVID

(EN - EN, EN - ES, EN - IT, EN - HR)

NEWS-16

(EN - ES, EN - IT, EN - HR)

Motivation fur Sprachwahl:

Nutzen vorhandener RessourcenVerwendung einer Sprache mit wenigen Ressourcen, um Ansatzauf Sprachunabhangigkeit zu uberprufen

Page 26: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Datensatze

ASL: average sentence length in number of words

AID: average image dispersion of words

Page 27: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Linguistische Embeddings und Translationsmatrizen

Verwendung trainierter verfugbarer Wortvektoren fur

Englisch (200-dimensionale GloVe Vektoren trainiert auf 6BTokens Korpus)Spanisch (300-dimensionale Skip-Gram Vektoren trainiert auf1.5B Tokens Korpus)Italienisch (300-dimensionale Skip-Gram Vektoren trainiert auf2B Tokens Korpus)

Kroatisch (Trainieren von 200-dimensionalen Skip-GramEmbedding Vektoren auf 1.2B Token Version des hrWaCKorpus (Ljubesic und Erjavec, 2011)

Page 28: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

STS Performance

Page 29: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Vergleich mit State-of-the-art

Vergleich fur MSRVID (EN-EN) und EN-ES NEWS-16(EN-ES) mit besten Systemen der entsprechenden SemEvalTasks

Saric et al. (2012): Pearson Correlation von 88% auf MSRVID;7% großer als LF-SENT-ID ModellBrychcın und Svoboda (2016): Pearson Correlation von 91%auf EN-ES NEWS -16, 8% großer als LF-SEN-ID

Page 30: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 31: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Fazit

Performanz rein visueller STS Modelle hoher als reinlinguistischer Modelle bei Datensatzen mit vielen konkretenKonzepten

multi-modale Modelle erzielen bessere Resultate alsuni-modale Modelle

Performanz rein visueller und multi-modaler Modelle starkabhangig vom Grad der Streuung der Bilder im Datensatz

Page 32: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 33: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Kritik

Normalisierung der Optimal Alignment Similarity

Warum keine selective inclusion fur early fusion?

Warum bei late fusion nicht auch ein threshold?

Qulitatsunterschied Aggregation similarity und Optimalaligment similarity

Qulitat der visuellen Embenddings

selektive Aufnahme: Kosinus-Ahnlichkeit kann auch negativsein

⇒ Problem bei der Formel fur selektive Aufnahme

Page 34: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Ubersicht

1 Einleitung

2 Multi-modale Reprasentationen

3 Unsupervised STS Maße

4 Evaluation

5 Fazit

6 Kritik

7 Fragen

Page 35: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Verstandnisfragen

Abschnitt Einleitung:Was sind die Hauptunterschiede zwischen Early Fusion,Middle Fusion und Late Fusion?

Abschnitt Late Fusion:Wie wird sichergestellt, dass die visuellen Signale eine guteQualitat haben?

Abschnitt Evaluation:Warum ist die Performanz fur aggregation-based modelsahnlich zu entsprechenden optimal-alignment-based modelsauf dem Datensatz MSRVID, aber deutlich geringer auf demDatensatz NEWS-16?

Page 36: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Diskussionsfragen

Haltet Ihr den Dispersion Score fur eine gute Wahl, um dieQualitat der Bilder zu beurteilen? Fallen Euch Szenarien ein,in denen informationsreiche Bilder durch den Dispersion Scoreausgeschlossen werden konnten?

Dispersion Score schließt auch viele Bilder aus, die nichtabstrakt oder polysem sind, z.B. Aktivitaten

Page 37: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Danke fur Eure Aufmerksamkeit! Gibt es Fragen?

Page 38: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Literatur

Agirre, E., C. Banea, D. Cer, M. Diab, A. Gonzalez-Agirre, R.Mihalcea, G. Rigau, and J. Wiebe (2016). Semeval-2016 Task1: Semantic textual similarity, mono- lingual and cross-lingualevaluation. In SemEval, pp. 497–511.

Agirre, E., M. Diab, D. Cer, and A. Gonzalez-Agirre (2012).Semeval-2012 Task 6: A pilot on semantic textual similarity.In SemEval, pp. 385–393.

Glavas, Goran, Ivan Vulic, and Simone Paolo Ponzetto. Ifsentences could see: Investigating visual information forsemantic textual similarity.IWCS 2017-12th InternationalConference on Computational Semantics-Long papers. 2017.

Kiela, D., F. Hill, A. Korhonen, and S. Clark (2014).Improving multi-modal representations using image dispersion:Why less is sometimes mor. In ACL, pp. 835–841.

Page 39: If Sentences Could See: Investigating Visual Information ... · If Sentences Could See: Investigating Visual Information for Semantic Textual Similarity Goran Glavas, Ivan Vulic and

Einleitung Multi-modale Reprasentationen Unsupervised STS Maße Evaluation Fazit Kritik Fragen

Literatur

Kuhn, H. W. (1955). The hungarian method for theassignment problem. Naval Research Logistics Quarterly2(1-2), 83–97.Ljubesic, N. and T. Erjavec (2011). hrWaC and siWaC:Compiling Web corpora for Croatian and Slovene. In TSD, pp.395–402.Mikolov, T., Q. V. Le, and I. Sutskever (2013). Exploitingsimilarities among languages for machine translation. CoRRabs/1309.4168.Pennington, J., R. Socher, and C. D. Manning (2014). Glove:Global vectors for word representation. In EMNLP, pp.1532–1543.Russakovsky, O., J. Deng, H. Su, J. Krause, S. Satheesh, S.Ma, Z. Huang, A. Karpa- thy, A. Khosla, M. Bernstein, et al.(2015). ImageNet large scale visual recogni- tion challenge.International Journal of Computer Vision 115(3), 211–252.