[輪読会]multilingual image description with neural sequence models

20
輪読 : MULTILINGUAL IMAGE DESCRIPTION WITH NEURAL SEQUENCE MODELS h6p://arxiv.org/abs/1510.04709

Upload: deeplearningjp2016

Post on 08-Jan-2017

82 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: [輪読会]Multilingual Image Description with Neural Sequence Models

輪読:MULTILINGUALIMAGEDESCRIPTIONWITH

NEURALSEQUENCEMODELS

h6p://arxiv.org/abs/1510.04709

Page 2: [輪読会]Multilingual Image Description with Neural Sequence Models

書誌情報

•  Title:MULTILINGUALIMAGEDESCRIPTIONWITHNEURALSEQUENCEMODELS

•  Author:DesmondEllio6,StellaFrank,EvaHasler•  AffiliaTon:UniversityofAmsterdam,Cambridge•  URL:h6p://arxiv.org/abs/1510.04709

•  ICLR’16不採録

•  概要:MulTlingualImageDescripTon–  ある画像に対して言語Aのキャプションを生成するとき,言語Bの情報も使う

Page 3: [輪読会]Multilingual Image Description with Neural Sequence Models

MoTvaTon

•  関連研究:キャプション生成–  入力画像に対して,その画像の説明文を生成する–  画像とその画像に対するキャプションのデータを利用して学習

•  この論文の主題–  ある画像に対して,言語Bでキャプションを生成するとき,言語Aでのキャプションを生か

すことができるか?–  MulTlingualImageDescripTon

Page 4: [輪読会]Multilingual Image Description with Neural Sequence Models

Approach

•  MulTlingualmulTmodallanguagemodel

•  ターゲットのキャプションを生成するのに,以下の2つの特徴量を使う–  monolingualsource-languageimagedescripTonmodel–  visualfeaturesfromanobjectrecogniTonmodel

Page 5: [輪読会]Multilingual Image Description with Neural Sequence Models

モデル:RecurrentLanguageModel(LM)

•  RNNである単語を入力したとき,次の単語を予測するように訓練–  入力 w_i(あるステップiにおいて)

Page 6: [輪読会]Multilingual Image Description with Neural Sequence Models

モデル:MulTmodalLanguageModel(MLM)

•  画像の情報をLMに組み込む–  画像特徴量で条件付ければ良い–  一つの方法:h_0の計算をする際に画像特徴量を入れる

•  各タイムステップで画像特徴量を入れると,overfidngするという研究報告が複数ある

Page 7: [輪読会]Multilingual Image Description with Neural Sequence Models

モデル:TranslaTonModel(Source-LM→Target-LM)

•  画像の情報をの代わりに,sourcelanguagemodelで条件付

Page 8: [輪読会]Multilingual Image Description with Neural Sequence Models

モデル:MulTlingualMulTmodalModel(Source-MLM→Target-MLM)

•  画像とsourcelanguagemodel両方使う

Page 9: [輪読会]Multilingual Image Description with Neural Sequence Models

NMT(NeuralMachineTranslaTon)モデルとの違い

•  NMT–  (翻訳元言語,翻訳先言語)のペアで学習

•  このモデル–  データセットの扱いがより柔軟(言語のペアを用意しなくても良い)–  source-languagemodelとtarget-languagemodelは別々のものでも良い

•  e.g.sequense-to-sequense,encoder-decode,…

Page 10: [輪読会]Multilingual Image Description with Neural Sequence Models

実験 : 使用したデータ

•  データ:IAPR-TC12–  画像数:20000–  英語のキャプションと,対応するドイツ語訳

–  17,665枚を訓練に利用–  英語:272,172トークン(語彙数1763)(出現頻度3以下は除去)–  ドイツ語:223,147トークン(語彙数2374)

–  画像特徴量はVGG-16を利用して抽出

Page 11: [輪読会]Multilingual Image Description with Neural Sequence Models

実験:結果

•  Baselin MLM:MonolingualLanguageModel(MulTmodalLanguageModelwithoutsourcelanguagefeatures)LM→LM:noimageMLMよりもLM→LMの方が良い

ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的

Page 12: [輪読会]Multilingual Image Description with Neural Sequence Models
Page 13: [輪読会]Multilingual Image Description with Neural Sequence Models

t-SNEによる隠れ層初期値の可視化

(左)MLM(右)DeMLM→EnMLM

ドイツ語のキャプション生成結果(全体的に英語より難しい)sourceに画像特徴量を入れた方(sourceでMLMを使う)が効果的

Page 14: [輪読会]Multilingual Image Description with Neural Sequence Models

sourcelanguagemodelを加えたことによるスコアの変動

元々スコアが高かったものは,sourcelanguagemodelを入れるとスコアが下がる傾向にある

Page 15: [輪読会]Multilingual Image Description with Neural Sequence Models

まとめ

•  画像キャプショニングをする際に,別の言語のキャプションを利用する方法の提案

•  マルチモーダルな翻訳の一つ

•  単純に画像と言語を組み合わせるだけだと,なかなかスコアが上がらない

•  (ドイツ語のキャプション生成の実施)–  英語より難しい

Page 16: [輪読会]Multilingual Image Description with Neural Sequence Models
Page 17: [輪読会]Multilingual Image Description with Neural Sequence Models

ACL’16でのMulTmodalMachineTranslaTon

•  h6p://www.statmt.org/wmt16/mulTmodal-task.html•  今回の著者らがオーガナイザー•  データセット:flickr30k

–  英語のキャプションと,それに対応するドイツ語訳

•  タスク1.  MulTmodalMachineTranslaTon2.  MulilingualImageDescripTon

•  結論を言うと,あんまり良いのは無かった

Page 18: [輪読会]Multilingual Image Description with Neural Sequence Models

Result結果:タスク1(下線がベースライン;灰色は外部データの利用)

Page 19: [輪読会]Multilingual Image Description with Neural Sequence Models

結果:タスク2(下線がベースライン;灰色は外部データの利用)

Page 20: [輪読会]Multilingual Image Description with Neural Sequence Models

優勝チームの手法