cvpr 2015 論文紹介(ntt研究所内勉強会用資料)
TRANSCRIPT
Copyright©2015 NTT corp. All Rights Reserved.
ベイズ勉強会
CVPR 読み会(画像 × 言語を中心に)
基メ部 基識G 牛久祥孝
2Copyright©2015 NTT corp. All Rights Reserved.
CVPR2015 (6 月 7 日~ 12 日 )
カメラレディ論文公開: 5/24 ~• 個人 web ページで先んじて公開している• arXiv にも投稿する文化が広まりつつある
画像と自然言語、そして深層学習を中心にいくつかの論文を紹介
3Copyright©2015 NTT corp. All Rights Reserved.
次々見つかる Deep Learning の応用先
• 画像認識 [Krizhevsky+, NIPS 2012]– 1000 クラス 130 万枚
• 機械翻訳 [Sutskever+, NIPS 2014]– 英仏 1200 万対訳対
4Copyright©2015 NTT corp. All Rights Reserved.
• Google のやつのニュース
5Copyright©2015 NTT corp. All Rights Reserved.
日本でも反響
• Gigazine 、「 Google が画像の説明文章を自動生成する技術を開発」、 2014 年 11月 19 日
• TechCrunch Japan 、「複雑な画像のキャプション(説明文)を自動生成するシステムを Google が研究開発中」、 2014 年 11月 19 日
• 日経 BP 、「 MS や Google が研究、画像説明文の自動生成機能」、 2014 年 11 月21 日
6Copyright©2015 NTT corp. All Rights Reserved.
今年の CVPR のオーラルセッション
CNN 特化セッション(去年もあった)
画像と言語セッション( New! )
7Copyright©2015 NTT corp. All Rights Reserved.
今年の CVPR のオーラルセッション
CNN 特化セッション(去年もあった)
画像と言語セッション( New! )
Neural Network による説明文生成が同時に 3 本オーラル発表ポスターでも MSR 等が説明文生成
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文1. Show and Tell: A Neural Image Caption
Generator [Vinyals+, CVPR 2015]2. Long-term Recurrent Convolutional Networks
for Visual Recognition and Description [Donahue+, CVPR 2015]
3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]
9Copyright©2015 NTT corp. All Rights Reserved.
これまでの説明文生成
• これまでは、やや前時代的な組合せ– 他の画像の説明文をそのまま流用
[Farhadi+, ECCV 2010][Hodosh+, 2013]– 物体や動作、シーンを推定→テンプレートに
そって文生成[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]
10Copyright©2015 NTT corp. All Rights Reserved.
Google NIC [Vinyals+, CVPR 2015]
Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]
• LSTM [Sutskever+, NIPS 2014]
を直列させて文生成する。
画像への文(単語列)は意味する単語
を意味する単語
11Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
12Copyright©2015 NTT corp. All Rights Reserved.
LRCN [Donahue+, CVPR 2015]
• CNN+stacked LSTM– 動作認識(下図左)– 画像説明文生成(下図中央)– 動画説明文生成(下図右)
13Copyright©2015 NTT corp. All Rights Reserved.
生成された説明文の例
14Copyright©2015 NTT corp. All Rights Reserved.
Visual-Semantic Alignments[Karpathy+Fei-Fei, CVPR 2015]
• 画像説明文生成は CNN+Bidirectional RNN– 他の手法とほぼ同一– 並列で Visual Semantic Alignment を提案
15Copyright©2015 NTT corp. All Rights Reserved.
画像領域と文の一部とのアライメント
Image-sentence score (右図)画像領域・説明文単語、
から計算
対応する画像・説明文ペアの score> 非対応ペアの score になるよう学習
16Copyright©2015 NTT corp. All Rights Reserved.
アライメントの例
17Copyright©2015 NTT corp. All Rights Reserved.
お互いにとても似ている
CNN(画像特徴量) RNN(文生成)Google NIC GoogLeNet ( 22 層
CNN )Fine Tuning あり
LSTM
LRCN VGG Net ( 19 層 CNN )Fine Tuning あり
Stacked LSTMs
Visual-Semantic Alignment AlexNet ( 7 層 CNN )Fine Tuning なし
BRNN → LSTM
表: Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較
18Copyright©2015 NTT corp. All Rights Reserved.
[Ushiku+, ACM MM 2012] と比べると入力画像
[Ushiku+, ACM MM 2012] では:Fisher Vector + 線形分類オンライン学習
CVPR 2015 の各論文では:CNN (オンライン学習なのは一緒)
CVPR 2015 の各論文では:RNN とビームサーチで文をつなぐ
[Ushiku+, ACM MM 2012] では:キーフレーズと文法モデル、ビームサーチで文をつなぐ
文の一部で重要そうなものを複数推定 文法モデルを利用して繋ぎ、説明文に
尽く引用されていないが、全体の流れは非常に似ている
“ キーフレーズ”
Copyright©2015 NTT corp. All Rights Reserved.
紹介論文4. Deep Neural Networks are Easilly Fooled:
High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015]
5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]
20Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
21Copyright©2015 NTT corp. All Rights Reserved.
何の画像でしょうか?
22Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成 [Nguyen+, CVPR 2015]
23Copyright©2015 NTT corp. All Rights Reserved.
だまし画像生成 [Nguyen+, CVPR 2015]
• 進化アルゴリズムを利用– 特定のクラスへの confidence が 99.99% にな
るように1. ピクセルごとにランダム初期値→進化2. 画像を生成する Neural Net を進化 [Stanley,
2007]
24Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
• [Nguyen+, CVPR 2015] は出力のみを見て画像を生成 – CNN の途中のレイヤーなどは無視– 各層での学習結果を直接可視化出来るか?
• 先行研究 [Zeiler+Fergus, ECCV 2014] では・・・
– Max pooling したユニットの情報が必要– ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]
25Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
画像の正則化今の画像の特徴量
目的の特徴量画素(タテ xヨコ x チャネル数)
損失関数 =
正則化項 =
26Copyright©2015 NTT corp. All Rights Reserved.
特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]
• 勾配降下法によって最適化
を入力したときの
の各レイヤを可視化すると・・・