cvpr 2015 論文紹介（ntt研究所内勉強会用資料）

Copyright©2015 NTT corp. All Rights Reserved.

ベイズ勉強会

CVPR 読み会（画像 × 言語を中心に）

基メ部基識Ｇ牛久祥孝

2Copyright©2015 NTT corp. All Rights Reserved.

CVPR2015 (6 月 7 日～ 12 日 )

カメラレディ論文公開： 5/24 ～• 個人 web ページで先んじて公開している• arXiv にも投稿する文化が広まりつつある

画像と自然言語、そして深層学習を中心にいくつかの論文を紹介


次々見つかる Deep Learning の応用先

• 画像認識 [Krizhevsky+, NIPS 2012]– 1000 クラス 130 万枚

• 機械翻訳 [Sutskever+, NIPS 2014]– 英仏 1200 万対訳対


• Google のやつのニュース


日本でも反響

• Gigazine 、「 Google が画像の説明文章を自動生成する技術を開発」、 2014 年 11月 19 日

• TechCrunch Japan 、「複雑な画像のキャプション（説明文）を自動生成するシステムを Google が研究開発中」、 2014 年 11月 19 日

• 日経 BP 、「 MS や Google が研究、画像説明文の自動生成機能」、 2014 年 11 月21 日


今年の CVPR のオーラルセッション

CNN 特化セッション（去年もあった）

画像と言語セッション（ New! ）


今年の CVPR のオーラルセッション

CNN 特化セッション（去年もあった）

画像と言語セッション（ New! ）

Neural Network による説明文生成が同時に 3 本オーラル発表ポスターでも MSR 等が説明文生成


紹介論文1. Show and Tell: A Neural Image Caption

Generator [Vinyals+, CVPR 2015]2. Long-term Recurrent Convolutional Networks

for Visual Recognition and Description [Donahue+, CVPR 2015]

3. Deep Visual-Semantic Alignments for Generating Image Descriptions [Karpathy+Fei-Fei, CVPR 2015]


これまでの説明文生成

• これまでは、やや前時代的な組合せ– 他の画像の説明文をそのまま流用

[Farhadi+, ECCV 2010][Hodosh+, 2013]– 物体や動作、シーンを推定→テンプレートに

そって文生成[Kulkarni+, CVPR 2011][Gupta+, AAAI 2012]


Google NIC [Vinyals+, CVPR 2015]

Google で開発された• GoogLeNet [Szegedy+, CVPR 2015]

• LSTM [Sutskever+, NIPS 2014]

を直列させて文生成する。

画像への文（単語列）は意味する単語

を意味する単語


生成された説明文の例


LRCN [Donahue+, CVPR 2015]

• CNN+stacked LSTM– 動作認識（下図左）– 画像説明文生成（下図中央）– 動画説明文生成（下図右）


生成された説明文の例


Visual-Semantic Alignments[Karpathy+Fei-Fei, CVPR 2015]

• 画像説明文生成は CNN+Bidirectional RNN– 他の手法とほぼ同一– 並列で Visual Semantic　 Alignment を提案


画像領域と文の一部とのアライメント

Image-sentence score （右図）画像領域・説明文単語、

から計算

対応する画像・説明文ペアの score> 非対応ペアの score になるよう学習


アライメントの例


お互いにとても似ている

CNN（画像特徴量） RNN（文生成）Google NIC GoogLeNet （ 22 層

CNN ）Fine Tuning あり

LSTM

LRCN VGG Net （ 19 層 CNN ）Fine Tuning あり

Stacked LSTMs

Visual-Semantic Alignment AlexNet （ 7 層 CNN ）Fine Tuning なし

BRNN → LSTM

表： Visual-Semantic Alignments [Karpathy+Fei-Fei, CVPR 2015] 内での比較


[Ushiku+, ACM MM 2012] と比べると入力画像

[Ushiku+, ACM MM 2012] では：Fisher Vector + 線形分類オンライン学習

CVPR 2015 の各論文では：CNN （オンライン学習なのは一緒）

CVPR 2015 の各論文では：RNN とビームサーチで文をつなぐ

[Ushiku+, ACM MM 2012] では：キーフレーズと文法モデル、ビームサーチで文をつなぐ

文の一部で重要そうなものを複数推定文法モデルを利用して繋ぎ、説明文に

尽く引用されていないが、全体の流れは非常に似ている

“ キーフレーズ”


紹介論文4. Deep Neural Networks are Easilly Fooled:

High Confidence Predictions for Unrecognizable Images [Nguyen+, CVPR 2015]

5. Understanding Deep Image Representation by Inverting Them [Mahendran+Vedaldi, CVPR 2015]


何の画像でしょうか？


だまし画像生成 [Nguyen+, CVPR 2015]


だまし画像生成 [Nguyen+, CVPR 2015]

• 進化アルゴリズムを利用– 特定のクラスへの confidence が 99.99% にな

るように1. ピクセルごとにランダム初期値→進化2. 画像を生成する Neural Net を進化 [Stanley,

2007]


特徴量可視化 [Mahendran+Vedaldi, CVPR 2015]

• [Nguyen+, CVPR 2015] は出力のみを見て画像を生成　– CNN の途中のレイヤーなどは無視– 各層での学習結果を直接可視化出来るか？

• 先行研究 [Zeiler+Fergus, ECCV 2014] では･･･

– Max pooling したユニットの情報が必要– ある入力画像による勾配を可視化しているだけ [Simonyan+, ICLR 2014]



画像の正則化今の画像の特徴量

目的の特徴量画素（タテ xヨコ x チャネル数）

損失関数　　　　　　　 =

正則化項　　　　 =



• 勾配降下法によって最適化

を入力したときの

の各レイヤを可視化すると･･･

cvpr 2015 論文紹介（ntt研究所内勉強会用資料）

Technology