deeplearning 中心に見る最近の論文事情
TRANSCRIPT
Deep Learning 中心に見る最近の論文事情東京大学 工学系研究科技術経営戦略学専攻 山下雄大
Twitter :@guruttonR
※ 注意 ※内輪の発表会に用いた資料です
意見(時系列の解釈など)は主観的なものになります
論文の詳しい説明は目的にしていません
間違い・指摘等あればコメントしてください
論文の多様化についてけない
Computer Vision?Natural Language Processing?
Reinforcement Learning?
Embedding?
Recommend System?
Social Analysis?
Graph theory?
論文を読もう!!… 当たり前ですね
やるべきだった
NLP(自然言語処理)
元々やってた
CV(画像処理)
興味があった
RL(強化学習)
お互いの技術を参考にしあって混ざり合っている
本題に入るその前に…
言葉の意味がわからない発表ほど面白くないものはない
DL
分散表現CNN
LSTM
RNN
CVNLP
RLZzzZzz
本題に入るその前に…
言葉の意味がわからない発表ほど面白くないものはない
ものすごく荒く Deep Learning の基礎部分を説明します
パーセプトロンx1
x2
x3
x4
zzu入力 出力
活性化関数
パーセプトロン
入力 出力
u = Wx + bz = f(u)
多層パーセプトロン
入力 出力
u(l+1) = W(l+1)z(l) + b(l+1)
z(l+1) = f(u(l+1))
多層パーセプトロン
入力層 隠れ層 出力層
入力 出力
順伝播
誤差逆伝播法
入力 出力
逆伝播
教師データ
比較
重みの修正1重みの修正2
ディープラーニングとは多層パーセプトロン ディープラーニング
層を増やす(基本的には)
層を深くすればするほど良い結果が出る!
RNN と CNN
RNN CNN
・ 時系列データ(言語や音声)に対する NN・ 隠れ層の値を次の隠れ層計算時に利用・ 勾配爆発・消失に対応する一つの形・ より過去の情報を利用する LSTM が人気
・ 画像データに対する NN・ 入力を二次元のまま扱う・ 畳み込み層とプーリング層から成る・ 画像内のずれを処理することができる
RNN (基本) LSTM 畳み込み層 プーリング層
Abstract
論文 survey のまとめを発表しますNLP ・ CV ・ RL の分野(特に NLP )で最近の研究を追います
修士論文で扱った Deep Learning を中心に見ていきます
注意点主観的な把握が何点か入っています
発想自体は古くからある(ものが多い)ことは留意してください
お互いの分野がどのようにして混ざりあっているかざっくり示す
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
Q-Learning 理論の登場Learning from Delayed Rewards
現在用いられている Q-Learning の理論をまとめあげた論文動的計画法とマルコフ法を組み合わせた TD 法により行動価値( Q )に関する方策ナシ学習を行うオススメ書籍
強化学習・ 2000 年に出版された本でありながら、現在も強化学習 の分野では用いられているバイブル的著書・ 英語の原書はネットで無料取得可能 “ http://people.inf.elte.hu/lorincz/Files/RL_2006/SuttonBook.pdf”
(Christopher Watkins, 1989)
DL (Deep Learning) への注目ImageNet Classification with Deep Convolutional Neural Networks
LSVRC2012 で CNN を用いて圧倒的に優勝Dropout を用いるなど、現在多く用いられる DL の技術を確立
正例 負例 層構造
( Alex Krizhevsky, et al., 2012 )
本論文以降、 DL に関する論文が爆発的に増加
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識転移学習を用いた他タスクへの応用
単語の分散表現の獲得Efficient Estimation of Word representations in vector space
CBOW と Skip-gram の2つのモデル( word2vec )を提唱Skip-gram は現在最も使われている単語分散表現獲得手法の一つ
CBOW Skip-gram
( Tomas Mikolov , et al., 2013 )
ハフマン木と階層的ソフトマックスを用いた高速化などのが行われている続く論文でネガティブサンプリングなどを導入し、より良い表現の獲得手法を提案
対象語から周辺語を予測周辺語から対象語を予測
文章の分散表現の獲得Distributed Representations of Sentences and Documents
word2vec を文章に発展させた paragraph2vec を提案仕組みはほとんど word2vec と同じで、文章ベクトルに当たるものを追加
構造例
( Tomas Mikolov , 2014 )
文章を固定長ベクトルで表現する考えは、本論文以降も様々な手法で提案される実験の結果、従来の手法よりも良い精度で文章のポジネガ判定や、類似文脈を持つ文の特定ができるようになった
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識
マルチモーダルな潜在表現の獲得RNN を用いた文章生成
転移学習を用いた他タスクへの応用
RNN で機械翻訳Sequence to Sequence Learning with Neural Networks
Encoder と Decoder の2モデルから成る機械翻訳手法における提案論文の1つこのモデルは文章生成に関するタスクで多く用いられている入力文章を逆向き(” ABC” -> “CBA” )にすることで精度改善することを報告
(Ilya Sutskever, et al., 2014 )
LSTM を用いたことにより、より長い文章においても正しく翻訳できることを示した構造例 結果
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識
マルチモーダルな潜在表現の獲得RNN を用いた文章生成
転移学習を用いた他タスクへの応用動画解析
画像のキャプション生成
画像入力の説明文(キャプション)生成Show and Tell: A Neural Image Caption Generator
CNN で画像の特徴量を生成し、 LSTM で画像を説明するキャプションを生成する開始と終了を表す文字生成を覚えさせることで、出力文章の長さは制限されない
(Oriol Vinyals , et al., 2015 )
BLEU スコアでは人が書いた文章と遜色ない評価を出すが、人が評価すると大きな差が出ている構造 結果例
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
転移学習を用いた他タスクへの応用動画解析
画像のキャプション生成
Attention ( = どこを訳すのか)の導入NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE
近年の機械翻訳手法では原文を固定長ベクトルに encode し、 decoder で翻訳するが著者は長文に対して精度が低くなる原因と仮説encoder に当たるモデルにどの要素をどれくらい使うか(部分的な注目 =Attention )を学習させ、 decoder を用いて翻訳を行う
(Dzmitry Bahdanau, et al., 2015 )
Attention は前部分のみでなく、後部分からも影響を受けるとし、双方向 LSTM を使用
構造 結果特に長文生成において、従来の手法を大きく上回る成果を示す
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
Attention によるキャプション生成
転移学習を用いた他タスクへの応用動画解析
画像のキャプション生成
キャプション生成における Attention
Show, Attend and Tell: Neural Image Caption Generation with Visual Attention
Attention の概念を画像のキャプション生成にも適応させた機械がどこに着目しながら文章生成を行っているか把握することで、より精緻な文章生成を行うための知見が得られると期待される
(Kelvin Xu, et al., 2016 )
構造 結果例CNN で生成される低次元での特徴量を用い、各領域に対応する文章を確認する
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識画像生成
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
Attention によるキャプション生成
転移学習を用いた他タスクへの応用動画解析
3Dモデル解析
画像のキャプション生成
2つのモデルを用いた画像生成手法
本物のような画像を生成する生成モデルと、生成モデル作と本物を見極める識別モデルを用意し、互いで競わせることによって学習させる
各要素に対応した乱数によって画像を扱うため、恣意的に画像から要素(男女など)を差し引いたり、足したりすることができる結果例
細かく見ると不自然なものもあるが、大まかには本物と感じさせるレベルで画像の生成が可能となった
UNSUPERVISED REPRESENTATION LEARNING WITH DEEP CONVOLUTIONAL GENERATIVE ADVERSARIAL NETWORKS (Alec Radford , et al., 2016 )
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
Attention によるキャプション生成
転移学習を用いた他タスクへの応用動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
DL と Q-Learning の融合 -> 人を超えるゲーマー
CNN の特徴生成能力を活かし、 Q-Learning と組み合わせることで人を超えるレベルでのプレイを行わせることに成功した
ゲームの種類によっては弱いものもあるが、複数の atari 2600 シリーズで人に勝る結果を示しており、汎用性の高い手法であることを示した構造 結果例
1秒間に 4 フレームを用いて状況を与え、スコアを報酬として学習させる
Human-level control through deep reinforcement learning (Kelvin Xu, et al., 2016 )
DQN(Deep Q-Learning) の応用Active Object Localization with Deep Reinforcement Learning
DQN を画像の Localization に応用し、少ない行程( 11~25程度)での探索を実現
対象の大きさにはロバストな様子を示すが、 occlusion や truncation には弱い
(Juan C. Caicedo, et al., 2016 )
構造 探索例
R-CNN には劣るものの、他の従来手法よりも良い精度を示した
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
Attention によるキャプション生成
転移学習を用いた他タスクへの応用動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
Overview
NLP
CV
RL
2013
NN の基礎理論
RNN ・ CNNの提案
DL への注目
Q-Learningの提案
1989
20162014 2015
NN を用いた分散表現の獲得
CNN を用いた物体認識画像生成
Deep Q-learning
マルチモーダルな潜在表現の獲得RNN を用いた文章生成 Attention による文章生成
Attention によるキャプション生成
転移学習を用いた他タスクへの応用動画解析
3Dモデル解析
Deep Recurrent Q-learning
画像のキャプション生成
・ 自然言語における NN は勾配爆発と勾配消失との戦い・ 多くの手法が画像分野や実務などに応用されてい
る・ 短期的なトレンドは Attention を用いた文章生成・ DL との相性の良さから DL領域での研究はかなり盛ん・ 去年〜今年のトップカンファレンスは動画・ 3D が
中心か・ 識別モデル中心だったが、生成モデルがこれからのトレン
ド? ・ 従来と同じように POMDP への応用の流れが DQNにもある・ 現在は画像分野が中心、今後は時系列データへの応用が増
加?・ 課題設定が特に重要で、教師アリ学習に対する利点をどう
示すか
Summary
技術発展のスピードがものすごく早いDL 関連では1年では毎年のように何らかの激変が起こっているBengio さんや Hinton さんたちが入ってる論文は変革率がかなり高い各領域の内容が相互の領域の手法に影響を与えている
発想自体は新しくないものも多いarXiv の活性化もあり、引用までのスピードも上がっている
データの増加や GPGPU などの発展による影響が現れている発想は古くから変わってなかったり、提案されていたものが割とある
おわり