[dl輪読会]imagination-augmented agents for deep reinforcement learning / learning model-based...

DEEP LEARNING JP[DL Papers]

Learning model-based planning from scratch &Imagination-Augmented Agents for Deep Reinforcement Learning

Hiroaki Shioya, Matsuo Lab

http://deeplearning.jp/

論文情報

2

● 2本ともDeepMindが発表した深層強化学習＋プランニングに関する論文

● 11 July 2017発表で、現状arxivのみ

● モチベーション○ model-base大事

○ プランニング大事

強化学習

● エージェントの良いふるまいを学習したい

● 問題設定

3

environmentP, R, γ

agentΠ, V

a s, r

notation:s : 状態a : 行動r : 報酬P：遷移関数 (s×a→s)R : 報酬関数 (s×a→r)Π：方策(s→a)V : 価値関数(s → v) γ : 割引率

環境との相互作用を通じて ΠやVを学習し、累積期待報酬和の最大化を目指す

強化学習とDeep Learning

● 方策や価値関数を表す強力な関数近似器○ 画像など高次元の生データを状態入力として処理可

○ 複雑なタスクを解けるような方策、価値関数も近似可

● 複雑なタスクをNNで扱う際に生じる学習の不安定性や試行回数の多さを補うよう

に強化学習アルゴリズムが発展○ DQN, TRPO (安定性)○ GPS(サンプル効率 )

4

state

NN policy

action

state

NN valuefunction

state value

プランニングって何

● 外部環境のモデル(PとR)をもっておいて、先読みした結果を元にどう行動するか決

める

5

: 状態(s)

: 行動(a)

P：遷移関数 (s×a→s)R : 報酬関数 (s×a→r)

のモデル

(internal model)

良さそう実環境real world

a

最近の研究成果の多くは、プランニングを用いていない

● DQN, DDPG, TRPOなど、近年よく使われる深層強化学習アルゴリズムは、多くが

環境の内部モデルをもたない (モデルフリー)

6

: 状態(s)

: 行動(a)

P：遷移関数 (s×a→s)R : 報酬関数 (s×a→r)

のモデル

(internal model)

良さそう実環境real world

a

ではどうしてるの？→ 経験から価値を推定する

● ある状態sで行動aをとるとどれくらい良さそうか（報酬を多く獲得できそうか）を経験

をもとに推定していく

● 結果、状態sの観測に対し、試行錯誤の期間に試してみて良かった行動をとるよう

になる

7

モデルフリーができるのに、なんでプランニングしたいの

● モデルフリーだと異なる設定に一般化できない○ 目標が変化しても、学習期間に良かった行動を取り続ける

● モデルベースの方が、サンプル効率が良くなる○ 特にDRLは試行回数が重い

● 人間もやってるっぽい○ 神経科学の知見にも合う [Hassabis 2017]○ 経験的にも、プランニングしてるよね

8[Hassabis 2017] Hassabis, Demis, et al. "Neuroscience-Inspired Artificial Intelligence." Neuron95.2 (2017): 245-258.

なんでプランニングしないの→モデルが不正確

● 多くのタスクでは、環境のモデルは未知○ 囲碁などのゲームはあてはまらない

● 未知な場合は、経験を元に学習する○ しかし、学習しても誤差はある程度残る

● 不正確なモデルを使うと、却ってダメな結果を導く○ しかも、強化学習のように前の予測結果にさらにモデルを使用する問題設定だと、ステップが進む

につれて誤差が蓄積、拡大する

9

内部モデルの予測軌道

実際の軌道

(Classical) Planning

● 多くは完全なモデルを与えられているか、単純なモデルで近似

● 例○ trajectory optimization○ model predictive control(MPC)○ Dyna [Sutton 1991]○ Monte Carlo Tree Search(MCTS)

10[Sutton 1991]Dyna, an integrated architecture for learning, planning, and reacting. ACM SIGART Bulletin, 2(4):160–163, 1991

(Classical) Planning + DL

● モデルをNNで近似すれば複雑なダイナミクスでも扱えないだろうか？○ 従来はlinear conbination feature, gaussian processなどで近似

● 例○ trajectory optimization + DL

■ Embed to Control [Watter 2015]■ Prediction and Control with Temporal Segment Models [Mishara 2017]

○ model predictive control(MPC) + DL■ Deep MPC [Lenz 2015]■ Deep Video Prediction [Finn 2017]

● 十分な成功を収めているとは言い難い

11[Watter 2015] Embed to control: A locally linear latent dynamics model for control from raw images. In Advances in Neural Information Processing Systems, pages 2746–2754, 2015.[Mishara 2017]Mishra, Nikhil, Pieter Abbeel, and Igor Mordatch. "Prediction and Control with Temporal Segment Models." arXiv preprint arXiv:1703.04070 (2017).[Lenz 2015] DeepMPC: Learning deep latent features for model predictive control. In Robotics: Science and Systems, 2015.[Finn 2017]Deep visual foresight for planning robot motion. In IEEE International Conference on Robotics and Automation (ICRA), 2017

ここまでのまとめ

● 近年のDRLの発展は目覚ましいが、その多くがモデルフリー

● モデルフリーは異なる設定での汎化性能に欠点があり、克服のためにはモデル

ベースのプランニングが鍵になりそう

● しかし、(NNのような強力な関数近似器を用いても)十分な正確性をもったモデルを

学習するのは難しく、プランニング活用の壁になっている

12

Imagination-Augmented Agents for Deep Reinforcement Learning

13

不正確なプランニングをNNに解釈してほしい

● モデルを正確に推定するのは難しいので、代わりに不正確なプランニングから使え

る情報だけ抽出して、残りは無視してほしい

● どう抽出すればいいのかよくわからない→NNに投げて抽出してもらおう

● プランニングだけからは行動を決定できないので、モデルフリーRLも学習して、プラ

ンニングからの情報はそのcontext infromationとして活用しよう

14

Model

a. imagination core○ 内部モデルに相当する

○ environment modelの構造は下図

b. Single imagination rollout○ 1.がplanningに、2.がそれを解釈する部分に

相当する

○ 2. encoder は逆向きLSTM(あまり向きは大

事じゃなかった )

c. Full I2A Architecture○ planningとmodel-freeを統合する

○ aggregaterは単純なconcat○ 最後に２つを入力にとるNN

15

学習

a. imagination core○ pre-trainする（その方が早いらしい）

○ π_^はπを蒸留して得る

b. Single imagination rollout○ 普通のRL

c. Full I2A Architecture○ 普通のRL

16

imagination rollout strategy

● 選択可能な各行動から１回ずつrolloutする○ つまり行動が離散の場合の戦略しか示されていない

○ この論文ではALEでしか実験してないので問題はない

17

実験１：Sokoban

● ブロックを特定の位置まで運ぶパズルゲーム

● プランニングが求められる特性をもつ○ ブロックは押すことしかできないので一部不可逆な移動が生じる

○ 毎回パズルの配置が異なる

18

model-bath pathは有効、不完全なモデルも扱える

● I2A(提案手法)がstandard(I2Aのmodel-free pathのみ)を上回る

● copy-IAAはEMを元のoを返すものに置換し

たもの(parameter増の影響をみるため )● no reward IAAはobservationのみ予測

● unroll depthは5がoptimalだった（ゲーム自

体は平均50stepくらい）

● I2Aはpoor model(parameter落として精度下

げた)でもタスク成功率が落ちない

● MCはencodingなし

● MCはmodelが良くてもstandardと同程度、

modelが悪いと性能に壊滅的な悪影響を与

える

19

MCTSより読みの効率良い、タスク間汎化も

● 完全なモデルを与える

● I2A@87とMCTS@87を比較すると読んだス

テップ数が１桁違う

● MCTSは読みを増やせばさらに性能をあげ

られるが、I2AもMC searchがつかえて、や

はり高効率

● 4boxでtrainした

● I2Aはstandardと比べて汎化

20

実験２：MiniPacman

● 1つのモデルで異なるタスクに使える内部モデルを学習できるか実験

● タスクを変更してもEMは追加で学習しない

● それでもI2Aがbaselineを上回る

21

まとめ

● 不正確なプランニングをNNでうまく処理してmodel-free methodに取り込むことが

できた

● 他のタスクに対して適用できるか、今後の発展に期待

● あと、step数で比較しているが、内部シミュレーションが入っていないので計算コス

トは増えている

22

Learning model-based planning from scratch

23

プランニングの構築の仕方自体も学習できないか

● 不正確性に対処できればプランニングは完成か？→ No!● どこを読むか、どこで読みを打ち切るかはヒューリスティックに設計している

○ 読みを打ち切って行動してみるべきか、読むならどのノードから読みを始めるべきかは自由度があ

る、それに imaginationはタダじゃない

● どこを、どこまで読むか決定するメタなエージェントも一緒に学習したい

24

METACONTROL FOR ADAPTIVE IMAGINATION-BASED OPTIMIZATION[Hamrick 2017]

● ICML 2017● 本論文と近いアイデア

○ meta controllerが、行動するか否か、どの

モデルでプランを評価するかを決める

○ 計算コストの低いモデルを適合的に使い

たいというモチベーション

● one-shot decision makingな問題

25[Hamrick 2017]Metacontrol for adaptive imagination-based optimization, 2017

Model● Manager

○ 読みを打ち切るかどうか、どこから読み

始めるか決める■ 行動空間はact or not + 読み始め候補のnode数

○ これまでの行動や読みの履歴を入力

● Controller○ 現在状態とMemoryの出力を受け取る

○ imagineとactで共通

● Imagination○ 環境の内部モデル

○ Interaction Networkを使う

● Memory○ 読みや行動の結果を文脈とともに記憶

○ LSTM

26

Imagination Strategy

● ３つのimagination strategyを考えた○ 1-step: 常に現在のノードから読みの続き

を始める

○ n-step: 常に最後のノードから読みの続き

を始める

○ tree: これまで読んだ任意のノードから読

みを始めて良い

27

学習

● Manager○ タスクに関する lossと、imaginationにか

かるコストを報酬にしてREINFORCE

● Controller○ タスクに関する lossのみを使いSVG

● Imagination○ 現実で行動した際のデータを使って教師

あり学習

● Memory○ Controllerと同時に学習

28

実験１：Spaceship task

● 目的の場所への到着を目指す

● 惑星どうしの複雑な重力場がある

● コントロールにも一定のノイズ

29

結果

A. 読みを増やすと良くなる

B. imagination costを増やすと、読みを

減らすよう学習できてる

C. imagination costを増やすと、読みが

減ってtotal costは増える

D. imagination strategyは1-step<n-step<tree

E. D.に同じ

下図は、生成されたimaginationとactionの軌道

30

実験２：Discrete mazes

● 迷路を解くタスク

● discrete domainにも適用してみる

● perfect modelを与えている

● その他、meta controllerを与えてしまうなど、ちょっと怪しい

31

結果

● 上図：タスク中に現れたimagination strategyの割合,状況により様々な

strategyがあり得る

● 下図上 : 迷路同じでゴールが異なる。

imaginationによって異なるタスクにも

汎化

● 下図下：迷路もゴールも異なる場合

32

まとめ

● プランニングの情報を用いて難しいcontinuous coutrolタスクの精度向上

● 加えて、meta controllerがimaginationのコストを見ながら、どこから読むのか、い

つまで読むのかを学習してくれる

● 今後はより広範なタスクへの適用に期待

● internal resource costをどう設計するかは謎

33

おまけ）プランニングに関して、その他の方向性

34

記号的推論、因果推論との統合

● Schema Networks: Zero-shot Transfer with a Generative Causal Model of Intuitive Physics[Kansky 2017]

○ ICML 2017○ AIベンチャー, vicariousの論文

○ オブジェクト間の物理的な因果関係を獲

得して、目標から逆向きに推論する計画

問題を解く。物理法則が変化していない別

タスクにzero shotで適応できる。

○ DLじゃない

35[Kansky 2017]Schema networks: Zero-shot transfer with a generative causal model of intuitive physics. Accepted at International Conference for Machine Learning, 2017, 2017.

物理的な関係推論

● Interaction Network[Battaglia 2016]● NIPS 2016● 物理的な運動推論ができる

● Visual Interaction Network[Watters 2016]● 画像から物理的な運動推論が可能

36[]Battaglia 2016]Interaction networks for learning about objects, relations and physics. In Advances in Neural Information Processing Systems, pages 4502–4510, 2016[Watters 2016]Visual interaction networks,” CoRR, vol. abs/1706.01433, 2017. [Online]. Available: http://arxiv.org/abs/ 1706.01433.

これまで難しかった環境の予測モデルができる？

さらにその先？

● 既知の因果関係を組み合わせて、未知の因果関係を推測○ 0ショットで環境のモデルを獲得できる可能性がある

37

まとめ

● プランニングの活用はRLにおいて大事

● Imagination-Augmented Agents for Deep Reinforcement Learningでは、モデルにほぼ不可避な不正確性を扱う新しい方法を提案

● Learning model-based planning from scratchでは、プランニングの構築自体を学習する枠組みを提案、新しい課題に着手している

● その他にも、プランニングの新しい側面にチャレンジするための要素が少しずつでてきている

38

[dl輪読会]imagination-augmented agents for deep reinforcement learning / learning model-based...

Technology