introduction to double deep q-learning

16
ディープラーニングの最新動向 強化学習とのコラボ編② DDQN 2016/6/24 株式会社ウェブファーマー 大政 孝充

Upload: -

Post on 06-Apr-2017

432 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: introduction to double deep Q-learning

ディープラーニングの最新動向 強化学習とのコラボ編② DDQN

2016/6/24 株式会社ウェブファーマー

大政 孝充

Page 2: introduction to double deep Q-learning

今回取り上げるのはこれ

[1]H. V. Hasselt, et al. “Deep Reinforcement Learning with Double Q-learning” arXiv:1509.06461, 2015. と、そのもとになってる論文 [2]H. V. Hasselt. “Double Q-learning” Advances in NIPS, 23:2613-26212015. DQNを改良し、ゲームでさらなる高得点を叩き出した!

Page 3: introduction to double deep Q-learning

もともとのDQNはこれ

[3]V. Mnih, K. Kavukcuoglu, D. Silver, A. Graves I. Antonoglou, D. Wierstra, M. Riedmiller. “Playing Atari with Deep Reinforcement Learning” arXiv:1312.5602, 2013. もしくは [4]V. Mnih, et al. “Human-level control through deep reinforcement learning” nature, 2015.

Page 4: introduction to double deep Q-learning

DQNの解説は

DQNの解説に関しては、[3]塚原裕史氏「論文紹介 Playing Atari with Deep Reinforcement Learning」 http://www.slideshare.net/htsukahara/paper-intoduction-playing-atari-with-deep-reinforcement-learning や[4]藤田康博氏「Playing Atari with Deep Reinforcement Learning」 http://www.slideshare.net/mooopan/ss-30336609 あるいは[5]私の「ディープラーニングの最新動向 強化学習とのコラボ編① DQN」 http://www.slideshare.net/ssuser07aa33/introduction-to-deep-q-learning などを参考にして下さい

Page 5: introduction to double deep Q-learning

今回はここだけ解説

①DQNの何が問題か ②DQNをどう改良してDDQNとしたか

Page 6: introduction to double deep Q-learning

①DQNの何が問題か ②DQNをどう改良してDDQNとしたか

まず①番

Page 7: introduction to double deep Q-learning

DQN(2013ヴァージョン)のアルゴリズム

[3] より

Page 8: introduction to double deep Q-learning

DQN(2013ヴァージョン)のアルゴリズム

[3] より

actionを選択するための モデル( )とactionを評価するためのモデル( )が同じ

θ

θ

actionを過大評価 してしまう

詳細は[2]参照

Page 9: introduction to double deep Q-learning

DQN(natureヴァージョン)のアルゴリズム

[4] より

Page 10: introduction to double deep Q-learning

DQN(natureヴァージョン)のアルゴリズム

[4] より

 はたまに(C steps)  に更新される Q∧

Q

Page 11: introduction to double deep Q-learning

DQN(natureヴァージョン)のアルゴリズム

[1] より

  の各action value算出として、たまに更新されてる  を使用する

φ j+1

Q∧

Page 12: introduction to double deep Q-learning

DQN(natureヴァージョン)のアルゴリズム

[1] より

よって行動を選択するためのaction value(  )と行動を評価するためのaction value(  )は微妙に違う

Q∧

Q

actionの過大評価は若干削減された?

もっと削減するには・・・ DDQN!

Page 13: introduction to double deep Q-learning

次に②番

①DQNの何が問題か ②DQNをどう改良してDDQNとしたか

Page 14: introduction to double deep Q-learning

DDQNだとここを変更する

[4] より

rj +γQ∧

φ j+1, argmaxa '

Q φ j+1,a ';θ( );θ −⎛⎝⎜

⎞⎠⎟

こうする

これを

Page 15: introduction to double deep Q-learning

まず  に   を入力して出た action value の中で最大となる  を選択する 次に  に   を入力するして出た action value  のうち、  に対応するものを選択する

  に   を入力して出た各 action value   の中で最大のものを採用 rj +γmaxa ' Q

φ j+1,a ';θ−( )

actionの評価を変更する

rj +γQ∧

φ j+1, argmaxa '

Q φ j+1,a ';θ( );θ −⎛⎝⎜

⎞⎠⎟

φ j+1

Q∧

θ −

φ j+1 Q

φ j+1

a '

a '

Q∧

θ

θ −

過大評価はかなり削減される!?

Page 16: introduction to double deep Q-learning

終わり