全脳アーキテクチャ若手の会 強化学習

169
全全全全全全全全全 全全全全 全全全 全全 全全全全全全全全全全全 強強強強 強強強強強強強強強 == 全全全全 全全全全 全全全全全全全 全全 全全 [email protected]

Upload: kwpgeorge

Post on 22-Aug-2015

3.329 views

Category:

Technology


0 download

TRANSCRIPT

Page 1: 全脳アーキテクチャ若手の会 強化学習

全脳アーキテクチャ 若手の会 勉強会

後援:ドワンゴ人工知能研究所

強化学習=脳へのアプローチ=

法政大学 理工学部 応用情報工学科川崎 雄介

  [email protected]

Page 2: 全脳アーキテクチャ若手の会 強化学習

2

自己紹介

 川崎 雄介

– 所属:法政大学 理工学部

– 出身:東京都 八丈島

– 研究:植物病自動診断

– 特技:少林寺拳法  

Page 3: 全脳アーキテクチャ若手の会 強化学習

3

身近になった人工知能

• Pepper (Aldebaran Robotics,Softbank 社 )

– 人間の声のトーンなどから感情認識

• 将棋電王戦 (niconico)

– 人間 vs コンピュータでの将棋– 人間1勝、コンピュータ4勝 (2014 第 3 回 )

Page 4: 全脳アーキテクチャ若手の会 強化学習

4

身近になった人工知能

• 総務省  2015 年 2 月

– インテリジェント化が加速する  ICT の未来像に関する研究会

– 2045 年問題に関する議論    人工知能が人間並みの知能を持つようになる?地点

– 政府機関によるこういった会議は異例

Page 5: 全脳アーキテクチャ若手の会 強化学習

5

最近、こんなことが話題に• グーグル開発の人工知能 DQN  ネットでは「命名事故?」「奇跡

的」    ( 2015 年 2 月 26 日 withnews , 抜粋 )

米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。

Page 6: 全脳アーキテクチャ若手の会 強化学習

6

最近、こんなことが話題に• グーグル開発の人工知能 DQN  ネットでは「命名事故?」「奇跡

的」    ( 2015 年 2 月 26 日 withnews , 抜粋 )

米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。

Page 7: 全脳アーキテクチャ若手の会 強化学習

7

最近、こんなことが話題に• グーグル開発の人工知能 DQN  ネットでは「命名事故?」「奇跡

的」    ( 2015 年 2 月 26 日 withnews , 抜粋 )

米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。

このメカニズムを探る

Page 8: 全脳アーキテクチャ若手の会 強化学習

8

話題にのぼることの多くなった人工知能。

今回は「強化学習」という枠組みから

発表させて頂きます。

ろぼみ

Page 9: 全脳アーキテクチャ若手の会 強化学習

9

今回の講演につきまして

• 第1部– この分野に馴染みのない方向け– ざっくりとしたお話になります(数式なし)

• 第2部– この分野(情報系)の方向け– 数式を使って、可能な限り詳説します

何度か質問コーナー挟んでいきます!

Page 10: 全脳アーキテクチャ若手の会 強化学習

10

 第1部

Page 11: 全脳アーキテクチャ若手の会 強化学習

11

脳ってどんな構造なの?

• 各部位ごとの神経のネットワーク

 

前頭葉

側頭葉

頭頂葉

後頭葉

Page 12: 全脳アーキテクチャ若手の会 強化学習

12

ネットワークの構成要素

• ニューロン( Neuron )

– 脳内の神経細胞

– 入力ー処理ー出力の機構

– 強い電気信号のみに発火

銅谷 賢治 , “ 計算神経科学への招待” より

細胞体(soma)

樹状突起 (dendrite)

軸索(axon)

Page 13: 全脳アーキテクチャ若手の会 強化学習

13

脳を模してみよう

• McCulloch-Pitts モデル [Mcculloch,Pitts , 1943]

– ニューロンを真似た構造の実現

出力

Page 14: 全脳アーキテクチャ若手の会 強化学習

14

脳を模してみよう

• パーセプトロン [Rosenblatt, 1958]

– 脳のネットワークのような構造– 任意の識別面も表現できるように [Rumenhert,1986]

多層パーセプトロン

Page 15: 全脳アーキテクチャ若手の会 強化学習

15

 

じゃあ、何故 今になって再注目されてきたのか

Page 16: 全脳アーキテクチャ若手の会 強化学習

16

しかし

• 計算リソースが足りなかった!– ここにきてハードウェアの発展

• 人間の表現力が高すぎた!– 大域的な最適解を出せない

Page 17: 全脳アーキテクチャ若手の会 強化学習

17

しかし

• 計算リソースが足りなかった!– ここにきてハードウェアの発展

• 人間の表現力が高すぎた!– 大域的な最適解を出せない

ここに来てそれを打ち破る技術が誕生

Deep Learning

Page 18: 全脳アーキテクチャ若手の会 強化学習

18

機械学習の春

• 一般物体認識コンテスト [Krizhevsky et al , 2012]

 大量の画像を読み込ませ  1,000種類のクラス識別問題

  error率 15.3%  視覚野のような特徴を確認

 

Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012

Page 19: 全脳アーキテクチャ若手の会 強化学習

19

機械学習の春

• Google の猫認識 [Quoc et al,2011]

 これが猫だと 教えずに 猫の概念を獲得

Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011

Page 20: 全脳アーキテクチャ若手の会 強化学習

20

機械学習の春

• Deep Q-Network [Volodymyr et al,2015]

 コンピュータに「行動則」を学ばせる 

Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

Page 21: 全脳アーキテクチャ若手の会 強化学習

21

本日のメイントピック

教師有り学習 教師なし学習 強化学習

Page 22: 全脳アーキテクチャ若手の会 強化学習

22

スロットマシン( k-armed bandit )

4本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。

限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう?

Page 23: 全脳アーキテクチャ若手の会 強化学習

23

スロットマシン( k-armed bandit )

4本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。

限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう?

強化学習における目標

Page 24: 全脳アーキテクチャ若手の会 強化学習

24

スロットマシン( k-armed bandit )

• とりあえず一本ずつ引いてみる

A: 100

B: 50

C: 10

D: 1

Page 25: 全脳アーキテクチャ若手の会 強化学習

25

スロットマシン( k-armed bandit )

• とりあえず一本ずつ引いてみる

A: 100

B: 50

C: 10

D: 1

Page 26: 全脳アーキテクチャ若手の会 強化学習

26

スロットマシン( k-armed bandit )

• とりあえず一本ずつ引いてみる

A: 100

B: 50

C: 10

D: 1

もらえるご褒美は多い方がいい

(欲張り方策)

Page 27: 全脳アーキテクチャ若手の会 強化学習

27

スロットマシン( k-armed bandit )

• もし次に出る額を知っていたら?

A: 100 (1)

B: 50   (10)

C: 10 (100)

D: 1 (500)

Page 28: 全脳アーキテクチャ若手の会 強化学習

28

スロットマシン( k-armed bandit )

• 1回引くたびに出る額が変わったら?

A: ???

B: ???

C: ???

D: ???

Page 29: 全脳アーキテクチャ若手の会 強化学習

29

探索と知識利用

• 探索 ( exploration )

– 最終的に多くの報酬を貰いたい– あえて別の行動をとる

B

Page 30: 全脳アーキテクチャ若手の会 強化学習

30

探索と知識利用

• 知識利用 ( exploitation )

– 今も貰えた ならば 次も貰える– 大きな報酬が期待できる行動をとる

A

Page 31: 全脳アーキテクチャ若手の会 強化学習

31

探索と知識利用

• 探索 vs. 知識利用

– 相反する性質

– ずっと欲張らず違う腕も引いてみる– 最初は適当に、時間が経つにつれて欲張りに

– レバーを引く、という行動をどう選ぶのが最適?

Page 32: 全脳アーキテクチャ若手の会 強化学習

32

強化学習と脳?

• 大脳基底核

– 大脳皮質の内側の器官

– ここが強化学習に 関わっているのでは?

 2部の後半で 紐解いていきます

Page 33: 全脳アーキテクチャ若手の会 強化学習

33

強化学習で何ができそうか?

• 被災地の復興支援ロボット– 自ら危険なところを回避し人を探す、情報を送る

• 介護ロボット– 介護の現場での運用

• 病気の解析– コンピュータでシミュレート出来るか?– パーキンソン病などの治療への足掛かり?

Page 34: 全脳アーキテクチャ若手の会 強化学習

34

第1部のまとめ

• 人工知能分野の春– 計算資源確立、ヒトの表現力の突破

• 脳と似た振舞いを持つ?– コンピュータも脳のような振舞いを見せた

• 強化学習の導入– 多くのご褒美を得ることが目標– k-armed bandit 問題

Page 35: 全脳アーキテクチャ若手の会 強化学習

35

宣伝

★ 全脳アーキテクチャ若手の会

 全脳アーキテクチャ達成に貢献することが本会の目的です。  研究者のみならず、専門外の方でも積極的に ご参加いただき、多くの方が自分なりに力を 発揮していただける環境を作っていきたいと思っています。

  ホームページ: http://wbawakate.jp/  facebook:https://www.facebook.com/groups/713921892010595/

Page 36: 全脳アーキテクチャ若手の会 強化学習

36

 第2部

Page 37: 全脳アーキテクチャ若手の会 強化学習

37

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 38: 全脳アーキテクチャ若手の会 強化学習

38

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 39: 全脳アーキテクチャ若手の会 強化学習

39

強化学習の位置づけ• 教師あり学習

– 正解付のデータから規則を算出– ILSVRC2012 ( 一般物体認識 )

• 教師なし学習– 膨大なデータから規則を算出– Google の猫認識

• 強化学習– ある行動に対する「ご褒美」から規則を算出– Deep Q Network

Page 40: 全脳アーキテクチャ若手の会 強化学習

40

用語の定義

• エージェント( agent )– 動作する主体のこと– 人間、ロボット、 etc

Page 41: 全脳アーキテクチャ若手の会 強化学習

41

用語の定義

• 環境( environment )– エージェントが動作する空間のこと

環  境

Page 42: 全脳アーキテクチャ若手の会 強化学習

42

用語の定義

• 状態( states )– 現在エージェントが置かれている状態–   :時刻tでの状態

環  境

Page 43: 全脳アーキテクチャ若手の会 強化学習

43

用語の定義

• 行動( action )– エージェントが環境に対して働きかける動作–   :時刻tでのエージェントの行動

環  境

Page 44: 全脳アーキテクチャ若手の会 強化学習

44

用語の定義

• 報酬 ( rewards )– 取ったその行動がどの程度良かったか

環  境

Page 45: 全脳アーキテクチャ若手の会 強化学習

45

用語の定義

再び状態が与えられ、行動選択に戻るこのループ

環  境

Page 46: 全脳アーキテクチャ若手の会 強化学習

46

用語の定義

• 方策( policy )– ある状態においてのエージェントの行動規則–    :状態sで行動aをとる確率

環  境

Page 47: 全脳アーキテクチャ若手の会 強化学習

47

• 以下本発表においては

– s:任意の状態– a:任意の行動– π :任意の方策– t:ステップ数– Pr :確率– P:確率の集合– R:報酬の集合– A:行動の集合

Page 48: 全脳アーキテクチャ若手の会 強化学習

49

具体的に

 状態s:A~F

 行動a: {down,right}

 方策 π : ( A , down ) (C , right )

 報酬r:    Cが持つ価値

   (後述)環境

DC

E F

START

GOAL

Page 49: 全脳アーキテクチャ若手の会 強化学習

50

タスクの種類

• 連続タスク ( continuing tasks )– 有限時間内でタスクの終了が保障されない– ロボットの実問題への適用など

• エピソード的タスク( episode tasks )– 有限時間内で1つのタスクが終了– 迷路の解の算出など– 今回はこちらメイン

Page 50: 全脳アーキテクチャ若手の会 強化学習

51

マルコフ性( Markov property )

• 以前までに得た情報を保持できるような過程

– 1段階前の状態からの判断で、後続の状態を 判断しても遜色がない

Page 51: 全脳アーキテクチャ若手の会 強化学習

52

マルコフ決定過程( Markov Decision Process )

• MDP

• マルコフ過程に「意思決定=行動aの選択」を 付与したもの

• 強化学習全般がこの理論をベースにしている

Page 52: 全脳アーキテクチャ若手の会 強化学習

53

強化学習の目標

• 累積報酬の最大化

エージェントの報酬をタスク終了時に最大にする

Page 53: 全脳アーキテクチャ若手の会 強化学習

54

強化学習の目標

• 累積報酬の最大化

エージェントの報酬をタスク終了時に最大にする

エージェントの「今おかれた立場の価値」= 状態価値「そこでの各振舞の価値」= 行動価値

を評価する

Page 54: 全脳アーキテクチャ若手の会 強化学習

55

状態に価値を設定する

• 状態の価値?– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか

Page 55: 全脳アーキテクチャ若手の会 強化学習

56

状態に価値を設定する

• 状態の価値?– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか

• 状態価値関数( state-value function for policy π )

期待値

Page 56: 全脳アーキテクチャ若手の会 強化学習

57

行動に価値を設定する

• 行動の価値?– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか

Page 57: 全脳アーキテクチャ若手の会 強化学習

58

行動に価値を設定する

• 行動の価値?– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか

• 行動価値関数( action-value function for policy π )

期待値

Page 58: 全脳アーキテクチャ若手の会 強化学習

59

状態と行動の価値の関連性

• VとQの関係性

 状態価値関数は、行動価値関数の方策固定版

 「その場の状況のみで」判断するのか? 「そこでの行動も同時に」判断するのか?

Page 59: 全脳アーキテクチャ若手の会 強化学習

60

γ ?

Page 60: 全脳アーキテクチャ若手の会 強化学習

61

割引率

• 割引率( discount rate ) γ

– 遠い先の報酬を割引くための定数 (0 <= γ <= 1)

– 0 なら即時報酬のみ– 1 なら先々の報酬も同様に考慮

• イメージ– 10,000円を今貰うか?  11,000円を一年後貰うか?

Page 61: 全脳アーキテクチャ若手の会 強化学習

62

強化学習の目標(再掲)

• 累積報酬の最大化

エージェントの報酬をタスク終了時に最大にする

Page 62: 全脳アーキテクチャ若手の会 強化学習

63

強化学習の目標(再掲)

• 累積報酬の最大化

エージェントの報酬をタスク終了時に最大にする

価値関数を最大にする方策の発見

Page 63: 全脳アーキテクチャ若手の会 強化学習

64

Bellman方程式

• 累積報酬= 即時報酬+その先の期待報酬         と解釈したもの

つまり以下で定式化できる

Page 64: 全脳アーキテクチャ若手の会 強化学習

65

Bellman方程式の再帰性

s: 現在の状態  s’ :   次の状態a: 行動 P : 状態sで行動aを取ってs‘に遷移する確率集合R : 〃    報酬集合π(s,a) : 状態sで行動aを取る確率

Page 65: 全脳アーキテクチャ若手の会 強化学習

66

Bellman方程式の再帰性

即時報酬 期待報酬

即時報酬 期待報酬

V、Qの再帰的表現

Page 66: 全脳アーキテクチャ若手の会 強化学習

67

1節まとめ

• 強化学習の目標– 累積報酬の最大化 価値関数の設定

• マルコフ性– 得られるものは全て以前までの情報の集大成

Page 67: 全脳アーキテクチャ若手の会 強化学習

68

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 68: 全脳アーキテクチャ若手の会 強化学習

69

動的計画法とは?

• 動的計画法( Dynamic Programming )

– 環境の完全なモデルを持つ(モデルベース)

– 後続の価値を現在の価値に従って更新

– 厳密な最適解     が求まる (理論的には)

– ベルマン方程式を厳密に解く方法

Page 69: 全脳アーキテクチャ若手の会 強化学習

70

モデルベース

• イメージ:地図を持っている!

そこへ至る経路や報酬は既知

あとは最適経路を計算するだけ!

DC

E F

Page 70: 全脳アーキテクチャ若手の会 強化学習

71

動的計画法の流れ

① 各状態、その状態で取りうる方策の初期化

② ある方策を選ぶ

③ 各状態においての状態価値を ひたすら 計算

④ 方策が最適か確かめる

Page 71: 全脳アーキテクチャ若手の会 強化学習

72

動的計画法の流れ

③ 各状態においての状態価値を ひたすら 計算

              

④ 方策が最適か確かめる

          (よりよい方策が無いか?)

Page 72: 全脳アーキテクチャ若手の会 強化学習

73

方策改善定理

• ある方策と価値関数を考える– よりよい価値が得られるように更新

greedy 方策

④ の更新式と同値

改善後方策

Page 73: 全脳アーキテクチャ若手の会 強化学習

74

greedy方策

• より多くの報酬を得ようとする行動選択法

s0 s1 s2

10 20

20 10

緑 緑

Page 74: 全脳アーキテクチャ若手の会 強化学習

75

greedy方策

• より多くの報酬を得ようとする行動選択法

s0 s1 s2

10 20

20 10

赤 緑

Page 75: 全脳アーキテクチャ若手の会 強化学習

76

方策改善定理

• ある方策と価値関数を考える– よりよい価値が得られるように更新

– 必ず最適解に収束すると知られている

Page 76: 全脳アーキテクチャ若手の会 強化学習

77

動的計画法の流れ

           ① 初期化

 A~Fの価値を 任意の値で初期化

DC

E F

Page 77: 全脳アーキテクチャ若手の会 強化学習

78

動的計画法の流れ

           ② 方策選択

 どのようにFに 辿り着くかを選ぶ

(赤が最適とします)

DC

E F

Page 78: 全脳アーキテクチャ若手の会 強化学習

79

動的計画法の流れ

           ② 方策選択

 方策緑を選ぶ  (A,right) (B,down) (D,down)

DC

E F

Page 79: 全脳アーキテクチャ若手の会 強化学習

80

動的計画法の流れ

           ③ 計算

 ②の方策に従い、 全ての状態価値を計算

 (方策上ありえない  箇所も計算する)

DC

E F

Page 80: 全脳アーキテクチャ若手の会 強化学習

81

動的計画法の流れ

           ④ 確認

 選んだ方策は本当に  greedy な方策か

 否!

 

DC

E F

Page 81: 全脳アーキテクチャ若手の会 強化学習

82

動的計画法の流れ

           ② 方策選択

 方策赤を選ぶ  (A,down) (C,right ) (D,down)

DC

E F

Page 82: 全脳アーキテクチャ若手の会 強化学習

83

動的計画法の流れ

           ③ 計算

 同様に全て計算  この際、方策 緑 の 計算結果を利用する

 状態 C では D の状態価値が       利用できる

DC

E F

Page 83: 全脳アーキテクチャ若手の会 強化学習

84

動的計画法の流れ

           ④ 確認

 選んだ方策は本当に  greedy な方策か

 是 !

 

DC

E F

Page 84: 全脳アーキテクチャ若手の会 強化学習

85

動的計画法の流れ

           ようやく移動。B

DC

E F

Page 85: 全脳アーキテクチャ若手の会 強化学習

86

バックアップ線図( Backup Diagram )

 更新時に関わる情報を 図式化したもの

   :状態s   :行動a

:各sの更新時    必要な情報の    範囲

A

B C

Page 86: 全脳アーキテクチャ若手の会 強化学習

87

動的計画法のバックアップ線図

A

B C

    :状態s    :行動a :各sの更新時    必要な情報の    範囲

Page 87: 全脳アーキテクチャ若手の会 強化学習

88

動的計画法のバックアップ線図

A

B C

    :状態s    :行動a :各sの更新時    必要な情報の    範囲

Page 88: 全脳アーキテクチャ若手の会 強化学習

89

動的計画法の難点

• 必ず最適解に辿り着くけど・・・

• 計算量が多い!– 状態数が増えると現実的には計算不可

• モデルを持たないと使えない!– 実際はそれがふつう

– モデルなしで知的な エージェントを実現したい

Page 89: 全脳アーキテクチャ若手の会 強化学習

90

モンテカルロ法とは?

• モンテカルロ法( Monte Carlo method )

– 環境のモデルを一切持たない(モデルフリー)

– 「エピソード」を多数生成し、試行錯誤する

– 方策オン/オフ

Page 90: 全脳アーキテクチャ若手の会 強化学習

91

モデルフリー

• イメージ:情報なにもなし!

何もわからない のでとりあえず行ってみるしかない

判断基準は「ゴールにいるか」ただひとつ

DC

E F

Page 91: 全脳アーキテクチャ若手の会 強化学習

92

エピソード

• エピソード( episode )

– 始点から終点までの状態s、行動a、報酬rの列 

DC

E F

AA→r→b→B→d→d→D→d→f→F

Page 92: 全脳アーキテクチャ若手の会 強化学習

93

動的計画法 vs モンテカルロ法

• 動的計画法– 「先読み」が可能– 次に貰える報酬と、次の状態が利用可能!– 「今の状態価値」だけで十分

• モンテカルロ法– 「先読み」が不可– 「今の状態価値」+「そこでとる行動」セット評価

Page 93: 全脳アーキテクチャ若手の会 強化学習

94

モンテカルロ法の流れ

以下を繰り返す ① エピソードを生成

 ② エピソード中の「ある状態のある行動」   についての報酬を積算、平均  ③ 各状態で     が最大となる方策を選ぶ

Page 94: 全脳アーキテクチャ若手の会 強化学習

95

モンテカルロ法の流れ

           ① エピソード生成

DC

E F

A→r→b→B→d→d→D→d→f→F

Page 95: 全脳アーキテクチャ若手の会 強化学習

96

モンテカルロ法の流れ

           ② 報酬の積算、平均

DC

E F

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

Page 96: 全脳アーキテクチャ若手の会 強化学習

97

モンテカルロ法の流れ

           ③ 最大の行動価値に  従って方策の更新 

  

DC

E F

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

Page 97: 全脳アーキテクチャ若手の会 強化学習

98

モンテカルロ法の流れ

           ① エピソード生成

DC

E F

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

A→d→c→B→r→d→D→d→f→F

Page 98: 全脳アーキテクチャ若手の会 強化学習

99

モンテカルロ法の流れ

           ② 報酬の積算、平均 

DC

E F

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3(c+d+f)/3

(c+d+f)/3

(c+d+f)/3

Page 99: 全脳アーキテクチャ若手の会 強化学習

100

モンテカルロ法の流れ

           ③ 最大の行動価値に  従って方策の更新 

  緑より赤の方が      良い報酬!

DC

E F

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3(c+d+f)/3

(c+d+f)/3

(c+d+f)/3

Page 100: 全脳アーキテクチャ若手の会 強化学習

101

モンテカルロ法のバックアップ線図

A

B C

    :状態s    :行動a :各sの更新時    必要な情報の    範囲

Page 101: 全脳アーキテクチャ若手の会 強化学習

102

モンテカルロ法のバックアップ線図

A

B C

    :状態s    :行動a :各sの更新時    必要な情報の    範囲

Page 102: 全脳アーキテクチャ若手の会 強化学習

103

A

B C

A

B C

動的計画法 モンテカルロ法

Page 103: 全脳アーキテクチャ若手の会 強化学習

104

ホントにいいのか?

• 実はとんでもない仮定

   「全ての状態 - 行動が無限回訪問される」

  こんなの絶対おかしい

  

Page 104: 全脳アーキテクチャ若手の会 強化学習

105

ホントにいいのか?

Page 105: 全脳アーキテクチャ若手の会 強化学習

106

ホントにいいのか?

• 実はとんでもない仮定

   「全ての状態 - 行動が無限回訪問される」

 

エピソードはランダムに生成し、各回 greedy な行動

実際は「もっといい行動がある」可能性があるのに訪問しない(十分な「探索」が行われない)

Page 106: 全脳アーキテクチャ若手の会 強化学習

107

モンテカルロ法の種類

• モンテカルロES法– 全ての状態、行動が確認されると仮定

• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる

• 方策オフ型 モンテカルロ法– 挙動方策と推定方策

Page 107: 全脳アーキテクチャ若手の会 強化学習

108

モンテカルロ法の種類

• モンテカルロES法– 全ての状態、行動が確認されると仮定

• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる

• 方策オフ型 モンテカルロ法– 挙動方策と推定方策

Page 108: 全脳アーキテクチャ若手の会 強化学習

109

方策オンと方策オフ

• 方策オン型

– 行動を選ぶ方策 そのものを評価、改善

• 方策オフ型

– 行動を選ぶ方策とは別に、評価用の方策を用意

Page 109: 全脳アーキテクチャ若手の会 強化学習

110

モンテカルロ法の種類

• モンテカルロES法– 全ての状態、行動が確認されると仮定

• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる

• 方策オフ型 モンテカルロ法– 挙動方策と推定方策

Page 110: 全脳アーキテクチャ若手の会 強化学習

111

方策オン型モンテカルロ

• 危ない橋を渡らせる?

問題点: 更新ごと、報酬を良くしようとする為 訪問されない状態ー行動が出てくること  わずかな確率でも、そのルートを選ばせたい!

Page 111: 全脳アーキテクチャ若手の会 強化学習

112

方策オン型モンテカルロ

• ε-greedy 手法

– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ

Page 112: 全脳アーキテクチャ若手の会 強化学習

113

方策オン型モンテカルロ

• ε-greedy 手法

– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ

Page 113: 全脳アーキテクチャ若手の会 強化学習

114

方策オン型モンテカルロ

• ε-greedy 手法

– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ

Page 114: 全脳アーキテクチャ若手の会 強化学習

115

方策オン型モンテカルロ

非 greedy greedy

Page 115: 全脳アーキテクチャ若手の会 強化学習

116

モンテカルロ法の種類

• モンテカルロES法– 全ての状態、行動が確認されると仮定

• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる

• 方策オフ型 モンテカルロ法– 挙動方策と推定方策

Page 116: 全脳アーキテクチャ若手の会 強化学習

117

方策オフ型モンテカルロ法

• 2つの方策を考える

– 挙動方策( behavior policy )  π’ エージェントが可能な行動の観測を行う

– 推定方策( estimation policy ) π  実際にエージェントを行動させる

色々な状態ー行動を見つつ、 greedy な探索が出来る!

Page 117: 全脳アーキテクチャ若手の会 強化学習

118

方策オフ型モンテカルロ法

  各方策を与える(状態、行動、報酬) 

A→r→b→B→r→d→D→d→f

A→d→c→C→r→d→D→d→f

π

π’

DC

E F

Page 118: 全脳アーキテクチャ若手の会 強化学習

119

方策オフ型モンテカルロ法

  各方策を与える(状態、行動、報酬)

[ A,r,b,B,d,d,D,d,f ]

この時の行動価値を両者計算  > なら方策変更

π

π’

DC

E F

π’ π

A→r→b→B→r→d→D→d→f

A→d→c→C→r→d→D→d→f

Page 119: 全脳アーキテクチャ若手の会 強化学習

120

2節まとめ

• 動的計画法( DP )– モデルベース– 各状態価値をあらかじめ全て計算– 必ず最適解に辿り着くが 現実的ではない

• モンテカルロ法– モデルフリー– 様々な経験則から最適行動価値関数を見積もる– 方策オン型/方策オフ型 

Page 120: 全脳アーキテクチャ若手の会 強化学習

121

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 121: 全脳アーキテクチャ若手の会 強化学習

122

TD学習とは

• 現在の源流となる強化学習手法の 祖

– Bellman方程式の近似

– 動的計画法のように「以前の結果を利用」

– モンテカルロ法のように「環境のモデルが不要」

Page 122: 全脳アーキテクチャ若手の会 強化学習

123

TD学習とは

• TD 学習( Temporal Difference Learning )

– その場更新型のモンテカルロ法– 今の状態と次の状態の報酬を最大化

• α :更新率( 0<α<=1 )「今を大事にするか」 α≈ 0「次を大事にするか」 α≈ 1

Page 123: 全脳アーキテクチャ若手の会 強化学習

124

モンテカルロ法との違い

• モンテカルロ法

– 各エピソードの報酬の和だけ見る– エピソード終端まで更新が不可

• TD 学習

– 1回1回そこで得られる報酬を使う– 最短、次の状態の予測までで更新可

・・・

Page 124: 全脳アーキテクチャ若手の会 強化学習

125

一体何がすごいのか

• 報酬と次の状態のモデルを必要としない

– モデルフリー– 「次の状態」はエピソード毎に記憶する

• モンテカルロ法より早い!– 問題が複雑になればなるほど、モンテカルロ法は 更新に時間がかかる (短ければ良い)

Page 125: 全脳アーキテクチャ若手の会 強化学習

126

TD学習の流れ

① 各状態価値 V(s) を任意に初期化 評価する π を設定

以下各エピソード毎にループ

② エピソードの各ステップ毎に・ π で与えられる行動 a をとって r,s’ を観測・ s (行動前)の状態価値 V(s) を更新

・次状態 s ’ へ移行   s’ が終端状態なら次のエピソードへ移行

Page 126: 全脳アーキテクチャ若手の会 強化学習

127

TD学習の流れ

        ① 初期化

 各状態価値を初期化

 方策緑を評価

  γ=1

DC

E F

Page 127: 全脳アーキテクチャ若手の会 強化学習

128

TD学習の流れ

        ② 行動

 方策 π =緑に従い 行動 a=right をとる

 報酬 b と次状態Bを 観測 

DC

E F

b

Page 128: 全脳アーキテクチャ若手の会 強化学習

129

TD学習の流れ

        ②  V(s)更新

 状態価値を設定

 エージェントが移動

DC

E F

α*b

Page 129: 全脳アーキテクチャ若手の会 強化学習

130

TD学習の流れ

        ② 終端まで確認

 続いて方策赤を評価

DC

E F

α*b α*d

α*f

Page 130: 全脳アーキテクチャ若手の会 強化学習

131

TD学習の流れ

        ② 行動

 方策 π =赤に従い 行動 a=down をとる

 報酬 c と次状態Cを 観測

 

DC

E F

α*b α*d

α*f

c

Page 131: 全脳アーキテクチャ若手の会 強化学習

132

TD学習の流れ

       B

DC

E F

new α*d

α*f

②  V(s)更新

 状態価値を設定 先ほどの状態価値利用

 エージェントが移動

Page 132: 全脳アーキテクチャ若手の会 強化学習

133

TD学習の流れ

       B

DC

E F

new α*d

new

② 終端まで確認 

 以上繰り返して、 最適な方策を探す

α*d

Page 133: 全脳アーキテクチャ若手の会 強化学習

134

DQN  の  Q  !

• Q 学習( Q-learning )

– ある行動をとったら、その時の自分はどうなるか?

– 方策オフ型の TD 学習と考えられる

– 現代の強化学習のメイン

Page 134: 全脳アーキテクチャ若手の会 強化学習

135

Q 学習を数式で見る

• 行動価値関数の最適化を目指す

– 1ステップごとに現在の方策を改善する

– α :学習率   「今を大事に」ー「次を大事に」の Trade-off

次状態が最適な行動の選択

Page 135: 全脳アーキテクチャ若手の会 強化学習

136

TD学習とQ学習の違い

• TD学習– 状態価値に従って更新– 方策に従って遷移した先の評価値のみ見る

• Q学習– 行動価値に従って更新– 方策とは関係なしに、複数の評価値を見る

Page 136: 全脳アーキテクチャ若手の会 強化学習

137

Q 学習の流れ

① 各行動価値 Q(s,a) を任意に初期化 評価する π を設定

以下各エピソード毎にループ

② エピソードの各ステップ毎に・ Q で与えられる行動 a をとって r,s’ を観測・ s (行動前)の状態価値 V(s) を更新

・次状態 s ’ へ移行   s’ が終端状態なら次のエピソードへ移行

Page 137: 全脳アーキテクチャ若手の会 強化学習

138

Q 学習の流れ

        ① 初期化

 各状態価値を初期化

 方策緑を評価

  γ=1

DC

E F

Page 138: 全脳アーキテクチャ若手の会 強化学習

139

Q 学習の流れ

        ② 行動価値から選択

b と c どちらが良いか?

効率よく試行錯誤する

DC

E F

b

dc

ef

d

Page 139: 全脳アーキテクチャ若手の会 強化学習

140

Q 学習の流れ

        ② 行動価値から選択

方策赤における d と eは どちらが良いか?

効率よく試行錯誤する

DC

E F

b

dc

ef

d

Page 140: 全脳アーキテクチャ若手の会 強化学習

141

動的計画法 モンテカルロ法 TD 学習 Q学習

モデル 必要 不要 不要 不要

主な

更新対象

状態価値関数

V ( s )

行動価値関数

Q ( s,a )

状態価値関数

V ( s )

行動価値関数

Q ( s,a )

概要

全ての状態を

総当たり計算

計算量が多い

エピソードから

価値関数推測

行動選択の方法

エピソードの

1 ステップ毎に

状態価値更新

次の行動報酬が

最も良くなるよ

う選択

BackupDiagram

Page 141: 全脳アーキテクチャ若手の会 強化学習

142

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 142: 全脳アーキテクチャ若手の会 強化学習

143

強化学習と脳

• 強化学習を脳がしている?

  

Page 143: 全脳アーキテクチャ若手の会 強化学習

144

注目箇所

• 大脳基底核( Basal Ganglia )

Page 144: 全脳アーキテクチャ若手の会 強化学習

145

注目箇所

• 大脳基底核( Basal Ganglia )尾状核

淡蒼球

被殻

線条体

黒質

視床下核

Page 145: 全脳アーキテクチャ若手の会 強化学習

146

各部位の働き

• 線条体– 運動機能、意思決定

• 淡蒼球– 報酬予測

• 黒質– ドーパミンの放出

• 視床下核– 運動の調整

Page 146: 全脳アーキテクチャ若手の会 強化学習

147

ループ構造大脳皮質

ストリオゾーム   マトリックス

淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核

銅谷 賢治 , “ 計算神経科学への招待” より

視床

線条体

Page 147: 全脳アーキテクチャ若手の会 強化学習

148

ループ構造大脳皮質

淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核

銅谷 賢治 , “ 計算神経科学への招待” より

視床

大脳皮質~基底核ループ

ストリオゾーム   マトリックス線条体

大脳皮質~基底核ループ

Page 148: 全脳アーキテクチャ若手の会 強化学習

149

ループ構造大脳皮質

ストリオゾーム   マトリックス

淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核

銅谷 賢治 , “ 計算神経科学への招待” より

視床

線条体

Page 149: 全脳アーキテクチャ若手の会 強化学習

150

ドーパミンニューロンの観測

• 予測と報酬の神経回路  [Schultz et al, 1997]

ランプの点灯に従ってレバーを操作するとジュース(報酬)が貰える

この時のサルの線条体ドーパミンニューロンを計測

 

http://www.wakosozai.com/

Page 150: 全脳アーキテクチャ若手の会 強化学習

151

ドーパミンニューロンの観測

• 予測と報酬の神経回路  [Schultz et al, 1997]

ランプの点灯に従ってレバーを操作するとジュース(報酬)が貰える

この時のサルの線条体ドーパミンニューロンを計測

 

http://www.wakosozai.com/

Page 151: 全脳アーキテクチャ若手の会 強化学習

152

ドーパミンニューロンの観測

• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差 

http://www.wakosozai.com/

学習後

学習前

Page 152: 全脳アーキテクチャ若手の会 強化学習

153

ドーパミンニューロンの観測

• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差 

http://www.wakosozai.com/

報酬の「予測」に対して応答

Page 153: 全脳アーキテクチャ若手の会 強化学習

154

ドーパミンニューロンの観測

• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差 

http://www.wakosozai.com/

学習前

学習後

Page 154: 全脳アーキテクチャ若手の会 強化学習

155

ドーパミンニューロンの観測

• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差 

http://www.wakosozai.com/

ニューロン抑制

Page 155: 全脳アーキテクチャ若手の会 強化学習

156

この実験で分かったこと

• 線条体ではTD誤差のような振舞いがある?

実際にもらえた報酬

もらえるであろう報酬

Page 156: 全脳アーキテクチャ若手の会 強化学習

157

どのように行動選択しているのか

• 行動価値の観測  [Samejima et al , 2005]

サルの線条体ニューロンの観測 倒す方向によって貰える確率が変化

Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

Page 157: 全脳アーキテクチャ若手の会 強化学習

158

どのように行動選択しているのか

• 最初はランダムに選んでいた

• 次第に報酬が貰えそうな方に レバーを倒し始めた

Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

Page 158: 全脳アーキテクチャ若手の会 強化学習

159

どのように行動選択しているのか

• 最初はランダムに選んでいた

• 次第に報酬が貰えそうな方に レバーを倒し始めた

Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

状態に応じて最適な行動を選んでいる?

Page 159: 全脳アーキテクチャ若手の会 強化学習

160

ループ構造大脳皮質

ストリオゾーム   マトリックス

淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核

銅谷 賢治 , “ 計算神経科学への招待” より

視床

線条体

Page 160: 全脳アーキテクチャ若手の会 強化学習

161

大脳基底核のモデル化

鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核” 参考

大脳皮質

線条体

淡蒼球外節黒質網様部

視床

黒質

input output

Page 161: 全脳アーキテクチャ若手の会 強化学習

162

大脳基底核のモデル化

鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核” 参考

大脳皮質

線条体

淡蒼球外節黒質網様部

視床

黒質

input output

TD 誤差

Q (s,a) 算出

Page 162: 全脳アーキテクチャ若手の会 強化学習

163

第2部目次

1  問題設定

2  動的計画法 vs モンテカルロ法

3  TD学習、Q学習

4  脳との関連性

5  研究動向、まとめ

Page 163: 全脳アーキテクチャ若手の会 強化学習

164

強化学習の応用研究

• ヘルプから適切な操作の遂行   [Branavan et

al,2009]

Windows のヘルプを解釈し見合った操作を自律的に行う

Click run, and press OK.

Page 164: 全脳アーキテクチャ若手の会 強化学習

165

強化学習の応用研究

• ゲームへの応用( DQN )[Volodymyr et al,2015]

ゲーム画面4フレーム分を入力出力は動作

最初2層はCNN最適行動価値関数Q * への近似

  Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

Page 165: 全脳アーキテクチャ若手の会 強化学習

166

強化学習の応用研究

• 未学習データの検出および強化学習への応用[Osawa,Hagiwara,2015]

RBM,Deep Belief Network を用い長期スパンでの “戦略” の立案を可能にするようなモデルを提唱

状態、行動価値判定

Page 166: 全脳アーキテクチャ若手の会 強化学習

167

まだ見えてない部分

• 脳モデルについて– マルコフ性と仮定することは適切か– モデルフリーから経験でモデルベースにしている?

• 強化学習が「最も効率的」なのか?

Page 167: 全脳アーキテクチャ若手の会 強化学習

168

まとめ

• 強化学習のアルゴリズムを紹介– 動的計画法、モンテカルロ法– TD学習、Q学習– モデルベース、モデルフリー– 行動の選択( greedy, ε-greedy )

• 脳との関連性を紹介– 線条体にTD学習やQ学習のような振舞い

Page 168: 全脳アーキテクチャ若手の会 強化学習

169

主な参考文献[1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998

[2] 三上 貞芳 , 皆川 雅章 共訳 , “ 強化学習” ,  ( [1] の日本語版)

[3] 銅谷 賢治 , “計算神経科学への招待” , 2007

[4] 牧野 貴樹 , “ 強化学習をベイズで理解する” , 2014 ( スライド )

[5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

その他 多くの Web 上のスライド、記述、論文、書籍など

使用した脳の画像 : 3D-brain(free)

Page 169: 全脳アーキテクチャ若手の会 強化学習

170

ありがとうございました!