全脳アーキテクチャ若手の会強化学習

全脳アーキテクチャ　若手の会　勉強会

後援：ドワンゴ人工知能研究所

強化学習＝脳へのアプローチ＝

法政大学　理工学部　応用情報工学科川崎　雄介

　 [email protected]

2

自己紹介

　川崎　雄介

– 所属：法政大学　理工学部

– 出身：東京都　八丈島

– 研究：植物病自動診断

– 特技：少林寺拳法　　

3

身近になった人工知能

• Pepper (Aldebaran Robotics,Softbank 社 )

– 人間の声のトーンなどから感情認識

• 将棋電王戦 (niconico)

– 人間 vs コンピュータでの将棋– 人間１勝、コンピュータ４勝 (2014 第 3 回 )

4

身近になった人工知能

• 総務省　 2015 年 2 月

– インテリジェント化が加速する　 ICT の未来像に関する研究会

– 2045 年問題に関する議論　　　　人工知能が人間並みの知能を持つようになる？地点

– 政府機関によるこういった会議は異例

5

最近、こんなことが話題に• グーグル開発の人工知能 DQN 　ネットでは「命名事故？」「奇跡

的」　　　（ 2015 年 2 月 26 日 withnews , 抜粋 )

米国のＩＴ大手グーグルが、画期的な人工知能を開発した、と２６日号の科学情報誌「ネイチャー」（電子版）で発表しました。その名も「ＤＱＮ」。「ＤＱＮ（ドキュン）」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。　ネイチャー電子版によると、この人工知能（ＡＩ）は、グーグルの子会社「ディープマインド」のチームが開発しました。　他企業が開発している既存のＡＩは、単一の目的に特化されているものが多くありました。　それに対してＤＱＮは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。　たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。

6


的」　　　（ 2015 年 2 月 26 日 withnews , 抜粋 )


7


的」　　　（ 2015 年 2 月 26 日 withnews , 抜粋 )


このメカニズムを探る

8

話題にのぼることの多くなった人工知能。

今回は「強化学習」という枠組みから

発表させて頂きます。

ろぼみ

9

今回の講演につきまして

• 第１部– この分野に馴染みのない方向け– ざっくりとしたお話になります（数式なし）

• 第２部– この分野（情報系）の方向け– 数式を使って、可能な限り詳説します

何度か質問コーナー挟んでいきます！

10

　第１部

11

脳ってどんな構造なの？

• 各部位ごとの神経のネットワーク

　

前頭葉

側頭葉

頭頂葉

後頭葉

12

ネットワークの構成要素

• ニューロン（ Neuron ）

– 脳内の神経細胞

– 入力ー処理ー出力の機構

– 強い電気信号のみに発火

銅谷賢治 , “ 計算神経科学への招待”　より

細胞体(soma)

樹状突起 (dendrite)

軸索(axon)

13

脳を模してみよう

• McCulloch-Pitts モデル [Mcculloch,Pitts , 1943]

– ニューロンを真似た構造の実現

出力

14

脳を模してみよう

• パーセプトロン [Rosenblatt, 1958]

– 脳のネットワークのような構造– 任意の識別面も表現できるように [Rumenhert,1986]

多層パーセプトロン

15

　

じゃあ、何故　今になって再注目されてきたのか

16

しかし

• 計算リソースが足りなかった！– ここにきてハードウェアの発展

• 人間の表現力が高すぎた！– 大域的な最適解を出せない

17

しかし

• 計算リソースが足りなかった！– ここにきてハードウェアの発展

• 人間の表現力が高すぎた！– 大域的な最適解を出せない

ここに来てそれを打ち破る技術が誕生

Deep Learning

18

機械学習の春

• 一般物体認識コンテスト [Krizhevsky et al , 2012]

　大量の画像を読み込ませ　 1,000種類のクラス識別問題

　 error率 15.3%　　視覚野のような特徴を確認

　

Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012

19

機械学習の春

• Google の猫認識 [Quoc et al,2011]

　これが猫だと　教えずに　猫の概念を獲得

Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011

20

機械学習の春

• Deep Q-Network [Volodymyr et al,2015]

　コンピュータに「行動則」を学ばせる　

Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

21

本日のメイントピック

教師有り学習教師なし学習強化学習

22

スロットマシン（ k-armed bandit ）

４本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。

限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう？

23


４本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。

限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう？

強化学習における目標

24


• とりあえず一本ずつ引いてみる

A: 100

B: 50

C: 10

D: 1

25



A: 100

B: 50

C: 10

D: 1

26



A: 100

B: 50

C: 10

D: 1

もらえるご褒美は多い方がいい

（欲張り方策）

27


• もし次に出る額を知っていたら？

A: 100 (1)

B: 50 　 (10)

C: 10 (100)

D: 1 (500)

28


• １回引くたびに出る額が変わったら？

A: ？？？

B: ？？？

C: ？？？

D: ？？？

29

探索と知識利用

• 探索（ exploration ）

– 最終的に多くの報酬を貰いたい– あえて別の行動をとる

B

30


• 知識利用（ exploitation ）

– 今も貰えたならば次も貰える– 大きな報酬が期待できる行動をとる

A

31


• 探索 vs. 知識利用

– 相反する性質

– ずっと欲張らず違う腕も引いてみる– 最初は適当に、時間が経つにつれて欲張りに

– レバーを引く、という行動をどう選ぶのが最適？

32

強化学習と脳？

• 大脳基底核

– 大脳皮質の内側の器官

– ここが強化学習に　関わっているのでは？

　２部の後半で　紐解いていきます

33

強化学習で何ができそうか？

• 被災地の復興支援ロボット– 自ら危険なところを回避し人を探す、情報を送る

• 介護ロボット– 介護の現場での運用

• 病気の解析– コンピュータでシミュレート出来るか？– パーキンソン病などの治療への足掛かり？

34

第１部のまとめ

• 人工知能分野の春– 計算資源確立、ヒトの表現力の突破

• 脳と似た振舞いを持つ？– コンピュータも脳のような振舞いを見せた

• 強化学習の導入– 多くのご褒美を得ることが目標– k-armed bandit 問題

35

宣伝

★ 全脳アーキテクチャ若手の会

　全脳アーキテクチャ達成に貢献することが本会の目的です。　　研究者のみならず、専門外の方でも積極的に　ご参加いただき、多くの方が自分なりに力を　発揮していただける環境を作っていきたいと思っています。

　　ホームページ： http://wbawakate.jp/　 facebook:https://www.facebook.com/groups/713921892010595/

http://wbawakate.jp/




https://www.facebook.com/groups/713921892010595/




36

　第２部

37

第２部目次

1 　問題設定

2 　動的計画法 vs モンテカルロ法

3 　ＴＤ学習、Ｑ学習

4 　脳との関連性

5 　研究動向、まとめ

38

第２部目次

1 　問題設定





39

強化学習の位置づけ• 教師あり学習

– 正解付のデータから規則を算出– ILSVRC2012 ( 一般物体認識 )

• 教師なし学習– 膨大なデータから規則を算出– Google の猫認識

• 強化学習– ある行動に対する「ご褒美」から規則を算出– Deep Q Network

40

用語の定義

• エージェント（ agent ）– 動作する主体のこと– 人間、ロボット、 etc

41

用語の定義

• 環境（ environment ）– エージェントが動作する空間のこと

環　　境

42

用語の定義

• 状態（ states ）– 現在エージェントが置かれている状態– 　：時刻ｔでの状態

環　　境

43

用語の定義

• 行動（ action ）– エージェントが環境に対して働きかける動作– 　：時刻ｔでのエージェントの行動

環　　境

44

用語の定義

• 報酬（ rewards ）– 取ったその行動がどの程度良かったか

環　　境

45

用語の定義

再び状態が与えられ、行動選択に戻るこのループ

環　　境

46

用語の定義

• 方策（ policy ）– ある状態においてのエージェントの行動規則– 　　　：状態ｓで行動ａをとる確率

環　　境

47

• 以下本発表においては

– ｓ：任意の状態– ａ：任意の行動– π ：任意の方策– ｔ：ステップ数– Pr ：確率– Ｐ：確率の集合– Ｒ：報酬の集合– Ａ：行動の集合

49

具体的に

　状態ｓ：Ａ～Ｆ

　行動ａ： {down,right}

　方策 π ： ( Ａ , down ) （Ｃ , right ）

　報酬ｒ：　　　　Ｃが持つ価値

　　（後述）環境

Ｂ

ＤＣ

ＥＦ

Ａ

ＳＴＡＲＴ

ＧＯＡＬ

50

タスクの種類

• 連続タスク（ continuing tasks ）– 有限時間内でタスクの終了が保障されない– ロボットの実問題への適用など

• エピソード的タスク（ episode tasks ）– 有限時間内で１つのタスクが終了– 迷路の解の算出など– 今回はこちらメイン

51

マルコフ性（ Markov property ）

• 以前までに得た情報を保持できるような過程

– １段階前の状態からの判断で、後続の状態を　判断しても遜色がない

52

マルコフ決定過程（ Markov Decision Process ）

• MDP

• マルコフ過程に「意思決定＝行動ａの選択」を　付与したもの

• 強化学習全般がこの理論をベースにしている

53

強化学習の目標

• 累積報酬の最大化

エージェントの報酬をタスク終了時に最大にする

54

強化学習の目標



エージェントの「今おかれた立場の価値」＝　状態価値「そこでの各振舞の価値」＝　行動価値

を評価する

55

状態に価値を設定する

• 状態の価値？– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか

56

状態に価値を設定する

• 状態の価値？– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか

• 状態価値関数（ state-value function for policy π ）

期待値

57

行動に価値を設定する

• 行動の価値？– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか

58

行動に価値を設定する

• 行動の価値？– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか

• 行動価値関数（ action-value function for policy π ）

期待値

59

状態と行動の価値の関連性

• ＶとＱの関係性

　状態価値関数は、行動価値関数の方策固定版

　「その場の状況のみで」判断するのか？　「そこでの行動も同時に」判断するのか？

60

γ ？

61

割引率

• 割引率（ discount rate ） γ

– 遠い先の報酬を割引くための定数 (0 <= γ <= 1)

– 0 なら即時報酬のみ– 1 なら先々の報酬も同様に考慮

• イメージ– 10,000円を今貰うか？　 11,000円を一年後貰うか？

62

強化学習の目標（再掲）



63

強化学習の目標（再掲）



価値関数を最大にする方策の発見

64

Bellman方程式

• 累積報酬＝即時報酬＋その先の期待報酬　　　　　　　　と解釈したもの

つまり以下で定式化できる

65

Bellman方程式の再帰性

ｓ：　現在の状態　　ｓ’ : 　次の状態ａ：　行動　P ：　状態ｓで行動ａを取ってｓ‘に遷移する確率集合R : 〃　　報酬集合π(s,a) ：　状態ｓで行動ａを取る確率

66

Bellman方程式の再帰性

即時報酬期待報酬

即時報酬期待報酬

Ｖ、Ｑの再帰的表現

67

１節まとめ

• 強化学習の目標– 累積報酬の最大化　価値関数の設定

• マルコフ性– 得られるものは全て以前までの情報の集大成

68

第２部目次

1 　問題設定





69

動的計画法とは？

• 動的計画法（ Dynamic Programming ）

– 環境の完全なモデルを持つ（モデルベース）

– 後続の価値を現在の価値に従って更新

– 厳密な最適解　　　　　が求まる　（理論的には）

– ベルマン方程式を厳密に解く方法

70

モデルベース

• イメージ：地図を持っている！

そこへ至る経路や報酬は既知

あとは最適経路を計算するだけ！

Ｂ

ＤＣ

ＥＦ

Ａ

71

動的計画法の流れ

①　各状態、その状態で取りうる方策の初期化

②　ある方策を選ぶ

③　各状態においての状態価値をひたすら計算

④　方策が最適か確かめる

72


③　各状態においての状態価値をひたすら計算

　　　　　　　　　　　　　　

④　方策が最適か確かめる

　　　　　　　　　　（よりよい方策が無いか？）

73

方策改善定理

• ある方策と価値関数を考える– よりよい価値が得られるように更新

greedy 方策

④ の更新式と同値

改善後方策

74

greedy方策

• より多くの報酬を得ようとする行動選択法

s0 s1 s2

10 20

20 10

緑緑

75

greedy方策

• より多くの報酬を得ようとする行動選択法

s0 s1 s2

10 20

20 10

赤緑

76

方策改善定理

• ある方策と価値関数を考える– よりよい価値が得られるように更新

– 必ず最適解に収束すると知られている

77


　　　　　　　　　　 ①　初期化

　Ａ～Ｆの価値を　任意の値で初期化

Ｂ

ＤＣ

ＥＦ

Ａ

78


　　　　　　　　　　 ②　方策選択

　どのようにＦに　辿り着くかを選ぶ

（赤が最適とします）

Ｂ

ＤＣ

ＥＦ

Ａ

79


　　　　　　　　　　 ②　方策選択

　方策緑を選ぶ　 (A,right) (B,down) (D,down)

Ｂ

ＤＣ

ＥＦ

Ａ

80


　　　　　　　　　　 ③　計算

　②の方策に従い、　全ての状態価値を計算

　（方策上ありえない　　箇所も計算する）

Ｂ

ＤＣ

ＥＦ

Ａ

81


　　　　　　　　　　 ④　確認

　選んだ方策は本当に　 greedy な方策か

　否！

　

Ｂ

ＤＣ

ＥＦ

Ａ

82


　　　　　　　　　　 ②　方策選択

　方策赤を選ぶ　 (A,down) (C,right ） (D,down)

Ｂ

ＤＣ

ＥＦ

Ａ

83


　　　　　　　　　　 ③　計算

　同様に全て計算　　この際、方策緑の　計算結果を利用する

　状態 C では D の状態価値が　　　　　　　利用できる

Ｂ

ＤＣ

ＥＦ

Ａ

84


　　　　　　　　　　 ④　確認

　選んだ方策は本当に　 greedy な方策か

　是 !

　

Ｂ

ＤＣ

ＥＦ

Ａ

85


　　　　　　　　　　ようやく移動。Ｂ

ＤＣ

ＥＦ

Ａ

86

バックアップ線図（ Backup Diagram ）

　更新時に関わる情報を　図式化したもの

　　　：状態ｓ　　　：行動ａ

：各ｓの更新時　　　　必要な情報の　　　　範囲

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ

87

動的計画法のバックアップ線図

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ

　　　：状態ｓ　　　：行動ａ：各ｓの更新時　　　　必要な情報の　　　　範囲

88

動的計画法のバックアップ線図

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ


89

動的計画法の難点

• 必ず最適解に辿り着くけど・・・

• 計算量が多い！– 状態数が増えると現実的には計算不可

• モデルを持たないと使えない！– 実際はそれがふつう

– モデルなしで知的な　エージェントを実現したい

90

モンテカルロ法とは？

• モンテカルロ法（ Monte Carlo method ）

– 環境のモデルを一切持たない（モデルフリー）

– 「エピソード」を多数生成し、試行錯誤する

– 方策オン／オフ

91

モデルフリー

• イメージ：情報なにもなし！

何もわからない　のでとりあえず行ってみるしかない

判断基準は「ゴールにいるか」ただひとつ

Ｂ

ＤＣ

ＥＦ

Ａ

92

エピソード

• エピソード（ episode ）

– 始点から終点までの状態ｓ、行動ａ、報酬ｒの列　

Ｂ

ＤＣ

ＥＦ

ＡA→r→b→B→d→d→D→d→f→F

93

動的計画法 vs モンテカルロ法

• 動的計画法– 「先読み」が可能– 次に貰える報酬と、次の状態が利用可能！– 「今の状態価値」だけで十分

• モンテカルロ法– 「先読み」が不可– 「今の状態価値」＋「そこでとる行動」セット評価

94

モンテカルロ法の流れ

以下を繰り返す　①　エピソードを生成

　②　エピソード中の「ある状態のある行動」　　　についての報酬を積算、平均　　③　各状態で　　　　が最大となる方策を選ぶ

95


　　　　　　　　　　 ①　エピソード生成

Ｂ

ＤＣ

ＥＦ

Ａ

A→r→b→B→d→d→D→d→f→F

96


　　　　　　　　　　 ②　報酬の積算、平均

Ｂ

ＤＣ

ＥＦ

Ａ

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

97


　　　　　　　　　　 ③　最大の行動価値に　　従って方策の更新　

　　

Ｂ

ＤＣ

ＥＦ

Ａ

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

98


　　　　　　　　　　 ①　エピソード生成

Ｂ

ＤＣ

ＥＦ

Ａ

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3

A→d→c→B→r→d→D→d→f→F

99


　　　　　　　　　　 ②　報酬の積算、平均　

Ｂ

ＤＣ

ＥＦ

Ａ

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3(c+d+f)/3

(c+d+f)/3

(c+d+f)/3

100


　　　　　　　　　　 ③　最大の行動価値に　　従って方策の更新　

　　緑より赤の方が　　　　　　良い報酬！

Ｂ

ＤＣ

ＥＦ

Ａ

(b+d+f)/3 (b+d+f)/3

(b+d+f)/3(c+d+f)/3

(c+d+f)/3

(c+d+f)/3

101

モンテカルロ法のバックアップ線図

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ


102

モンテカルロ法のバックアップ線図

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ


103

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ

A

ＢＣ

Ｄ

Ｆ

Ｄ

Ｆ

Ｅ

Ｆ

動的計画法モンテカルロ法

104

ホントにいいのか？

• 実はとんでもない仮定

　　「全ての状態 - 行動が無限回訪問される」

　こんなの絶対おかしい

　　

105


106


• 実はとんでもない仮定

　　「全ての状態 - 行動が無限回訪問される」

　

エピソードはランダムに生成し、各回 greedy な行動

実際は「もっといい行動がある」可能性があるのに訪問しない（十分な「探索」が行われない）

107

モンテカルロ法の種類

• モンテカルロＥＳ法– 全ての状態、行動が確認されると仮定

• 方策オン型モンテカルロ法– 少し危ない橋を渡らせる

• 方策オフ型モンテカルロ法– 挙動方策と推定方策

108





109

方策オンと方策オフ

• 方策オン型

– 行動を選ぶ方策　そのものを評価、改善

• 方策オフ型

– 行動を選ぶ方策とは別に、評価用の方策を用意

110





111

方策オン型モンテカルロ

• 危ない橋を渡らせる？

問題点：　更新ごと、報酬を良くしようとする為　訪問されない状態ー行動が出てくること　　わずかな確率でも、そのルートを選ばせたい！

112


• ε-greedy 手法

– ある確率 ε で非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ

113




114




115


非 greedy greedy

116





117

方策オフ型モンテカルロ法

• ２つの方策を考える

– 挙動方策（ behavior policy ）　 π’ エージェントが可能な行動の観測を行う

– 推定方策（ estimation policy ） π　　実際にエージェントを行動させる

色々な状態ー行動を見つつ、 greedy な探索が出来る！

118


　各方策を与える（状態、行動、報酬）　

A→r→b→B→r→d→D→d→f

A→d→c→C→r→d→D→d→f

π

π’

Ｂ

ＤＣ

ＥＦ

Ａ

119


　　各方策を与える（状態、行動、報酬）

[ A,r,b,B,d,d,D,d,f ]

この時の行動価値を両者計算　 > なら方策変更

π

π’

Ｂ

ＤＣ

ＥＦ

Ａ

π’ π

A→r→b→B→r→d→D→d→f

A→d→c→C→r→d→D→d→f

120

２節まとめ

• 動的計画法（ DP ）– モデルベース– 各状態価値をあらかじめ全て計算– 必ず最適解に辿り着くが　現実的ではない

• モンテカルロ法– モデルフリー– 様々な経験則から最適行動価値関数を見積もる– 方策オン型／方策オフ型　

121

第２部目次

1 　問題設定





122

ＴＤ学習とは

• 現在の源流となる強化学習手法の祖

– Bellman方程式の近似

– 動的計画法のように「以前の結果を利用」

– モンテカルロ法のように「環境のモデルが不要」

123

ＴＤ学習とは

• TD 学習（ Temporal Difference Learning ）

– その場更新型のモンテカルロ法– 今の状態と次の状態の報酬を最大化

• α ：更新率（ 0<α<=1 ）「今を大事にするか」 α≈ 0「次を大事にするか」 α≈ 1

124

モンテカルロ法との違い

• モンテカルロ法

– 各エピソードの報酬の和だけ見る– エピソード終端まで更新が不可

• TD 学習

– １回１回そこで得られる報酬を使う– 最短、次の状態の予測までで更新可

・・・

！

125

一体何がすごいのか

• 報酬と次の状態のモデルを必要としない

– モデルフリー– 「次の状態」はエピソード毎に記憶する

• モンテカルロ法より早い！– 問題が複雑になればなるほど、モンテカルロ法は　更新に時間がかかる　（短ければ良い）

126

ＴＤ学習の流れ

①　各状態価値 V(s) を任意に初期化　評価する π を設定

以下各エピソード毎にループ

②　エピソードの各ステップ毎に・ π で与えられる行動 a をとって r,s’ を観測・ s （行動前）の状態価値 V(s) を更新

・次状態 s ’ へ移行　　 s’ が終端状態なら次のエピソードへ移行

127


　　　　　　　 ①　初期化

　各状態価値を初期化

　方策緑を評価

　 γ=1

Ｂ

ＤＣ

ＥＦ

Ａ

128


　　　　　　　 ②　行動

　方策 π ＝緑に従い　行動 a=right をとる

　報酬 b と次状態Ｂを　観測　

Ｂ

ＤＣ

ＥＦ

Ａ

b

129


　　　　　　　 ②　 V(s)更新

　状態価値を設定

　エージェントが移動

Ｂ

ＤＣ

ＥＦ

Ａ

α*b

130


　　　　　　　 ②　終端まで確認

　続いて方策赤を評価

Ｂ

ＤＣ

ＥＦ

Ａ

α*b α*d

α*f

131


　　　　　　　 ②　行動

　方策 π ＝赤に従い　行動 a=down をとる

　報酬 c と次状態Ｃを　観測

　

Ｂ

ＤＣ

ＥＦ

Ａ

α*b α*d

α*f

c

132


　　　　　　　Ｂ

ＤＣ

ＥＦ

Ａ

new α*d

α*f

②　 V(s)更新

　状態価値を設定先ほどの状態価値利用

　エージェントが移動

133


　　　　　　　Ｂ

ＤＣ

ＥＦ

Ａ

new α*d

new

②　終端まで確認　

　以上繰り返して、　最適な方策を探す

α*d

134

DQN 　の　 Q 　！

• Q 学習（ Q-learning ）

– ある行動をとったら、その時の自分はどうなるか？

– 方策オフ型の TD 学習と考えられる

– 現代の強化学習のメイン

135

Q 学習を数式で見る

• 行動価値関数の最適化を目指す

– １ステップごとに現在の方策を改善する

– α ：学習率　　「今を大事に」ー「次を大事に」の Trade-off

次状態が最適な行動の選択

136

ＴＤ学習とＱ学習の違い

• ＴＤ学習– 状態価値に従って更新– 方策に従って遷移した先の評価値のみ見る

• Ｑ学習– 行動価値に従って更新– 方策とは関係なしに、複数の評価値を見る

137

Q 学習の流れ

① 各行動価値 Q(s,a) を任意に初期化　評価する π を設定

以下各エピソード毎にループ

②　エピソードの各ステップ毎に・ Q で与えられる行動 a をとって r,s’ を観測・ s （行動前）の状態価値 V(s) を更新

・次状態 s ’ へ移行　　 s’ が終端状態なら次のエピソードへ移行

138

Q 学習の流れ

　　　　　　　 ①　初期化

　各状態価値を初期化

　方策緑を評価

　 γ=1

Ｂ

ＤＣ

ＥＦ

Ａ

139

Q 学習の流れ

　　　　　　　 ②　行動価値から選択

b と c どちらが良いか？

効率よく試行錯誤する

Ｂ

ＤＣ

ＥＦ

Ａ

b

dc

ef

d

140

Q 学習の流れ

　　　　　　　 ②　行動価値から選択

方策赤における d と eはどちらが良いか？

効率よく試行錯誤する

Ｂ

ＤＣ

ＥＦ

Ａ

b

dc

ef

d

141

動的計画法モンテカルロ法 TD 学習Ｑ学習

モデル必要不要不要不要

主な

更新対象

状態価値関数

Ｖ ( ｓ )

行動価値関数

Ｑ ( ｓ，ａ )

状態価値関数

Ｖ ( ｓ )

行動価値関数

Ｑ ( ｓ，ａ )

概要

全ての状態を

総当たり計算

計算量が多い

エピソードから

価値関数推測

行動選択の方法

エピソードの

1 ステップ毎に

状態価値更新

次の行動報酬が

最も良くなるよ

う選択

BackupDiagram

142

第２部目次

1 　問題設定





143

強化学習と脳

• 強化学習を脳がしている？

　　

144

注目箇所

• 大脳基底核（ Basal Ganglia ）

145

注目箇所

• 大脳基底核（ Basal Ganglia ）尾状核

淡蒼球

被殻

線条体

黒質

視床下核

146

各部位の働き

• 線条体– 運動機能、意思決定

• 淡蒼球– 報酬予測

• 黒質– ドーパミンの放出

• 視床下核– 運動の調整

147

ループ構造大脳皮質

ストリオゾーム　　　マトリックス

淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核


視床

線条体

148


淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核


視床

大脳皮質～基底核ループ

ストリオゾーム　　　マトリックス線条体

大脳皮質～基底核ループ

149



淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核


視床

線条体

150

ドーパミンニューロンの観測

• 予測と報酬の神経回路　 [Schultz et al, 1997]

ランプの点灯に従ってレバーを操作するとジュース（報酬）が貰える

この時のサルの線条体ドーパミンニューロンを計測

　

http://www.wakosozai.com/

151


• 予測と報酬の神経回路　 [Schultz et al, 1997]

ランプの点灯に従ってレバーを操作するとジュース（報酬）が貰える

この時のサルの線条体ドーパミンニューロンを計測

　


152


• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差　


学習後

学習前

153


• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差　


報酬の「予測」に対して応答

154


• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差　


学習前

学習後

155


• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差　


ニューロン抑制

156

この実験で分かったこと

• 線条体ではＴＤ誤差のような振舞いがある？

実際にもらえた報酬

もらえるであろう報酬

157

どのように行動選択しているのか

• 行動価値の観測　 [Samejima et al , 2005]

サルの線条体ニューロンの観測倒す方向によって貰える確率が変化

Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005

158


• 最初はランダムに選んでいた

• 次第に報酬が貰えそうな方に　レバーを倒し始めた


159


• 最初はランダムに選んでいた

• 次第に報酬が貰えそうな方に　レバーを倒し始めた


状態に応じて最適な行動を選んでいる？

160



淡蒼球外節

黒質緻密部

腹側被蓋野

淡蒼球内節

黒質網様部

視床下核


視床

線条体

161

大脳基底核のモデル化

鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核”　参考

大脳皮質

線条体

淡蒼球外節黒質網様部

視床

黒質

input output

162

大脳基底核のモデル化

鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核”　参考

大脳皮質

線条体

淡蒼球外節黒質網様部

視床

黒質

input output

TD 誤差

Ｑ (s,a) 算出

163

第２部目次

1 　問題設定





164

強化学習の応用研究

• ヘルプから適切な操作の遂行　 [Branavan et

al,2009]

Windows のヘルプを解釈し見合った操作を自律的に行う

Click run, and press OK.

165


• ゲームへの応用（ DQN ）[Volodymyr et al,2015]

ゲーム画面４フレーム分を入力出力は動作

最初２層はＣＮＮ最適行動価値関数Ｑ * への近似

　 Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

166


• 未学習データの検出および強化学習への応用[Osawa,Hagiwara,2015]

RBM,Deep Belief Network を用い長期スパンでの “戦略” の立案を可能にするようなモデルを提唱

状態、行動価値判定

167

まだ見えてない部分

• 脳モデルについて– マルコフ性と仮定することは適切か– モデルフリーから経験でモデルベースにしている？

• 強化学習が「最も効率的」なのか？

168

まとめ

• 強化学習のアルゴリズムを紹介– 動的計画法、モンテカルロ法– ＴＤ学習、Ｑ学習– モデルベース、モデルフリー– 行動の選択（ greedy, ε-greedy ）

• 脳との関連性を紹介– 線条体にＴＤ学習やＱ学習のような振舞い

169

主な参考文献[1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998

[2] 三上貞芳 , 皆川雅章共訳 , “ 強化学習” , 　（ [1] の日本語版）

[3] 銅谷賢治 , “計算神経科学への招待” , 2007

[4] 牧野貴樹 , “ 強化学習をベイズで理解する” , 2014 ( スライド )

[5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015

その他　多くの Web 上のスライド、記述、論文、書籍など

使用した脳の画像 : 3D-brain(free)

170

ありがとうございました！

全脳アーキテクチャ若手の会 強化学習

Technology

全脳アーキテクチャ若手の会強化学習