全脳アーキテクチャ若手の会 強化学習
TRANSCRIPT
2
自己紹介
川崎 雄介
– 所属:法政大学 理工学部
– 出身:東京都 八丈島
– 研究:植物病自動診断
– 特技:少林寺拳法
3
身近になった人工知能
• Pepper (Aldebaran Robotics,Softbank 社 )
– 人間の声のトーンなどから感情認識
• 将棋電王戦 (niconico)
– 人間 vs コンピュータでの将棋– 人間1勝、コンピュータ4勝 (2014 第 3 回 )
4
身近になった人工知能
• 総務省 2015 年 2 月
– インテリジェント化が加速する ICT の未来像に関する研究会
– 2045 年問題に関する議論 人工知能が人間並みの知能を持つようになる?地点
– 政府機関によるこういった会議は異例
5
最近、こんなことが話題に• グーグル開発の人工知能 DQN ネットでは「命名事故?」「奇跡
的」 ( 2015 年 2 月 26 日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。
6
最近、こんなことが話題に• グーグル開発の人工知能 DQN ネットでは「命名事故?」「奇跡
的」 ( 2015 年 2 月 26 日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。
7
最近、こんなことが話題に• グーグル開発の人工知能 DQN ネットでは「命名事故?」「奇跡
的」 ( 2015 年 2 月 26 日 withnews , 抜粋 )
米国のIT大手グーグルが、画期的な人工知能を開発した、と26日号の科学情報誌「ネイチャー」(電子版)で発表しました。その名も「DQN」。「DQN(ドキュン)」とは、「知的水準が低く、常識がない」という意味の日本のネットスラング。グーグル肝いりのプロジェクトだけに、世界中のネットユーザーの間で「ドキュン」が浸透するかもしれません。 ネイチャー電子版によると、この人工知能(AI)は、グーグルの子会社「ディープマインド」のチームが開発しました。 他企業が開発している既存のAIは、単一の目的に特化されているものが多くありました。 それに対してDQNは、「得点が最大になるような行動を選ぶ」「データから対象物の特徴をとらえる」などの学習機能を組み合わせることで、様々な課題にゼロから取り組んで成果を上げられるのが特徴です。 たとえばゲームの場合なら、遊びながら自動学習し、攻略法を編み出して上手くなっていくそうです。
このメカニズムを探る
8
話題にのぼることの多くなった人工知能。
今回は「強化学習」という枠組みから
発表させて頂きます。
ろぼみ
9
今回の講演につきまして
• 第1部– この分野に馴染みのない方向け– ざっくりとしたお話になります(数式なし)
• 第2部– この分野(情報系)の方向け– 数式を使って、可能な限り詳説します
何度か質問コーナー挟んでいきます!
10
第1部
11
脳ってどんな構造なの?
• 各部位ごとの神経のネットワーク
前頭葉
側頭葉
頭頂葉
後頭葉
12
ネットワークの構成要素
• ニューロン( Neuron )
– 脳内の神経細胞
– 入力ー処理ー出力の機構
– 強い電気信号のみに発火
銅谷 賢治 , “ 計算神経科学への招待” より
細胞体(soma)
樹状突起 (dendrite)
軸索(axon)
13
脳を模してみよう
• McCulloch-Pitts モデル [Mcculloch,Pitts , 1943]
– ニューロンを真似た構造の実現
出力
14
脳を模してみよう
• パーセプトロン [Rosenblatt, 1958]
– 脳のネットワークのような構造– 任意の識別面も表現できるように [Rumenhert,1986]
多層パーセプトロン
15
じゃあ、何故 今になって再注目されてきたのか
16
しかし
• 計算リソースが足りなかった!– ここにきてハードウェアの発展
• 人間の表現力が高すぎた!– 大域的な最適解を出せない
17
しかし
• 計算リソースが足りなかった!– ここにきてハードウェアの発展
• 人間の表現力が高すぎた!– 大域的な最適解を出せない
ここに来てそれを打ち破る技術が誕生
Deep Learning
18
機械学習の春
• 一般物体認識コンテスト [Krizhevsky et al , 2012]
大量の画像を読み込ませ 1,000種類のクラス識別問題
error率 15.3% 視覚野のような特徴を確認
Krizhevsky et al, “Imagenet Classification with Deep Convolutional Neural Network,” 2012
19
機械学習の春
• Google の猫認識 [Quoc et al,2011]
これが猫だと 教えずに 猫の概念を獲得
Quoc et al, “Building High-level Features Using Large Scale Unsupervised Learning,” 2011
20
機械学習の春
• Deep Q-Network [Volodymyr et al,2015]
コンピュータに「行動則」を学ばせる
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
21
本日のメイントピック
教師有り学習 教師なし学習 強化学習
22
スロットマシン( k-armed bandit )
4本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう?
23
スロットマシン( k-armed bandit )
4本の腕がある無料スロットマシンがあります。それぞれの腕毎に出てくる賞金が違います。
限られた回数で多くの賞金を得るためには、どのように腕を選ぶのが良いでしょう?
強化学習における目標
24
スロットマシン( k-armed bandit )
• とりあえず一本ずつ引いてみる
A: 100
B: 50
C: 10
D: 1
25
スロットマシン( k-armed bandit )
• とりあえず一本ずつ引いてみる
A: 100
B: 50
C: 10
D: 1
26
スロットマシン( k-armed bandit )
• とりあえず一本ずつ引いてみる
A: 100
B: 50
C: 10
D: 1
もらえるご褒美は多い方がいい
(欲張り方策)
27
スロットマシン( k-armed bandit )
• もし次に出る額を知っていたら?
A: 100 (1)
B: 50 (10)
C: 10 (100)
D: 1 (500)
28
スロットマシン( k-armed bandit )
• 1回引くたびに出る額が変わったら?
A: ???
B: ???
C: ???
D: ???
29
探索と知識利用
• 探索 ( exploration )
– 最終的に多くの報酬を貰いたい– あえて別の行動をとる
B
30
探索と知識利用
• 知識利用 ( exploitation )
– 今も貰えた ならば 次も貰える– 大きな報酬が期待できる行動をとる
A
31
探索と知識利用
• 探索 vs. 知識利用
– 相反する性質
– ずっと欲張らず違う腕も引いてみる– 最初は適当に、時間が経つにつれて欲張りに
– レバーを引く、という行動をどう選ぶのが最適?
32
強化学習と脳?
• 大脳基底核
– 大脳皮質の内側の器官
– ここが強化学習に 関わっているのでは?
2部の後半で 紐解いていきます
33
強化学習で何ができそうか?
• 被災地の復興支援ロボット– 自ら危険なところを回避し人を探す、情報を送る
• 介護ロボット– 介護の現場での運用
• 病気の解析– コンピュータでシミュレート出来るか?– パーキンソン病などの治療への足掛かり?
34
第1部のまとめ
• 人工知能分野の春– 計算資源確立、ヒトの表現力の突破
• 脳と似た振舞いを持つ?– コンピュータも脳のような振舞いを見せた
• 強化学習の導入– 多くのご褒美を得ることが目標– k-armed bandit 問題
35
宣伝
★ 全脳アーキテクチャ若手の会
全脳アーキテクチャ達成に貢献することが本会の目的です。 研究者のみならず、専門外の方でも積極的に ご参加いただき、多くの方が自分なりに力を 発揮していただける環境を作っていきたいと思っています。
ホームページ: http://wbawakate.jp/ facebook:https://www.facebook.com/groups/713921892010595/
36
第2部
37
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
38
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
39
強化学習の位置づけ• 教師あり学習
– 正解付のデータから規則を算出– ILSVRC2012 ( 一般物体認識 )
• 教師なし学習– 膨大なデータから規則を算出– Google の猫認識
• 強化学習– ある行動に対する「ご褒美」から規則を算出– Deep Q Network
40
用語の定義
• エージェント( agent )– 動作する主体のこと– 人間、ロボット、 etc
41
用語の定義
• 環境( environment )– エージェントが動作する空間のこと
環 境
42
用語の定義
• 状態( states )– 現在エージェントが置かれている状態– :時刻tでの状態
環 境
43
用語の定義
• 行動( action )– エージェントが環境に対して働きかける動作– :時刻tでのエージェントの行動
環 境
44
用語の定義
• 報酬 ( rewards )– 取ったその行動がどの程度良かったか
環 境
45
用語の定義
再び状態が与えられ、行動選択に戻るこのループ
環 境
46
用語の定義
• 方策( policy )– ある状態においてのエージェントの行動規則– :状態sで行動aをとる確率
環 境
47
• 以下本発表においては
– s:任意の状態– a:任意の行動– π :任意の方策– t:ステップ数– Pr :確率– P:確率の集合– R:報酬の集合– A:行動の集合
49
具体的に
状態s:A~F
行動a: {down,right}
方策 π : ( A , down ) (C , right )
報酬r: Cが持つ価値
(後述)環境
B
DC
E F
A
START
GOAL
50
タスクの種類
• 連続タスク ( continuing tasks )– 有限時間内でタスクの終了が保障されない– ロボットの実問題への適用など
• エピソード的タスク( episode tasks )– 有限時間内で1つのタスクが終了– 迷路の解の算出など– 今回はこちらメイン
51
マルコフ性( Markov property )
• 以前までに得た情報を保持できるような過程
– 1段階前の状態からの判断で、後続の状態を 判断しても遜色がない
52
マルコフ決定過程( Markov Decision Process )
• MDP
• マルコフ過程に「意思決定=行動aの選択」を 付与したもの
• 強化学習全般がこの理論をベースにしている
53
強化学習の目標
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
54
強化学習の目標
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
エージェントの「今おかれた立場の価値」= 状態価値「そこでの各振舞の価値」= 行動価値
を評価する
55
状態に価値を設定する
• 状態の価値?– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか
56
状態に価値を設定する
• 状態の価値?– ある状態の期待報酬– その状態でどの程度最終的にご褒美が期待できるか
• 状態価値関数( state-value function for policy π )
期待値
57
行動に価値を設定する
• 行動の価値?– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか
58
行動に価値を設定する
• 行動の価値?– ある状態である行動をすることの期待報酬– ここでこれするとどの程度ご褒美が期待できるか
• 行動価値関数( action-value function for policy π )
期待値
59
状態と行動の価値の関連性
• VとQの関係性
状態価値関数は、行動価値関数の方策固定版
「その場の状況のみで」判断するのか? 「そこでの行動も同時に」判断するのか?
60
γ ?
61
割引率
• 割引率( discount rate ) γ
– 遠い先の報酬を割引くための定数 (0 <= γ <= 1)
– 0 なら即時報酬のみ– 1 なら先々の報酬も同様に考慮
• イメージ– 10,000円を今貰うか? 11,000円を一年後貰うか?
62
強化学習の目標(再掲)
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
63
強化学習の目標(再掲)
• 累積報酬の最大化
エージェントの報酬をタスク終了時に最大にする
価値関数を最大にする方策の発見
64
Bellman方程式
• 累積報酬= 即時報酬+その先の期待報酬 と解釈したもの
つまり以下で定式化できる
65
Bellman方程式の再帰性
s: 現在の状態 s’ : 次の状態a: 行動 P : 状態sで行動aを取ってs‘に遷移する確率集合R : 〃 報酬集合π(s,a) : 状態sで行動aを取る確率
66
Bellman方程式の再帰性
即時報酬 期待報酬
即時報酬 期待報酬
V、Qの再帰的表現
67
1節まとめ
• 強化学習の目標– 累積報酬の最大化 価値関数の設定
• マルコフ性– 得られるものは全て以前までの情報の集大成
68
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
69
動的計画法とは?
• 動的計画法( Dynamic Programming )
– 環境の完全なモデルを持つ(モデルベース)
– 後続の価値を現在の価値に従って更新
– 厳密な最適解 が求まる (理論的には)
– ベルマン方程式を厳密に解く方法
70
モデルベース
• イメージ:地図を持っている!
そこへ至る経路や報酬は既知
あとは最適経路を計算するだけ!
B
DC
E F
A
71
動的計画法の流れ
① 各状態、その状態で取りうる方策の初期化
② ある方策を選ぶ
③ 各状態においての状態価値を ひたすら 計算
④ 方策が最適か確かめる
72
動的計画法の流れ
③ 各状態においての状態価値を ひたすら 計算
④ 方策が最適か確かめる
(よりよい方策が無いか?)
73
方策改善定理
• ある方策と価値関数を考える– よりよい価値が得られるように更新
greedy 方策
④ の更新式と同値
改善後方策
74
greedy方策
• より多くの報酬を得ようとする行動選択法
s0 s1 s2
10 20
20 10
緑 緑
75
greedy方策
• より多くの報酬を得ようとする行動選択法
s0 s1 s2
10 20
20 10
赤 緑
76
方策改善定理
• ある方策と価値関数を考える– よりよい価値が得られるように更新
– 必ず最適解に収束すると知られている
77
動的計画法の流れ
① 初期化
A~Fの価値を 任意の値で初期化
B
DC
E F
A
78
動的計画法の流れ
② 方策選択
どのようにFに 辿り着くかを選ぶ
(赤が最適とします)
B
DC
E F
A
79
動的計画法の流れ
② 方策選択
方策緑を選ぶ (A,right) (B,down) (D,down)
B
DC
E F
A
80
動的計画法の流れ
③ 計算
②の方策に従い、 全ての状態価値を計算
(方策上ありえない 箇所も計算する)
B
DC
E F
A
81
動的計画法の流れ
④ 確認
選んだ方策は本当に greedy な方策か
否!
B
DC
E F
A
82
動的計画法の流れ
② 方策選択
方策赤を選ぶ (A,down) (C,right ) (D,down)
B
DC
E F
A
83
動的計画法の流れ
③ 計算
同様に全て計算 この際、方策 緑 の 計算結果を利用する
状態 C では D の状態価値が 利用できる
B
DC
E F
A
84
動的計画法の流れ
④ 確認
選んだ方策は本当に greedy な方策か
是 !
B
DC
E F
A
85
動的計画法の流れ
ようやく移動。B
DC
E F
A
86
バックアップ線図( Backup Diagram )
更新時に関わる情報を 図式化したもの
:状態s :行動a
:各sの更新時 必要な情報の 範囲
A
B C
D
F
D
F
E
F
87
動的計画法のバックアップ線図
A
B C
D
F
D
F
E
F
:状態s :行動a :各sの更新時 必要な情報の 範囲
88
動的計画法のバックアップ線図
A
B C
D
F
D
F
E
F
:状態s :行動a :各sの更新時 必要な情報の 範囲
89
動的計画法の難点
• 必ず最適解に辿り着くけど・・・
• 計算量が多い!– 状態数が増えると現実的には計算不可
• モデルを持たないと使えない!– 実際はそれがふつう
– モデルなしで知的な エージェントを実現したい
90
モンテカルロ法とは?
• モンテカルロ法( Monte Carlo method )
– 環境のモデルを一切持たない(モデルフリー)
– 「エピソード」を多数生成し、試行錯誤する
– 方策オン/オフ
91
モデルフリー
• イメージ:情報なにもなし!
何もわからない のでとりあえず行ってみるしかない
判断基準は「ゴールにいるか」ただひとつ
B
DC
E F
A
92
エピソード
• エピソード( episode )
– 始点から終点までの状態s、行動a、報酬rの列
B
DC
E F
AA→r→b→B→d→d→D→d→f→F
93
動的計画法 vs モンテカルロ法
• 動的計画法– 「先読み」が可能– 次に貰える報酬と、次の状態が利用可能!– 「今の状態価値」だけで十分
• モンテカルロ法– 「先読み」が不可– 「今の状態価値」+「そこでとる行動」セット評価
94
モンテカルロ法の流れ
以下を繰り返す ① エピソードを生成
② エピソード中の「ある状態のある行動」 についての報酬を積算、平均 ③ 各状態で が最大となる方策を選ぶ
95
モンテカルロ法の流れ
① エピソード生成
B
DC
E F
A
A→r→b→B→d→d→D→d→f→F
96
モンテカルロ法の流れ
② 報酬の積算、平均
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
97
モンテカルロ法の流れ
③ 最大の行動価値に 従って方策の更新
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
98
モンテカルロ法の流れ
① エピソード生成
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3
A→d→c→B→r→d→D→d→f→F
99
モンテカルロ法の流れ
② 報酬の積算、平均
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3
100
モンテカルロ法の流れ
③ 最大の行動価値に 従って方策の更新
緑より赤の方が 良い報酬!
B
DC
E F
A
(b+d+f)/3 (b+d+f)/3
(b+d+f)/3(c+d+f)/3
(c+d+f)/3
(c+d+f)/3
101
モンテカルロ法のバックアップ線図
A
B C
D
F
D
F
E
F
:状態s :行動a :各sの更新時 必要な情報の 範囲
102
モンテカルロ法のバックアップ線図
A
B C
D
F
D
F
E
F
:状態s :行動a :各sの更新時 必要な情報の 範囲
103
A
B C
D
F
D
F
E
F
A
B C
D
F
D
F
E
F
動的計画法 モンテカルロ法
104
ホントにいいのか?
• 実はとんでもない仮定
「全ての状態 - 行動が無限回訪問される」
こんなの絶対おかしい
105
ホントにいいのか?
106
ホントにいいのか?
• 実はとんでもない仮定
「全ての状態 - 行動が無限回訪問される」
エピソードはランダムに生成し、各回 greedy な行動
実際は「もっといい行動がある」可能性があるのに訪問しない(十分な「探索」が行われない)
107
モンテカルロ法の種類
• モンテカルロES法– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法– 挙動方策と推定方策
108
モンテカルロ法の種類
• モンテカルロES法– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法– 挙動方策と推定方策
109
方策オンと方策オフ
• 方策オン型
– 行動を選ぶ方策 そのものを評価、改善
• 方策オフ型
– 行動を選ぶ方策とは別に、評価用の方策を用意
110
モンテカルロ法の種類
• モンテカルロES法– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法– 挙動方策と推定方策
111
方策オン型モンテカルロ
• 危ない橋を渡らせる?
問題点: 更新ごと、報酬を良くしようとする為 訪問されない状態ー行動が出てくること わずかな確率でも、そのルートを選ばせたい!
112
方策オン型モンテカルロ
• ε-greedy 手法
– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ
113
方策オン型モンテカルロ
• ε-greedy 手法
– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ
114
方策オン型モンテカルロ
• ε-greedy 手法
– ある確率 ε で 非 greedy方策を選ぶ– それ以外の場合には greedy方策を選ぶ
115
方策オン型モンテカルロ
非 greedy greedy
116
モンテカルロ法の種類
• モンテカルロES法– 全ての状態、行動が確認されると仮定
• 方策オン型 モンテカルロ法– 少し危ない橋を渡らせる
• 方策オフ型 モンテカルロ法– 挙動方策と推定方策
117
方策オフ型モンテカルロ法
• 2つの方策を考える
– 挙動方策( behavior policy ) π’ エージェントが可能な行動の観測を行う
– 推定方策( estimation policy ) π 実際にエージェントを行動させる
色々な状態ー行動を見つつ、 greedy な探索が出来る!
118
方策オフ型モンテカルロ法
各方策を与える(状態、行動、報酬)
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f
π
π’
B
DC
E F
A
119
方策オフ型モンテカルロ法
各方策を与える(状態、行動、報酬)
[ A,r,b,B,d,d,D,d,f ]
この時の行動価値を両者計算 > なら方策変更
π
π’
B
DC
E F
A
π’ π
A→r→b→B→r→d→D→d→f
A→d→c→C→r→d→D→d→f
120
2節まとめ
• 動的計画法( DP )– モデルベース– 各状態価値をあらかじめ全て計算– 必ず最適解に辿り着くが 現実的ではない
• モンテカルロ法– モデルフリー– 様々な経験則から最適行動価値関数を見積もる– 方策オン型/方策オフ型
121
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
122
TD学習とは
• 現在の源流となる強化学習手法の 祖
– Bellman方程式の近似
– 動的計画法のように「以前の結果を利用」
– モンテカルロ法のように「環境のモデルが不要」
123
TD学習とは
• TD 学習( Temporal Difference Learning )
– その場更新型のモンテカルロ法– 今の状態と次の状態の報酬を最大化
• α :更新率( 0<α<=1 )「今を大事にするか」 α≈ 0「次を大事にするか」 α≈ 1
124
モンテカルロ法との違い
• モンテカルロ法
– 各エピソードの報酬の和だけ見る– エピソード終端まで更新が不可
• TD 学習
– 1回1回そこで得られる報酬を使う– 最短、次の状態の予測までで更新可
・・・
!
125
一体何がすごいのか
• 報酬と次の状態のモデルを必要としない
– モデルフリー– 「次の状態」はエピソード毎に記憶する
• モンテカルロ法より早い!– 問題が複雑になればなるほど、モンテカルロ法は 更新に時間がかかる (短ければ良い)
126
TD学習の流れ
① 各状態価値 V(s) を任意に初期化 評価する π を設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に・ π で与えられる行動 a をとって r,s’ を観測・ s (行動前)の状態価値 V(s) を更新
・次状態 s ’ へ移行 s’ が終端状態なら次のエピソードへ移行
127
TD学習の流れ
① 初期化
各状態価値を初期化
方策緑を評価
γ=1
B
DC
E F
A
128
TD学習の流れ
② 行動
方策 π =緑に従い 行動 a=right をとる
報酬 b と次状態Bを 観測
B
DC
E F
A
b
129
TD学習の流れ
② V(s)更新
状態価値を設定
エージェントが移動
B
DC
E F
A
α*b
130
TD学習の流れ
② 終端まで確認
続いて方策赤を評価
B
DC
E F
A
α*b α*d
α*f
131
TD学習の流れ
② 行動
方策 π =赤に従い 行動 a=down をとる
報酬 c と次状態Cを 観測
B
DC
E F
A
α*b α*d
α*f
c
132
TD学習の流れ
B
DC
E F
A
new α*d
α*f
② V(s)更新
状態価値を設定 先ほどの状態価値利用
エージェントが移動
133
TD学習の流れ
B
DC
E F
A
new α*d
new
② 終端まで確認
以上繰り返して、 最適な方策を探す
α*d
134
DQN の Q !
• Q 学習( Q-learning )
– ある行動をとったら、その時の自分はどうなるか?
– 方策オフ型の TD 学習と考えられる
– 現代の強化学習のメイン
135
Q 学習を数式で見る
• 行動価値関数の最適化を目指す
– 1ステップごとに現在の方策を改善する
– α :学習率 「今を大事に」ー「次を大事に」の Trade-off
次状態が最適な行動の選択
136
TD学習とQ学習の違い
• TD学習– 状態価値に従って更新– 方策に従って遷移した先の評価値のみ見る
• Q学習– 行動価値に従って更新– 方策とは関係なしに、複数の評価値を見る
137
Q 学習の流れ
① 各行動価値 Q(s,a) を任意に初期化 評価する π を設定
以下各エピソード毎にループ
② エピソードの各ステップ毎に・ Q で与えられる行動 a をとって r,s’ を観測・ s (行動前)の状態価値 V(s) を更新
・次状態 s ’ へ移行 s’ が終端状態なら次のエピソードへ移行
138
Q 学習の流れ
① 初期化
各状態価値を初期化
方策緑を評価
γ=1
B
DC
E F
A
139
Q 学習の流れ
② 行動価値から選択
b と c どちらが良いか?
効率よく試行錯誤する
B
DC
E F
A
b
dc
ef
d
140
Q 学習の流れ
② 行動価値から選択
方策赤における d と eは どちらが良いか?
効率よく試行錯誤する
B
DC
E F
A
b
dc
ef
d
141
動的計画法 モンテカルロ法 TD 学習 Q学習
モデル 必要 不要 不要 不要
主な
更新対象
状態価値関数
V ( s )
行動価値関数
Q ( s,a )
状態価値関数
V ( s )
行動価値関数
Q ( s,a )
概要
全ての状態を
総当たり計算
計算量が多い
エピソードから
価値関数推測
行動選択の方法
エピソードの
1 ステップ毎に
状態価値更新
次の行動報酬が
最も良くなるよ
う選択
BackupDiagram
142
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
143
強化学習と脳
• 強化学習を脳がしている?
144
注目箇所
• 大脳基底核( Basal Ganglia )
145
注目箇所
• 大脳基底核( Basal Ganglia )尾状核
淡蒼球
被殻
線条体
黒質
視床下核
146
各部位の働き
• 線条体– 運動機能、意思決定
• 淡蒼球– 報酬予測
• 黒質– ドーパミンの放出
• 視床下核– 運動の調整
147
ループ構造大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治 , “ 計算神経科学への招待” より
視床
線条体
148
ループ構造大脳皮質
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治 , “ 計算神経科学への招待” より
視床
大脳皮質~基底核ループ
ストリオゾーム マトリックス線条体
大脳皮質~基底核ループ
149
ループ構造大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治 , “ 計算神経科学への招待” より
視床
線条体
150
ドーパミンニューロンの観測
• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従ってレバーを操作するとジュース(報酬)が貰える
この時のサルの線条体ドーパミンニューロンを計測
http://www.wakosozai.com/
151
ドーパミンニューロンの観測
• 予測と報酬の神経回路 [Schultz et al, 1997]
ランプの点灯に従ってレバーを操作するとジュース(報酬)が貰える
この時のサルの線条体ドーパミンニューロンを計測
http://www.wakosozai.com/
152
ドーパミンニューロンの観測
• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差
http://www.wakosozai.com/
学習後
学習前
153
ドーパミンニューロンの観測
• 報酬あり– r: 実際の報酬– V: 期待報酬– δ: TD誤差
http://www.wakosozai.com/
報酬の「予測」に対して応答
154
ドーパミンニューロンの観測
• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差
http://www.wakosozai.com/
学習前
学習後
155
ドーパミンニューロンの観測
• 報酬なし– r: 実際の報酬– V: 期待報酬– δ: TD誤差
http://www.wakosozai.com/
ニューロン抑制
156
この実験で分かったこと
• 線条体ではTD誤差のような振舞いがある?
実際にもらえた報酬
もらえるであろう報酬
157
どのように行動選択しているのか
• 行動価値の観測 [Samejima et al , 2005]
サルの線条体ニューロンの観測 倒す方向によって貰える確率が変化
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
158
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に レバーを倒し始めた
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
159
どのように行動選択しているのか
• 最初はランダムに選んでいた
• 次第に報酬が貰えそうな方に レバーを倒し始めた
Samejima et al, “Representation of Action-Specific Rewards Values in the Striatum,” 2005
状態に応じて最適な行動を選んでいる?
160
ループ構造大脳皮質
ストリオゾーム マトリックス
淡蒼球外節
黒質緻密部
腹側被蓋野
淡蒼球内節
黒質網様部
視床下核
銅谷 賢治 , “ 計算神経科学への招待” より
視床
線条体
161
大脳基底核のモデル化
鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節黒質網様部
視床
黒質
input output
162
大脳基底核のモデル化
鮫島和行 , 銅谷賢治 , “ 強化学習と大脳基底核” 参考
大脳皮質
線条体
淡蒼球外節黒質網様部
視床
黒質
input output
TD 誤差
Q (s,a) 算出
163
第2部目次
1 問題設定
2 動的計画法 vs モンテカルロ法
3 TD学習、Q学習
4 脳との関連性
5 研究動向、まとめ
164
強化学習の応用研究
• ヘルプから適切な操作の遂行 [Branavan et
al,2009]
Windows のヘルプを解釈し見合った操作を自律的に行う
Click run, and press OK.
165
強化学習の応用研究
• ゲームへの応用( DQN )[Volodymyr et al,2015]
ゲーム画面4フレーム分を入力出力は動作
最初2層はCNN最適行動価値関数Q * への近似
Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
166
強化学習の応用研究
• 未学習データの検出および強化学習への応用[Osawa,Hagiwara,2015]
RBM,Deep Belief Network を用い長期スパンでの “戦略” の立案を可能にするようなモデルを提唱
状態、行動価値判定
167
まだ見えてない部分
• 脳モデルについて– マルコフ性と仮定することは適切か– モデルフリーから経験でモデルベースにしている?
• 強化学習が「最も効率的」なのか?
168
まとめ
• 強化学習のアルゴリズムを紹介– 動的計画法、モンテカルロ法– TD学習、Q学習– モデルベース、モデルフリー– 行動の選択( greedy, ε-greedy )
• 脳との関連性を紹介– 線条体にTD学習やQ学習のような振舞い
169
主な参考文献[1] Richard S.Sutton , Andrew G.Barto , “Reinforcement Learning” , 1998
[2] 三上 貞芳 , 皆川 雅章 共訳 , “ 強化学習” , ( [1] の日本語版)
[3] 銅谷 賢治 , “計算神経科学への招待” , 2007
[4] 牧野 貴樹 , “ 強化学習をベイズで理解する” , 2014 ( スライド )
[5] Volodymyr et al, “Human-level control through deep reinforcement learning,” 2015
その他 多くの Web 上のスライド、記述、論文、書籍など
使用した脳の画像 : 3D-brain(free)
170
ありがとうございました!