強化学習における報酬の分配に関する研究 ·...

強化学習における

報酬の分配に関する研究

平成 17年 8月

大阪市立大学大学院

工学研究科

うえむら　わたる

植村渉

概要

強化学習法は，試行錯誤によりエージェントが自ら解を見つける手法である．正答を教える存在

が必要ないため，人間が経験的に取り組んできた問題領域において，今まで人間が見つけられな

かった解を見つける可能性を秘めている．例えば，巡回セールスマン問題のように，最適解を求め

る方法が確立していない問題では，現在，良い解を見つける最も優れた手法が存在しない．その

ため試行錯誤により優れた解を探す方法は，効果的な場合がある．報酬獲得型の強化学習である

Profit Sharingは，学習で獲得した解の最適性は保証されないが，学習の立ち上がり速度に優れて

いる特徴を持つ．問題環境の状態遷移が理想的なマルコフ決定過程（Markov Decision Processes:

MDPs）環境だけでなく，エージェントの知覚能力に制限があるという，より現実的な条件であ

る部分観測可能マルコフ決定過程（Partially Ovservable Markov Decision Processes: POMDPs）

環境の一部においても学習が進むことが知られており，人間よりも優れた解を見つけ出す可能性

を秘めている．

本論文では，Profit Sharingの特徴を理論的に分析し，従来の強化学習法では学習が難しい領域

においても，適切に学習を進めるための報酬分配方法について議論する．Profit Sharingでは，目

標状態に到達し報酬を獲得した際に，その報酬を今までの行動系列に分配し，学習を進める．そ

のため，目標状態に到達できない行動系列を学習する事は致命的である．このような行動系列を

ループ系列と呼ぶ．まずMDPs環境において，ループ系列への学習の抑制を実現するための条件

を検討する．従来提案されている合理性定理を満たす強化関数を用いると，確実に抑制を実現で

きる．また，その定理を満たす強化関数の中で，等比減少関数が効率の良い関数である．そのた

め，行動系列が長いと分配量が 0に近づき，学習量も 0に近づく．ここでは，ループの強化を抑

制するためには，抑制対象をループへ至るルールに限定しても問題がないことから，条件を緩め，

強化関数の分配量の減少を抑える方法を提案する．ループ系列の分岐となる状態において，ルー

プ系列へ至るルールの強化量よりも，ループ系列から脱出するルールの強化量が大きくなるため

の条件を提案し，合理的な学習を進められるため，拡張合理性定理と呼ぶことにする．拡張合理

性定理に従う強化関数は，常に抑制を行う場合，従来提案されている合理性定理を満たす．

より現実的な環境の条件として，エージェントの知覚能力に制限がある場合として POMDPs

環境を検討する．学習を進めるのが最も困難な場合は，エージェントが入力情報をまったく得ら

れない場合である．その場合は，報酬獲得に不要なルールがわからないため，どのルールも必要

i

であり，ランダム探索が優れた政策となる．報酬の累積による学習が有効に働くための POMDPs

環境の範囲を明らかにし，どのような報酬分配が必要となるか導く．

これまでの議論は，いずれも強化関数に対する議論である．次に，評価値に着目し，強化関数

と評価値の関係について議論する．強化関数による分配量に対して，評価値が大きすぎる場合，

分配量が選択確率に反映されにくく，学習が進まないことが懸念される．評価値が小さすぎる場

合，一度の分配による選択確率の変化が激しく，本来のルールの価値とは不相応に選択確率が変

化する場合がある．いずれの問題も，評価値の初期値が分配量に対して適切でない関係であるた

めに生じる．適切な初期値は，状態ごとに異なることを明らかにし，状態ごとに独立して初期値

を設定する方法を提案する．状態ごとに独立して，評価値の初期値を適切に設定するため，大規

模な問題環境に対しても，効率的に学習を進めることができる．以上の効果を実験にて確認する．

以上の応用例として，複数のエージェントが協調して目的を達成するマルチエージェント環境

での報酬分配を検討する．各エージェントは知覚能力が制限されるため POMDPs環境下での学

習が求められる．学習が有効に働く条件下で，どのような報酬分配が必要かを明らかにする．

ii

目次

第 1章序論 1

第 2章強化学習 4

2.1 まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.2 エージェントと問題環境の相互作用 . . . . . . . . . . . . . . . . . . . . . . . . . . 4

2.3 ルール選択に用いる価値の推定 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.1 ブートストラップ型強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . 6

2.3.2 非ブートストラップ型強化学習 . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4 強化学習法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7

2.4.1 Q-Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.2 Sarsa . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.3 Sarsa(λ) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.4.4 Monte-Carlo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.5 Profit Sharing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.4.6 MarcoPolo . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.5 ルールの選択方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10

2.5.1 ランダム選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5.2 greedy選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5.3 ε-greedy選択 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.5.4 ソフトマックス選択手法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

2.6 環境の状態遷移 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

2.6.1 マルコフ決定過程環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13

2.6.2 部分観測可能マルコフ決定過程環境 . . . . . . . . . . . . . . . . . . . . . . 14

2.7 あとがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15

第 3章マルコフ決定過程環境における報酬分配法 16

3.1 まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

3.2 報酬獲得に貢献しないルール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

iii

3.2.1 合理性定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

3.2.2 合理性定理を満たす関数の学習距離 . . . . . . . . . . . . . . . . . . . . . . 17

3.3 拡張合理性定理 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

3.3.1 迂回ルール抑制の局所的な合理性 . . . . . . . . . . . . . . . . . . . . . . . 21

3.3.2 迂回ルール抑制の大局的な合理性 . . . . . . . . . . . . . . . . . . . . . . . 23

3.3.3 定理の考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.4 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.5 あとがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

第 4章部分観測可能マルコフ決定過程環境における報酬分配法 31

4.1 まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

4.2 部分観測可能マルコフ決定過程環境における従来の研究 . . . . . . . . . . . . . . . 31

4.2.1 部分観測可能マルコフ決定過程環境の特徴 . . . . . . . . . . . . . . . . . . 31

4.2.2 メモリベース法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.3 確率的政策法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.2.4 PS-r* . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.3 強化学習における問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

4.4 Sarsa(λ)における問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.5 Profit Sharingにおける問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

4.6 報酬獲得に貢献しないルール . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

4.6.1 ループ系列の強化を防ぐための十分条件 . . . . . . . . . . . . . . . . . . . 35

4.6.2 必要なルールを均一に選択するための条件 . . . . . . . . . . . . . . . . . . 37

4.7 EPS（Episode-based Profit Sharing）: 新しい報酬分配方法 . . . . . . . . . . . . 38

4.7.1 Single-EPS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.7.2 ループの強化の抑制 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

4.7.3 部分的な行動系列の利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.7.4 Episode-based Profit Sharing . . . . . . . . . . . . . . . . . . . . . . . . . 41

4.7.5 重複するルールの扱い . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.7.6 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.8 EPSの報酬分配に関する考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 44

4.8.1 部分的な行動系列の利用の効果 . . . . . . . . . . . . . . . . . . . . . . . . 48

4.8.2 行動系列内の重複するルールの数え方 . . . . . . . . . . . . . . . . . . . . 49

4.8.3 非決定的状態遷移を持つマルコフ決定過程環境下での学習 . . . . . . . . . 49

iv

4.8.4 部分観測可能マルコフ決定過程環境に対する従来法との比較 . . . . . . . . 50

4.9 あとがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

第 5章評価値と報酬分配の関係について 53

5.1 まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

5.2 Profit Sharing . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 54

5.3 学習速度の問題と経験への固執問題のトレードオフ . . . . . . . . . . . . . . . . . 57

5.3.1 分配量に対して，初期値が大きすぎる場合 . . . . . . . . . . . . . . . . . . 58

5.3.2 分配量に対して，初期値が小さすぎる場合 . . . . . . . . . . . . . . . . . . 60

5.3.3 学習速度の問題と経験への固執問題 . . . . . . . . . . . . . . . . . . . . . . 62

5.4 評価値の初期値の設定方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

5.4.1 従来の評価値の初期値の扱い . . . . . . . . . . . . . . . . . . . . . . . . . 64

5.4.2 評価値の初期値の設定方法: PS-GTR . . . . . . . . . . . . . . . . . . . . . 64

5.5 実験 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.5.1 評価値の初期値の更新の効果 . . . . . . . . . . . . . . . . . . . . . . . . . 65

5.5.2 確率的な状態遷移を持つ環境への適用 . . . . . . . . . . . . . . . . . . . . 69

5.5.3 大規模な問題環境への適用 . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

5.5.4 EPS-POMDPs環境への適用 . . . . . . . . . . . . . . . . . . . . . . . . . 72

5.6 考察 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.6.1 状態遷移が決定的な場合の学習の進み方 . . . . . . . . . . . . . . . . . . . 76

5.6.2 状態遷移が確率的な場合の学習の進み方 . . . . . . . . . . . . . . . . . . . 76

5.6.3 不完全知覚問題が生じる環境での学習の進み方 . . . . . . . . . . . . . . . . 77

5.7 実装の問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77

5.8 あとがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

第 6章マルチエージェントにおける報酬分配 81

6.1 まえがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6.2 マルチエージェント強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

6.2.1 状態空間の爆発問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.2 同時学習問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

6.2.3 不完全知覚問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2.4 信頼度割り当て問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

6.2.5 マルチエージェントにおける問題の解決 . . . . . . . . . . . . . . . . . . . 84

v

6.3 マルチエージェントにおける強化学習 . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.3.1 シングルエージェントのための強化学習 . . . . . . . . . . . . . . . . . . . 84

6.3.2 マルコフ決定過程環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 84

6.3.3 部分観測可能マルコフ決定過程環境 . . . . . . . . . . . . . . . . . . . . . . 85

6.4 マルチエージェントにおける報酬分配法 . . . . . . . . . . . . . . . . . . . . . . . 85

6.4.1 EPSに基づく報酬分配法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 86

6.4.2 合理性定理に基づく報酬分配法 . . . . . . . . . . . . . . . . . . . . . . . . 86

6.5 マルチエージェント信頼度割り当て問題 . . . . . . . . . . . . . . . . . . . . . . . 86

6.5.1 等比減少的な信頼度割り当て . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.5.2 均一的な信頼度割り当て . . . . . . . . . . . . . . . . . . . . . . . . . . . . 87

6.5.3 等比減少的な信頼度割り当てを行う条件 . . . . . . . . . . . . . . . . . . . 88

6.6 あとがき . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

第 7章結論 90

謝辞 92

参考文献 93

vi

図目次

3.1 報酬プラン獲得の証明で用いた環境 . . . . . . . . . . . . . . . . . . . . . . . . . . 25

3.2 拡張合理性定理を満たす強化関数の例 . . . . . . . . . . . . . . . . . . . . . . . . . 26

3.3 Suttonの迷路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

3.4 迷路走行タスクの実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

3.5 縦横 2倍の迷路における実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.6 縦横 3倍の迷路における実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.7 収束速度と状態数の関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

4.1 POMDPs環境における真のループ系列と偽のループ系列 . . . . . . . . . . . . . . 34

4.2 複数のループによりルールの種類が変化する場合 . . . . . . . . . . . . . . . . . . 36

4.3 ループへ至るルールの抑制が最も困難な場合（状態遷移が決定的な場合は，pb=0） 40

4.4 部分的な行動系列の利用 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 42

4.5 実験環境 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.6 POMDP環境の性能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.7 Suttonの迷路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.8 MDP環境の性能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

4.9 センサーが一部故障した条件での迷路 . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.10 センサー故障環境での性能 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

4.11 行動系列の長さの違いによる強化量の違い . . . . . . . . . . . . . . . . . . . . . . 48

5.1 POMDPs環境で用いる強化関数（EPS） . . . . . . . . . . . . . . . . . . . . . . . 55

5.2 評価値の初期値の設定と更新方法: PS-GTR . . . . . . . . . . . . . . . . . . . . . 66

5.3 学習速度の問題と経験への固執問題を確認するための環境 . . . . . . . . . . . . . 67

5.4 1000ステップ目における評価値の初期値による性能の変化 . . . . . . . . . . . . . 67

5.5 1000ステップ目における分配量に対する評価値の初期値の比率と性能の関係 . . . 69

5.6 確率的な状態遷移のある迷路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

5.7 確率的な状態遷移のある迷路における性能 . . . . . . . . . . . . . . . . . . . . . . 71

vii

5.8 迷路のサイズを大きくした場合の，分配量に対する評価値の初期値の比率と性能の

関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.9 縦横 2倍の迷路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 73

5.10 縦横 3倍の迷路 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

5.11 センサーが一部故障した条件での迷路 . . . . . . . . . . . . . . . . . . . . . . . . . 75

5.12 EPS-POMDPs環境における性能 . . . . . . . . . . . . . . . . . . . . . . . . . . . 76

6.1 シングルエージェントにおいて均一強化をする場合 . . . . . . . . . . . . . . . . . 88

viii

第1章序論

1980年代，コンピュータの性能発展に伴い，人工知能という言葉が一時期ブームを起こした．残

念なことに，そのとき人工知能の代表的な技術であった推論やデータマイニングは，新たな知識

を創造するものではなく，与えられた情報の中から知識を見つけ出すものであった．人間や生物

の知識とは程遠かったため，そのような知能は，皮肉にも「人工無能」と呼ばれた．推論やデー

タマイニングの研究や技術を否定するつもりはない．膨大なデータの中から，人間の見落として

いる重要なルールを見つけ出すのは，情報量が増加している昨今のインターネット世界において，

必要なことである．

筆者が大学院で情報工学の研究を始めた 2000年当時、自律した知能と言う意味での人工知能

は、全然研究が進んでいなかった。確かに，自律した知能の実現は，「現代の錬金術」と呼ばれる

くらい，実現が無理なことなのかもしれない．if-thenルールをあらかじめ多数用意し，考えてい

るように見せる「見せかけの知能」であれば，現在，すでに製品化されている．しかし，パターン

が固定されているため本当の知能とは呼べず，また，ユーザはそれを知能とは感じていないのが

現状である．ペットロボットによる癒し効果が謳われているが，筆者は限界を感じている．逆に，

限界を感じない場合，仮想世界と実世界の境界を感じないことになるため，危険である．このよ

うな現状を目の当たりにし，筆者は，自律した知能の実現を目標とした．その実現のために人工

知能の研究を，一歩でも半歩でもいいので前進させたいと思い，研究を続けてきた．以後，人工

知能とは，自律した知能の実現という夢のような意味での人工知能をさす．

人工知能の実現のためには，「あいまいさ」が鍵を握っている．例えば，巡回セールスマン問題

のように，地図上の数点の経由地を通る最適な経路を見つける問題において，人間には，「だいた

いこれかな」と絞り込む力がある．その経路が最適ではない場合もあるが，最適解になりそうな

候補を，まず，大雑把に絞り込み，そして，比較することができる．全ての起こりうる経路の厳

密な経路長の比較よりも，必要になりそうな経路のおおよその経路長を，素早く見つける能力の

ほうが重要である．このような，「あいまいさ」が，計算機では実現が難しいとされてきた．

この論文で対象とする Profit Sharingは，強化学習に分類されている．一般に，強化学習とは

Q-Learningや Temporal Difference法（TD法）といった，価値を理想値へと収束させる学習方

法が有名であり，理想値を持たず価値を累積する Profit Sharing法はあまり注目されない存在で

あった．価値の理想値を推定する学習方法は，試行回数を増やすことで価値を理想値へと収束さ

1

せる．それに対し Profit Sharingは，報酬を累積し，価値として扱う．確かに，価値に基づく行動

選択であるため，行動選択方法に関しては，従来の強化学習と同様に議論できる．しかし，価値

の理想値を持たないため，推定型の強化学習と性質が異なる．例えば，Profit Sharingでは，選

択した行動に，価値を累積し，学習を進める．学習初期ではランダムに行動を選択するため，学

習した行動が最適である保障はない．報酬を獲得する行動を強化するため，学習初期から獲得率

は高いという特徴がある．

学習解に最適性がある学習方法が存在する中で，最適性がない学習方法は，議論を進める際に，

不利になることが多い．しかし，人工知能の観点から見ると，この特徴は，かなり興味深いもの

である．Profit Sharingを用いると，最適な解を見つけるよりも，それなりに優れている解を素

早く見つけることができる．これは，先ほどの「あいまいさ」に通じるものがあるのではないか．

筆者が Profit Sharingに興味を持ったのは，この特徴に魅かれたからである．

また，これ以外にも，Profit Sharingは，人間臭い特徴を持っている．本論文中では，Profit

Sharingの欠点として簡単に触れるのだが，状態遷移が確率的な場合に，期待値の小さいルール

を学習する場合がある．例えば，小さな確率で大きな報酬を得るルールに対して，その大きな報

酬を一回でも獲得すると，そのルールに価値を大きく累積するため，その経験に引きずられる．

Q-Learningなどでは，行動選択中に価値を更新するため，そのようなルールの価値は，徐々に正

しい価値に収束し，最後には何事もなかったかのように振舞うことができる．Profit Sharingは，

性能が悪い解を学習する可能性が高いと言える．しかし，我々人間の行動選択を振り返ってみる

と，Profit Sharingと同様の行動選択をしていることに気づく．ギャンブルを考えてみよう．パチ

ンコや競馬などは，開催元が利益を上げていることから，参加者の利益の期待値は負である．特

に，宝くじは，自分の力は一切関係しないため，明らかに利益の期待値は負とわかっていながら，

一攫千金を目指し，人々は宝くじを買う．中毒症状の特徴であるが，負の報酬（=損失）が続く中

に，大きな正の報酬がまぎれると，人は「次こそは」と思い，やめられなくなる．Profit Sharing

の学習過程でも，この現象と同じようなことが発生する．このような中毒症状的な性質は，学習

において，良い特徴として活かすことは難しい．しかし，人工知能の実現を考えると，この特徴

は面白い．

以上のように，他の強化学習法と比較して，Profit Sharingは悪い特徴を多数持っているが，い

ずれも人工知能の実現という視点で見ると，興味深い特徴である．そのため，Profit Sharingは，

人工知能の実現のための多数のヒントを持っているのではないかと感じている．Profit Sharingの

性能の向上と，適用範囲を広げることは，人工知能の実現を，現実に近づけることと信じ，研究

を進めてきた．

Profit Sharingでは，報酬を獲得することで学習が進むため，報酬の獲得に貢献しないルール

を強化することは，望ましくない．このような報酬獲得に貢献しないルールの強化を抑制する分

2

配方法を，合理的な分配という．Profit Sharingの報酬分配において，合理的な報酬分配を行うた

めの強化関数の定理として，合理性定理が提案されている．定理を満たす一般的かつ簡単な強化

関数は，等比減少関数である．この定理を簡単に解釈すると，目標状態に近いルールほど，報酬

割り当てが大きいということが言える．合理性定理は，適切に証明されており，それ自身は疑う

ことはないのだが，この解釈に，筆者は疑問を感じている．確かに，目標状態に近いルールの方

が重要度が高いことの方が多いが，遠いルールの方が重要な場合もある．一つのルールが重要と

いうのではなく，全てのルールが重要である場合もあるのではないか．例えば，抑制すべきルー

ルがない場合，抑制条件を適用する必要はない．この考えから，抑制対象を抑制すべきルールの

みに絞り，抑制対象がない場合は，均一に分配を行う分配方法を考える．

また，複数のエージェントが協調して目標達成を目指すマルチエージェントの世界でも，同様

の疑問を抱いている．合理性定理の解釈をマルチエージェントに適用すると，報酬獲得に貢献し

たエージェントの重要度は，それ以外のエージェントの重要度よりも高い必要がある．例えば，

サッカーでは，シュートを決めたエージェントの重要度は，他のエージェントよりも高くなる．確

かに，シュートを決めなければ，報酬は獲得できないため，「シュートを決める」という行動の重

要度が最も高いのは納得がいく．しかし，そのエージェントのそれ以前の行動の重要度は，そこ

まで高いかというと疑問である．それよりも，アシストを行ったエージェントの貢献度を高く評

価したい場合もある．また，ボールに触れていなくても，フェイントが得点に貢献しているエー

ジェントがいるかもしれない．このようなエージェントの貢献度を評価するためには，どのよう

にしたらいいのか．学習者は，「報酬を獲得した」という情報しか知ることができず，どのエージェ

ントのどの行動選択がどれだけ良かったかは知ることができない．このことより，均一に貢献度

を割り当てる方法を検討する．マルチエージェントシステムの個々のエージェントは，結局シン

グルエージェントの枠組みの一部である．通常のエージェントの学習よりも，獲得できる情報量

に制限がある．そこで，シングルエージェントの部分観測可能マルコフ決定過程下における報酬

分配方法を検討し，マルチエージェントにおける分配へと適用する．

いずれの分配方法も，強化関数は指数的な表現を分母に持つ．そのため，問題環境のサイズが

大きくなり，常に行動系列が長くなると，分配量は 0に近づく．拡張合理性定理に従う強化関数

を用いると，学習が進むにつれ抑制対象のルールが減り，最終的には抑制の必要がなくなり，定

数関数を用いることが許される．そのため，分配量が 0に近づくことを回避できる．では，分配

量が 0に近づくと，どのような問題が起こるのであろうか．従来は，学習量が 0に近づくため，

学習が進まないという認識である．しかし，分配量が 0に近くても，評価値の初期値が，分配量

よりも小さければ，分配量を累積でき，学習を進めることができる．そこで，評価値の初期値と，

分配量の関係に着目し，どういう関係にあれば適切に学習が進むのかを検討する．

本論文の考え方は，以上の通りである．

3

第2章強化学習

2.1 まえがき

この章では，本論文の基本となる強化学習について説明する．強化学習は，学習者であるエー

ジェントが，問題環境との相互作用を通して学習を進める．学習とは，行動選択時において，適

切な選択を身につけることである．ルールの選択には，価値と呼ばれる重みを用い，その価値を

更新することで学習は進む．それぞれの強化学習法により，価値の更新方法が異なる．また，そ

の価値を用いてどのようにルールを選択するかも，学習の性能を決める要因である．価値の更新

方法と，選択方法は，互いに密接な関係にあるため，どの組み合わせが優れているかは，問題に

依存し，一意に決められない．次に，問題環境の条件として，問題環境の変化が，その時の状態

とエージェントの行動選択にのみ依存するマルコフ決定過程下の環境と，問題環境の状態遷移は

マルコフ性を持つがエージェントの知覚能力に制限がある部分観測可能マルコフ決定過程下の環

境を説明する．6章で扱う複数のエージェントが協調して目標を目指すマルチエージェント強化

学習システムでは，それぞれのエージェントは全てを知覚できないため，たとえ問題環境の状態

遷移がマルコフ性を持っていても，各エージェントの環境は，部分観測可能マルコフ決定過程下

の環境のクラスに属する．そのため，マルチエージェント強化学習を検討するためには，部分観

測可能マルコフ決定過程環境下での学習を考える必要がある．

2.2 エージェントと問題環境の相互作用

強化学習の枠組みでは，学習者であるエージェントを中心としたモデルを用いる．エージェン

トが知覚した環境情報に対して，何らかの行動を選択し，それを実行することで環境が変化する．

この節では，強化学習で扱う問題環境のモデルについて説明する．

エージェントを中心としたモデルを用いるため，エージェントの時間軸が中心である．時刻tは，

問題環境の単位時間である必要はなく，エージェントが選択した行動を実行するごとに変化する

離散的時刻として扱う．

時刻 tにおいて，エージェントは環境の状態s（s ∈ S: Sは可能な状態の集合）を観測 o（o ∈ O:

Oは可能な観測の集合）として知覚する．エージェントの観測能力に制限がない場合，s = oで

4

ある．一般的な強化学習では，エージェントの知覚能力には制限を設けない場合や，ほぼ制限が

ないと近似する場合が多いため，観測と状態は同義で扱うことが多い．本論文においても，制限

を設ける場合（4章で扱う部分観測可能マルコフ決定過程下での強化学習）以外では，エージェ

ントの知覚した観測を「状態」として表現する．

状態 sにおいて，エージェントが実行できる行動群 A(s)の中から一つの行動aを選び，実行す

る（a ∈ A(s)）．状態 sにおける行動 aをルール(s, a)と呼び，ルールを選ぶ判断基準を政策と呼

ぶ．ルールを実行することで，エージェントは次状態s′ に遷移する．遷移確率が，状態 sと行動

aのみに依存する場合，この状態遷移はマルコフ性を持つと言い，問題環境はマルコフ決定過程

のクラスに属する．エージェントの知ることができる問題環境の条件は，2.6節で述べる．

状態遷移に伴い，エージェントは報酬rを受け取る．報酬 rは，様々な設定が可能である．達

成して欲しい状態である目標状態に到達した場合のみ，正の報酬（r > 0）を与え，それ以外の状

態では報酬を与えない（r = 0）方法や，負の報酬を与える（r < 0）方法などがある．複数の報

酬，特に，正と負の報酬を同時に扱うのは，それぞれの価値の関係を適切に与える必要があるた

め，設計が困難になることが多い [宮崎 01]．本論文で対象とする Profit Sharingでは，獲得した

報酬を分配する方針のため，一般的には正の報酬のみを対象とすることが多い．報酬を獲得する

までの行動系列を，エピソードと呼ぶ．エージェントは，この報酬情報をもとに，今までの行動

選択を評価する．

強化学習の目的は，獲得する報酬量を最大化することである．将来的に受け取る報酬を扱うた

め，期待割引収益 Rtを考える．

Rt = rt+1 + γrt+2 + γ2rt+3 + . . .

=∞∑

k=0

γkrt+k+1 (2.1)

ここで，γ は割引率であり，0 ≤ γ ≤ 1である．時刻 tで受け取る報酬 rt は，一つ前の行動 at−1

による状態遷移の結果であり，これから受け取る収益は，rt+1以降であるため，期待割引収益Rt

における報酬の開始は t + 1である．各状態における期待割引収益 Rt を最大にするルールを，最

適なルールと呼び，最適なルールを取り続ける政策を，最適な政策と呼ぶ．このことより，強化

学習の目的は，最適なルールの獲得といえる．

エージェントは，この報酬情報 rをもとに，今までの行動系列が良かったか悪かったかを判断

しなければならない．この報酬の扱い方に，強化学習の特徴が現れている．教師あり学習では，

行動選択に対して，最も適切なルールがどれであったかを，すぐにエージェントは知る．それに

対して，強化学習では，報酬を獲得したときに，ようやくそれまでに選んだルールの価値がわか

る特徴がある．これを，遅れの報酬という．また，その報酬の価値も相対的なものであり，それ

より優れた解があるかどうかはエージェントにはわからない．たとえば，将棋やオセロといった

5

ボードゲートでは，勝ちとなる目標状態の記述は簡単である．しかし，状態数が天文学的数字で

あり，目標状態以外の状態の価値を計算で求めることが困難であるため，教師あり学習は効果を

なさない1 ．報酬情報は，遅延があり，かつ絶対的な意味を持たない．しかし，人の手で情報を

与えるという観点で見ると，人の手が必要なため「教師なし」と呼べるかどうか難しい．少なく

とも，従来の教師あり学習とは異なる条件下での学習である．

2.3 ルール選択に用いる価値の推定

強化学習では，ルールの選択の判断にルールの価値を用いる．ルールの価値は，報酬情報をも

とに推定する．大きく分けて二つの価値の推定方法がある [Sutton 98]．一つは別の推定量を基準

にして価値を推定する方法であり，もう一つは価値の推定を各々独立して行う方法である．前者

をブートストラップ（bootstrap）型強化学習と呼び，後者を非ブートストラップ型強化学習と呼

ぶ．その価値情報を基に，ルールを選択する．最大の価値を持つルールを選択する方法や，ルー

ルの価値の割合に応じて選択する方法などがある．価値の評価方法と，それを用いたルールの選

択方法は密接に関係しているため，どの選択方法が優れているかは，単純には決められない．

2.3.1 ブートストラップ型強化学習

ブートストラップ型強化学習では，そのルールを選択すると今後どのくらいの報酬が期待でき

るかを推定することで，価値を評価する．この価値は，期待割引収益を意味するため，最大の価値

を持つ状態を遷移し続けると，獲得する報酬量を最大化でき，強化学習の目的を達成できる．代

表的なブートストラップ型の学習方法として，TD法 [Sutton 88]，Q-Learning[Watkins 92]，そ

して Sarsa[Rummery 94]などがある．Q-Learningは，ある条件のもとで無限回の試行により，Q

値が真の報酬の期待値に収束するため，最適解が獲得できることが証明されている．ブートスト

ラップ型強化学習において，評価値が理論値に収束するためには，すべてのルールの価値を適切

に計算する必要があるため，環境を探索し，同定する必要がある．そのため，環境同定型の強化

学習とも呼ばれる．

1 各状態の価値を適切に求めることが出来れば，教師あり学習も効果をなす．各状態の価値を適切に近似できれば，教師あり学習は可能である．ディープブルーなどは，各状態の価値の計算を人の手で最適解に近づくように更新するため，効果的な学習が実現できている．しかし，その手法は人力を要する．

6

2.3.2 非ブートストラップ型強化学習

非ブートストラップ型強化学習では，そのルールが過去にどのくらいの報酬を獲得したかを

もとに，価値を評価する．過去の報酬に基づくため，経験的な推定であり，多くの場合理論値

を持たないため，局所最適解へ至るルールを学習する可能性がある．本論文では主に報酬を累

積することで価値を評価する累積値ベースの Profit Sharing[宮崎 94]に着目する．なお，Credit

Assignment[Grefenstette 88]で扱う Profit Sharingでは，報酬量がどれくらいになるかという推

定値ベースの学習を行うが，ここでは累積値ベースで議論を行う．非ブートストラップ型強化学

習では，評価値は経験的な値であり，今までの報酬の獲得量を示す．そのため，報酬獲得型の強

化学習とも呼ばれる．

2.4 強化学習法

強化学習の目的は，獲得する報酬量を最大化することである．そのために，各ルールの価値を

評価し，その価値を用いて最適なルールを選択する必要がある．ここでは，強化学習の中心的な

役割である，各ルールの価値の評価方法を述べる．

まず，期待割引収益を最大化する目的より，その収益を理想値とし，評価値がその理想値に近

づくように更新する学習方法を説明する．この種類の強化学習法は，学習の収束時に，評価値が

理想値になるため，最適なルールの選択が保証される．

次に，過去の経験に基づいてルールの価値を計算する学習方法を述べる，過去の経験に基づく

ため，報酬獲得に貪欲であるが，将来的な報酬獲得は考慮しないため，最適なルールの選択の保

証はされない．

最後に，それぞれを統合した学習方法を述べる．最適なルールを学習するためには，環境を探

索して，最適なルールを知る必要がある．しかし，環境の探索時には効率良く報酬を獲得できな

い．効率よく報酬を獲得するためには，未知のルールを選択して環境を探索するよりも，今まで

報酬を獲得できたルールを選択する必要があり，環境の探索とは逆の動作となる．ここに，環境

同定と知識利用のトレードオフが存在する．それぞれに特化した学習方法を切り替えて使うこと

で，効率よくトレードオフを解決する方法を述べる．

7

2.4.1 Q-Learning

Q-Learning[Watkins 92]では，各ルールの評価値であるQ値（Q(s, a)）が期待割引収益になる

ように，評価値を更新する．状態 sにおいて行動 aを選び，次状態 s′へ遷移した場合の更新式は，

Q(s, a) ← (1− α)Q(s, a) + α

[r + γ max

a′ Q(s′, a′)]

(2.2)

である．ここで，αは学習率である．更新を続けることで，Q(s, a)は，r + γ maxa′ Q(s′, a′)に収

束する．0 < γ < 1の場合，最大の Q値を持つルールを選択し続けることで，獲得報酬は最大化

される．Q値が真の報酬の期待値に収束するためには，無限回の試行が必要となる．

Q-Learningを含む環境同定型の強化学習では，収束前は環境同定が必要で，収束後は最大のQ

値を持つルールを選択する必要がある．そのため，行動選択器には，2.5.3節で述べる ε-greedy選

択を用いることが多い．

2.4.2 Sarsa

Q-Learningは，状態の価値を推定する．各状態で，最適な価値を持つ状態へ遷移し続ければ，

その行動選択は最適であるが，学習中は環境同定も行うため，最適でない価値を持つ状態への遷

移もありうる．行動選択器に応じた価値を推定する方法が Sarsa[Rummery 94]である．

Sarsaでは，遷移先の次状態で実際に選択するルールの価値をその次状態の価値として用いて，

現在のルールの価値を推定する．現在の状態 sと行動 a，そして獲得した報酬 rに対して，次状

態 s′とその状態で選択するルール (s′, a′)の価値を用いて更新する．これらのアルファベットを順

に並べたのが，Sarsaの名前の由来である．

Sarsaの更新式は，次式である．

Q(s, a) ← Q(s, a) + α[r + γQ(s′, a′)−Q(s, a)]

= (1− α)Q(s, a) + α[r + γQ(s′, a′)] (2.3)

Q-Learningに対して，行動選択を考慮した価値の計算となるため，学習中の性能が安定する傾

向にある．行動選択器に ε-greedy選択を用い，εを 0に近づけると，行動選択時のばらつきがな

くなるため，Q-learningと同じ価値に収束する．

2.4.3 Sarsa(λ)

Sarsaや Q-Learningでは，行動選択ごとに，その状態やルールの価値のみを更新する．そのた

め，報酬を獲得しても，その更新においては，一つ手前の状態やルールの価値にしか伝播しない．

8

適格度という概念を用いて，価値の更新を伝播させる方法が提案されている．この方法では，一

度の行動選択において，広範囲に価値を伝播させるため，より素早い学習が期待できる．適格度

を用いたトレースは，Sarsaだけでなく，TD学習や Q-Learningにも適用できるが，ここでは，

Sarsaへの適用を述べる．

Sarsaの更新式に対して，適格度 λを加えたものを Sarsa(λ)[Loch 98]と呼ぶ．それに対して，

従来の Sarsaは 1ステップ Sarsaとも呼ばれる．Sarsa(λ)では，すべてのルールの価値（Q(s, a)）

を次式に従って更新する．

1. δ ← r + γQ(s′, a′)−Q(s, a)

2. e(s, a)← e(s, a) + 1

3. for all s, a :

Q(s, a)← Q(s, a) + αδe(s, a)

e(s, a)← γλe(s, a); (2.4)

Sarsaの特徴を引き継いだまま，価値の更新を伝播するため，素早い学習ができる．

2.4.4 Monte-Carlo

Q-Learningや Sarsaでは，遷移先の状態の Q値に基づいて状態の Q値を更新するブートスト

ラップ型強化学習である．それに対して，遷移先の状態の価値を用いず，各時刻 tで実際に得ら

れた報酬値に基づいて価値を推定する非ブートストラップ型強化学習がMonte-Carlo[Sutton 98]

である．報酬を獲得しないと価値の推定ができないため，報酬獲得につながらないルールを繰り

返す可能性があることが問題点として挙げられている．特に，この問題は目標状態へ到達するの

に必要なエピソードが長いほど深刻となる [荒井 01]．

2.4.5 Profit Sharing

Profit Sharingは，行動系列内の各ルールに報酬の一部を分配し，それを累積することで強化を

行う．Monte-Carlo法では，価値の推定であったが，Profit Sharingでは，累積により評価する．

報酬を分配する関数を強化関数f(x)と呼び，目標状態からさかのぼって分配するため，強化関数

の引数 xはエージェントのルール選択の時系列の引数 tと逆方向の関係にある．報酬を獲得した

時に強化作業を行うため，エピソード単位での強化となる．強化作業は，次式に従って報酬 rを

分配する．

ω(sx, ax)← ω(sx, ax) + r × f(x)． (2.5)

9

ここで，ω(sx, ax)はルール (sx, ax)に累積された価値である．Profit Sharingはそれぞれのルー

ルに価値を累積することで，ルールの価値を評価する．報酬に至るルールを強化するため報酬

獲得に貪欲であり学習の立ち上がりが早い反面，局所最適解へ至るルールの強化から逃れるこ

とが難しい．学習の立ち上がりが早いため，学習に時間をかけずにすむ．そのため，局所最適

解の学習で十分な問題環境に有効であり，耐故障性をもつ適応経路設定などに応用されている

[植村 01, 植村 02]．

2.4.6 MarcoPolo

以上で述べた強化学習は，それぞれ環境同定型と報酬獲得型の二つに分類できる．環境同定を

行うことで，評価値が理論値に収束するQ-Learningや Sarsaでは，学習の立ち上がりが遅い欠点

を持つ．報酬獲得型の Profit Sharingは，学習の立ち上がりは早いが，評価値は理論値を持たず，

学習したルールが，最適なルールである保証がない．

MDPs環境において各ルールの状態遷移確率を知ることが出来れば，最適解を政策反復法（PIA:

Policy Iteration Algorithm）[ワグナー 78]を用いて計算で求めることが可能となる．環境同定に徹

した行動選択方法として k-確実探査法[宮崎 95]を用い，PIAと k-確実探査法を切り替えて用いる方

法が，MarcoPolo（Reinforcement Learning System under Markovian Environment considering

tradeoff between Policy Iteration, Profit Sharing and k-Certainty Exploration）[宮崎 97]であ

る．k-確実探査法とは，各ルールを効率よく経験するためのアルゴリズムであり，環境同定に特

化した手法である．また，PIAを適用するためには，各ルールを少なくとも一度は経験している

必要があるため，未経験の場合は Profit Sharingを用いる．

MarcoPoloは，全ルールの遷移情報を知るまでは，報酬獲得器に Profit Sharingを用いるため，

立ち上がりの早い学習が期待できる．一度全ルールを経験すれば，PIAによる最適性が期待でき

る．また，k-確実探査法による環境同定により，各ルールを効率よく経験でき，PIAによる最適

性能が向上する．

状態空間数が大きい問題環境に対しては，全ルールを経験するのに時間がかかり，報酬獲得器

が Profit Sharingから PIAに切り替わらない．そのため，MarcoPoloは，Profit Sharingの性質

が大きく現れる．Profit Sharingの学習効率改善は，MarcoPoloの学習効率改善につながる．

2.5 ルールの選択方法

強化学習では，推定された評価値を用いて，ルールを選択する．最も価値の高いルールを選ぶ

方法や，価値の割合に応じて選択する方法などがある．前者を greedy選択手法と呼び，後者をソ

10

フトマックス選択手法と呼ぶ．この節では，代表的な選択方法を説明する．

2.5.1 ランダム選択

ルールの評価値とは関係なく，選択できるルールの中から，ランダムに一つのルールを選択す

る方法が，ランダム選択であり，その政策をランダム探索と呼ぶ．評価値の情報を用いないため，

学習の進行具合と関係なくルールを選択する．ルールの選択確率に偏りがない特徴がある．未知

の環境下においては，どのルールが報酬獲得に必要か，また不必要かがわからないため，偏りの

ある他の選択方法よりも優れている場合がある．

強化学習で用いる選択方法は，学習初期のルール選択は，ランダム探索であることが多い．全

ルール一律の選択確率から始まり，学習が進むにつれ，選択確率が偏る．逆に，偏りのある選択

確率が一律の確率へ近づくのは，学習が戻ることになる．

2.5.2 greedy選択

ある状態において，最も価値の高いルールを選択する方法が，greedy選択である．その状態に

おいて，各ルールの価値が適切であれば，最も価値の高いルールが最適なルールであり，greedy

選択は，最適なルールを選び続けるため，最適な政策となる．各ルールの価値を推定する学習方

法では，学習の収束時に，各ルールの価値が最適な値に収束するため，収束時には greedy選択が

有効である．しかし，学習の途中において，価値の大小が最適な場合と異なる場合，greedy選択

は有効ではない．

2.5.3 ε-greedy選択

ε-greedy選択では，ε（0 ≤ ε < 1）の確率で，ランダム選択を行い，1− εの確率で，greedy選

択を行う．つまり，greedy選択に対して，εの確率で，環境探索を行う選択方法である．ε = 0の

場合，greedy選択と同等になる．そのため，学習開始時は，εを適度な数字から開始し，学習が

進むにつれ，ε→ 0と近づけることが多い．

2.5.4 ソフトマックス選択手法

評価値の割合に応じて確率的にルールを選択する方法を，ソフトマックス選択手法と呼ぶ．評

価値の割合をどのような分布として扱うかにより，いくつかの選択方法がある．ここでは，ルー

レット選択とボルツマン分布に従う選択を述べる．

11

ルーレット選択

評価値の比率を，選択確率に反映させる方法である．状態 sにおけるルール (s, ai)の選択確率

P (s, ai)は，

P (s, ai) =ω(s, ai)∑M

j=1 ω(s, aj)(2.6)

である．ここで，ω(s, ai)はルール (s, ai)の評価値であり，M は状態 sにおけるルールの数であ

る．ルールの評価値が，他のルールの評価値よりも大きくなればなるほど，そのルールが選択さ

れる確率が高くなる．

ルーレット選択では，ルールの評価値の合計を分母に用いるため，評価値が正の値でないとい

けない．そのため，負の報酬を扱う場合には，適していない．

ボルツマン分布に従う選択

ボルツマン分布に従う確率で，ルールを選択する方法である．状態 sにおけるルール (s, ai)の

選択確率 P (s, ai)は，

P (s, ai) =eω(s,ai)/T∑M

j=1 eω(s,aj)/T(2.7)

である．ここで，T は，温度パラメータと呼ばれる．T が大きいと，全ルールの選択確率が一定

に近づくため，ランダム選択に近づく．T が小さいと，評価値のわずかな差が選択確率に大きく

反映されるようになり，greedy選択に近づく．学習が進むにつれ，温度 T を下げるのが一般的で

ある．ルーレット選択では負の報酬を扱えない場合があるが，ボルツマン分布に従う選択では，

評価値が負の値になっても問題がない．そのため，負の報酬を扱う場合は，ボルツマン分布に従

う選択を用いることが多い．

この他にも，評価値の割合を決める方法は考えられるが，上記二つの扱い方が，現在一般に良

く使われている．

以上が，現在一般的に使われている行動選択方法である．それぞれ選択方法に特徴があり，一

概にどの選択方法が一番優れているかは決定できない．次節で述べる学習方法において，それぞ

れ学習の進捗に特徴があるため，学習方法に合った選択方法を用いるのが一般的である．

2.6 環境の状態遷移

エージェントがルールを実行することで，問題環境の状態が遷移する．この節では，状態遷移

に対するモデルについて述べる．

12

2.6.1 マルコフ決定過程環境

環境の状態遷移において，状態 sから次状態 s′への状態遷移確率が，状態 sと行動 aにのみ依

存している場合，この性質を（単純）マルコフ性（Markov property）と呼び，そのマルコフ性を

持った確率過程を（単純）マルコフ過程（Markov process）という [情報 89]．マルコフ決定過程

（MDPs: Markov Decision Processes）とは，マルコフ過程を基にし，状態を離散状態として扱う

逐次決定過程のことである．状態遷移確率が，n個前の状態と行動からの行動系列に依存してい

る場合，n回マルコフ過程と呼ぶ．n回マルコフ過程を，単純マルコフ過程の枠組みで考えると，

状態遷移に必要な情報を観測できない条件となるため，n回マルコフ過程は，次節で扱う部分観

測可能マルコフ決定過程のクラスとして扱うことが可能である．

問題環境がマルコフ決定過程のクラスに属する場合，エージェントの獲得する入力信号である

観測は，問題環境の状態と等しいため，ノイズのない条件と考えられる．一方，出力信号に対し

ては，状態遷移確率が 1でない場合は，実行結果へのノイズの影響と考えることができる．例え

ば，グリッド状の迷路を移動するロボット・エージェントを考える．現在の位置情報は獲得でき

るが，行動の実行の際，床との摩擦等の外部要因によって，必ずしも望んだ方向に進まない場合

などが考えられる．MDPs環境では，状態遷移確率は常に同じであるため，エージェントの行動

との相関がない場合を想定するが，相関がないと近似できる場合は，MDPs環境として扱うこと

ができる．

状態遷移確率が変化しないため，何度も試行し，経験を蓄えることで，エージェントは遷移確

率を知ることができる．もし，問題環境の全ての情報を知ることができ，計算資源が許す範囲で

あれば，計算にて最適解を求めることができる．例えば，政策反復法が挙げられる．明示的に環

境の探索を行う方法である k-確実探査法と組み合わせることで，効率的な報酬獲得を行う方法が

MarcoPoloである．

計算資源が許さない場合，全状態の情報を知らなくても行動を選択できる強化学習法は，他の

解法よりも有効に働くことが多い．たとえ状態遷移が決定的であっても，将棋やチェスといった

ボードゲームでは，状態数が大きすぎ，全通りを調べることはできない．組み合わせの数が爆発

し，次元の呪い（the curse of dimensionality）問題が生じる．強化学習では，今までの経験から

状態の価値を変更するため，全ての状態の情報がなくても，行動を選択することはできる．ただ

し，情報がそろっていない場合，その行動選択が意味を持たない場合がある．例えば，Q-Learning

は学習中の評価値は意味を持たないことが知られている．Profit Sharingの評価値は，過去の経

験に基づく値であり，学習中も意味を持つため，効果的な学習が期待できる．

13

2.6.2 部分観測可能マルコフ決定過程環境

問題環境がマルコフ性を持つが，エージェントの知覚能力に制限があるとき，エージェントは

問題環境を正しく認識できない場合がある．例えば，迷路において現在の位置情報を獲得できな

いとする．このとき，エージェント周囲の壁の状況を観測し入力情報とすると，迷路内の異なる

状態を同じ観測として扱う可能性がある．このように，本来別の状態を混同する問題を，不完全

知覚問題（perceptual aliasing problem）[Whitehead 90]と呼び，この問題の生じるクラスを，部

分観測可能マルコフ決定過程（POMDPs: Partially Observavle Markov Decision Processes）と

呼ぶ．問題が生じるのは，学習に必要な入力情報が獲得できない場合である．例えばセンサーの

故障により，そのセンサーからの入力情報が変化しない場合などが考えられる．

状態 s1 と状態 s2 のいずれも観測 oと知覚する問題環境の場合，エージェントは観測 oを知覚

しても，本来の問題環境の状態が状態 s1 であるのか状態 s2 であるのか区別することができな

い．エージェントは，状態 sのかわりに観測 oを用いて学習を強化することが求められる．例え

ば，今までルールとは (s, a)であったが，観測 oに対する行動 aであるため，以後 (o, a)となる．

POMDPs環境により，適切に学習が進まない問題や，その条件については，4章の POMDPs環

境を扱う際に議論する．

POMDPs環境は，上記の通り「エージェントの知覚能力に制限がある場合」のMDPs環境に

対するエージェントの世界である．そのため，制限が増えるほど，エージェントのセンサーが多

数故障する場合に相当する．そして，最も制限される場合は，常に同じ入力信号を受け取り，環

境の変化を知ることができない場合である．

エージェントの観測能力として，時刻 tに対する観測能力を考える．時刻 tの変化において，状

態が変化する場合とは，環境が動的に変化する場合に相当する．例えば，ある時刻 t1において環

境が変化する迷路を考える．エージェントは時刻 t1 以前の迷路と，以後の迷路の区別ができず，

同一の迷路上での状態と観測する．しかし，環境が異なるため，以前と同じ行動選択ではゴール

に到達できない．つまり，POMDPs環境は，このような動的に変化する環境も包含している．

また，入力信号や出力信号に対するノイズについて考える．エージェントと相関のあるノイズの

場合，エージェントは，その相関のある事象に対する観測能力を持っていない．つまり POMDPs

環境のクラスとして，表現することが可能である．エージェントと相関のないノイズの場合も同

様に，その相関のない事象に対する観測能力を制限されていると考えられる．また，出力信号に

関しては，確率的な状態遷移として扱うこともできる．つまり，入力信号や出力信号に対するノ

イズも，POMDPs環境は包含している．

以上より，動的な変化をする環境や，ノイズを持つ環境は，POMDPs環境に包含される．こ

れらのモデルを表現するためには，それぞれ適切なモデルを用意すべきであり，POMDPs環境

14

が，これらのモデルを表現するのに適切なモデルではない．しかし，上述の環境を包含するため，

POMDPs環境を扱う際には，このような環境も同時に扱っていることに注意しなければならない．

2.7 あとがき

この章では，強化学習の枠組みについて説明した．まず，エージェントと問題環境の相互作用

について述べ，ルールの選択に用いる価値の推定方法を説明した．そして，各学習方法が，それ

らの価値をどのように更新するか述べ，その価値を用いてどのように行動を選択するか説明した．

最後に，問題環境のモデルとして理想的な環境であるMDPs環境と，エージェントの知覚能力に

制限を設けたより現実的な環境である POMDPs環境を説明した．

次章以降では，Profit Sharing法に焦点を当て，MDPs環境や POMDPs環境における効率的な

学習方法を提案する．そして，本章で述べた他の強化学習法と比較し，性能の向上や，適用範囲

の拡大を確認する．

15

第3章マルコフ決定過程環境における報酬分配法

[植村 04c]

3.1 まえがき

Profit Sharingでは，強化関数により報酬分配を行う．報酬を獲得しないルールを学習するこ

とは，致命的である．報酬獲得に貢献しないルールの学習を抑制するための定理として，合理性

定理を説明する．強化関数による分配が学習に反映される距離を学習距離とすると，合理性定理

を満たす最も学習距離が長い強化関数は，等比減少関数であることを示す．そのため，エピソー

ドが長いと，指数的な速さで分配量は 0になるため，学習効率が悪いという問題が生じる．本章

では，MDPs環境における効率の良い報酬分配について議論する．報酬獲得に貢献しないルール

は，迂回系列を構成する．そこで，迂回系列へ至るルールのみを抑制する条件を提案する．この

条件に従う強化関数を用いて強化すると，エピソードに迂回系列がある場合は迂回系列から抜け

出るルールを強化し，迂回系列がない場合は強化関数に定数を用いることを許す．そのため，エ

ピソードに応じて強化関数が動的に変化し，学習が進むにつれ迂回系列を選ぶ確率が小さくなる．

最終的に迂回系列のないエピソードを学習するため，効率の良い学習の実現が期待できる．

以下，3.2節では，報酬獲得に貢献しないルールについて述べ，そのようなルールの学習を抑制

するための合理性定理について述べる．そして，合理性定理を満たす最も効率の良い報酬分配関

数が，等比減少関数であることを証明し，分配量が指数的な速さで 0に収束することを示す．3.3

節では，抑制対象を限定した抑制方法を提案する．その条件に従う強化関数を用いて強化した際，

抑制が実現できていることを証明し，永続的な学習が実現することを証明する．そして，合理性

定理と比較し，学習効率の違いを検討する．3.4節にて実験を行い効果を確認し，3.5節にてまと

める．

3.2 報酬獲得に貢献しないルール

Profit Sharingでは，エピソード単位で学習を行うため，報酬の獲得に貢献しないルールを学

習することは望ましくない．常に同一状態に戻る遷移を持つルールは，明らかに報酬獲得に貢献

しないルールである．このようなルールは，MDPs環境の状態遷移において，ループを構成する

16

ルールである．まず，報酬の獲得に貢献しないルールの強化を抑制する強化関数の定理を述べる．

この定理を合理性定理という．合理性定理に従う強化関数で，最も効率よく分配を行う関数が，

等比減少関数であることを証明する．そして，等比減少関数を用いる問題点として，関数値の 0

への収束が早いことを指摘する．

3.2.1 合理性定理

エピソード内に同一状態が複数存在し，異なるルールの選択がある時，その間のルール系列を

迂回系列という．現在までのすべてのエピソードで，常に迂回系列上にあるルールを無効ルールと

呼び，それ以外を有効ルールと呼ぶ. 無効ルールと有効ルールが競合するときに，無効ルールを

抑制する強化関数のための定理が合理性定理であり，局所的な合理性のための定理と大局的な合

理性のための定理から成り立っている．局所的な合理性として，あるエピソード内に無効ルール

と有効ルールが存在するときに，必ず有効ルールを強化する条件である無効ルール抑制条件を用

いる．最大エピソード長をW，ある状態で選択できるルールの数の最大を Lとしたとき，強化関

数が満たす条件が式 (3.1)であることが証明されている [宮崎 94]．

∀i = 1, 2, . . . ,W. LW∑j=i

f(j) < f(i− 1) (3.1)

大局的な合理性として，式 (3.1)を満たす強化関数が報酬を獲得するルールを学習できるかど

うかの条件として報酬プラン獲得条件を用いる．ここでプランとは，無限にルールを選択し続け

るものであり，単位行動当りの報酬の期待値が 0でないプランを報酬プランという．この時，式

(3.1)を満たす強化関数が報酬プランを学習することが証明されている．よって，式 (3.1)は Profit

Sharingにおける合理的な学習を保証する条件である．合理性定理を満たすもっとも簡単で代表

的な関数は等比減少関数である．

3.2.2 合理性定理を満たす関数の学習距離

ここで，合理性定理を満たす関数の特徴について次のことが言える．合理性定理を満たす関数

は，その条件式より単調減少関数であり，引数が増加すると関数値は減少する．Profit Sharingの

学習は報酬を分配することで進むため，報酬の分配量が多いほど学習が速いといえる．また同様

に，目標状態から離れた状態の行動にも報酬が分配できる関数ほど学習効果の距離 (学習距離と略

す)は長いといえる．学習距離が短いと，行動系列の開始状態まで報酬が分配できないため，学

習効率が悪いと考えられる．合理性定理を満たす関数の学習距離の限界を知るために，学習距離

が最も長い関数について検討する．

17

合理性定理を満たす強化関数の中で，学習距離が最も長い関数は等比減少関数であることを証

明する．まず，報酬を長く分配できる関数を定義し，次に，その条件を満たす関数は等比減少関

数であることを証明する．

定義 3.1 報酬を長く分配できる関数

報酬を長く分配できる関数とは，関数 f(n)と g(n)が，ある j 以降に対して，

g(i) < f(i) ∀i = j, j + 1, . . . ,∞ (3.2)

が成立するとき，f(n)の方が報酬を長く分配できるとする．

証明

定義 3.1を説明する．合理性定理を満たす強化関数として，二つの関数 f(n)と g(n)

を考える．これらの関数は，合理性定理を満たすため単調減少関数であり，エピソー

ド長 wは制約を考えないため∞とする．

関数 f(n)と g(n)が，ある j 以降に対して，式（3.2）が成立するとき，f(n)の方が

報酬量が多くなることを証明する．

このとき，∞∑i=j

g(i) <∞∑i=j

f(i) (3.3)

である．逆は成立しないが，

g(i) < f(i) ∃i = j, j + 1, . . . ,∞ (3.4)

が成立する．なぜなら，式（3.3）が成立するとき，

g(i) ≥ f(i) ∀i = j, j + 1, . . . ,∞ (3.5)

は満たすことができないからである．

よって，関数 f(n)と g(n)が，ある j 以降に対して，式（3.2）が成立するとき，f(n)

の方が報酬量が多くなるため，報酬を長く分配できる．

合理性定理を満たす関数の中で，報酬を長く分配できる関数の条件が示された．次に，学習距離

が最も長い関数について検討する．

定理 3.1 合理性定理を満たす関数の学習距離

合理性定理を満たす強化関数の中で，学習距離が最も長い関数は等比減少関数である．

18

証明

合理性定理を満たす関数で 0への収束速度が一番遅い関数が，等比減少関数であるこ

とを証明する．公比 1/S(= 1/ (L + 1))の等比減少関数 f(x)を考える．この関数より

も収束の遅い関数 g(x)が存在しないことを，帰納法を用いて証明する．

n = kの時

g(i) = f(i)(∀i = 1, 2, . . . , k − 1)が成り立つとき，g(k) = f(k)が 0への収束が一番遅

くなることを証明する．

d(k) = g(k)− f(k)とする．収束を考えるので w →∞とする．

・d(k) < 0 の時

Lw∑

j=k+1

g(j) < g(k) = f(k) + d(k)

Lw∑

j=k+2

g(j) + Lg(k + 1) < (1 + L)f(k + 1) + d(k)

ここで，L∑w

j=k+2 g(j)の値域は 0 ≤ L∑w

j=k+2 g(j) ≤ g(k + 1)であるので，

g(k + 1) + Lg(k + 1) < (1 + L)f(k + 1) + d(k)

(3.6)

よって

d(k + 1) = g(k + 1)− f(k + 1) <d(k)1 + L

< 0 (3.7)

となる．一度 g(k) < f(k)となると，g(i) < f(i) ( ∀i = k, k + 1, . . . ,∞)となるので，

f(k)の方が収束が遅いことがいえる．

・d(k) > 0 の時

g(k − 1) = f(k − 1) より，k以降の分配量の最大は同じであるので，

Lw∑

j=k

g(j) = Lw∑

j=k

f(j)

Lw∑

j=k+1

g(j) + Lg(k) = Lw∑

j=k+1

f(j) + Lf(k)

19

w∑j=k+1

g(j) + f(k) + d(k) =w∑

j=k+1

f(j) + f(k)

w∑j=k+1

g(j) + d(k) =w∑

j=k+1

f(j) (3.8)

よって∑w

j=k+1 g(j) <∑w

j=k+1 f(j)となる．ここで式 (3.4)より，ある i (i ≥ k + 1)

において g(i) < f(i)が存在する．その iでは，d(i) = g(i) − f(i) < 0となるため式

(3.8)より，g(k)よりも f(k)の収束が遅いことがいえる．

・d(k) = 0の時

g(k) = f(k)なので，収束速度は同じである．

n = 1の時

分配関数の上限は 1であるので，g(1) ≤ f(1) = 1である．

・g(1) < f(1) の時

式 (3.8)より g(x)よりも f(x)の収束が遅いことがいえる．

・g(1) = f(1) の時

帰納法により，g(x)よりも f(x)の収束が同じ，もしくは遅いことがいえる．収束が

同じになるのは g(x) = f(x)の時である．

以上より，等比減少関数 f(x)が 0への収束が一番遅いことが証明される．

合理性定理を満たす強化関数の中で，学習距離が最も長い関数は等比減少関数であるため，定

理 3.1が証明される．よって，合理性定理を満たす関数は，遅くても指数関数的な速さで 0に収

束することがいえる．

等比減少関数は，指数的な速さで 0へ収束する．そのため，エピソード長が大きい環境では目

標状態から離れた状態への報酬分配量が実質的に 0になる可能性があり，その結果，学習量も実

質的に 0になり，学習が進まない問題が生じる．すなわち，式 (3.1)を満たす強化関数を用いた

Profit Sharingでは，エピソードが長い環境では学習が進まない問題が生じる．

この問題は，あるルールが無効ルールであるかどうかの判断は，一つのエピソードではできな

いことに起因する．無効ルールは，常に迂回系列上に存在するルールである．あるエピソードで

迂回系列上に存在するルールが，別のエピソードでは迂回系列上とならない場合もある．そのた

め，一つのエピソードだけでは無効ルールであると断定することができない．一つのエピソード

を用いて学習する Profit Sharingの枠組みでは，任意の無効ルールを抑制するためには，常に抑

制を行わなければならず，抑制する必要のないルールも抑制を必要とする．一例として，無効ルー

20

ルが存在しない状態においても，合理性定理はルールを抑制する強化関数を要求することが挙げ

られる．

3.3 拡張合理性定理 [植村 03]

この節では，抑制対象を迂回系列に至るルールに限定するための方法を検討する．この方法を

用いると，抑制ルールが一つのエピソードから判断できるため，抑制行動を動的に行うことがで

きる．本方法では，抑制が必要なときだけ抑制条件を適用し，不要なときには抑制しない条件を

提案する．条件の改善により，従来の合理性定理による学習距離の制限の緩和が期待でき，エピ

ソード長に依存しない強化関数の条件が実現する．エピソード内に同一状態が複数存在し，異な

るルールの選択がある時，迂回系列が存在することを意味する．そのルールの中で目標状態に一

番近いルールは迂回系列から出るルールであるので非迂回ルールとする．それ以外のルールは迂

回系列に戻るルールであるので，迂回ルールとする．非迂回ルールよりも迂回ルールを強化する

と，エージェントは迂回系列から脱出できなくなる．そのため迂回ルールの強化を抑制する必要

がある．以下，迂回ルール抑制の局所的な合理性と大局的な合理性を満たす条件式を導く．

3.3.1 迂回ルール抑制の局所的な合理性

ここでは，迂回ルールの抑制条件を示す定理 3.2を述べ，定理 3.2の式 (3.9)を満たす強化関数

を用いて学習をしたとき，迂回ルールの強化が抑制されていることを示す．この条件を，局所的

な合理性と呼ぶ．

定理 3.2 迂回ルールの抑制条件

任意の迂回ルールが抑制される必要十分条件は，

L∑W

j=i f(j) · d(j) < f(i− 1) if d(i) = 1.

f(i) ≤ f(i− 1) それ以外のとき.

∀i = 1, 2, . . . ,W.

(3.9)

ここで，d(j)は，

d(j) =

1 if rulej =迂回ルール．

0 それ以外のとき．

である．また，W は最大エピソード長，Lはその状態にある迂回ルールの数である．

21

証明

定理 3.2を証明する．迂回系列をもつ長さW のエピソードを考える．ここで簡単の

ために非迂回ルールは状態に 1つ存在 (L = 1)し，エピソードの h番目のルールとす

る．エピソードの i番目のルールが迂回ルールとする (h < i)．この迂回ルールの強化

が抑制されるためには，迂回ルールの強化量が，非迂回ルールの強化量より少ない必

要がある．

iからW 番目のルールの中で迂回ルールの強化量は，∑W

j=i f(j) · d(j)である．非迂

回ルールの強化量は少なくとも f(h)である．

よって，迂回ルールを抑制するためには

W∑j=i

f(j) · d(j) < f(h) (3.10)

を満たす必要がある．

迂回ルールを抑制するには，式 (3.10)より，f(i) < f(h)が必要条件であるため，強

化関数が単調増加では条件を満たさないことがわかる．また，環境の予備知識がない

条件では，部分的な増加関数を用いることは不可能である．よって，強化関数に増加

関数を用いることは不可能であり，強化関数は定数もしくは減少関数でないといけな

い．i番目のルールに対して，f(i) ≤ f(i− 1) ≤ f(h)が条件となる．以上より，任意

の迂回ルールを抑制するためには

W∑j=i

f(j) · d(j) < f(i− 1) ≤ f(h) (3.11)

を満たす必要がある．次に非迂回ルールが複数存在する場合 (L > 1)を考える．一番

選択確率の高い非迂回ルール Aが他の非迂回ルールに対して選択される確率は 1/L

以上である．この非迂回ルール Aが選択された後，L回他の非迂回ルールが選択され

る場合を考える．迂回ルールを抑制するためには，迂回ルールを強化した強化量より

も非迂回ルール Aの強化量を大きくする必要がある．

よって，任意の迂回ルールが抑制される必要十分条件は，式（3.9）であり，定理 3.2

が証明された．

学習環境に対する事前知識がないため，Lの最適値は一意に決めることができない．しかし，

その状態で選択できる行動数-1を Lとすることで十分である．以後，式 (3.9)を迂回ルール抑制

条件と呼ぶ．

22

3.3.2 迂回ルール抑制の大局的な合理性

Profit Sharingの枠組みではエージェントが報酬を獲得した時にのみ学習活動を行うので，報

酬を得る状態へ遷移できないと学習が進まない．定理 3.2を満たす強化関数を用いた時，報酬を

得られない状態遷移に陥るかどうか検討する．これを大局的な合理性と呼ぶ．

定理 3.3 大局的な合理性

強化関数が迂回ルール抑制条件を満たせば，大局的な合理性を満たす．

証明

強化関数が迂回ルール抑制条件を満たせば，大局的な合理性を満たすことを証明する．

報酬を得られない状態遷移に陥るかどうか検討する．学習によるルールの強化量が異

なるとき，強化量が少ないルールを大きいルールに対して抑制されていると呼ぶ．本

論文においてルールの種類はエピソードによって迂回ルール，非迂回ルール，それ以

外のルールとなる．迂回ルール抑制条件では，迂回ルール以外のルールに対する条件

が同じであるため，ここでは代表として非迂回ルールと呼ぶことにする．迂回ルール

が非迂回ルールに対して抑制されていることを証明する．状態 xにおいて行動 aを

選ぶルールを →xa，ルール →

xaの評価値を ω→

xaと表記し，学習による強化量を∆ω→

xaと

する．

エピソードが 1つの場合

局所的な合理性により，迂回ルールの抑制が保証されている．

エピソードが複数ある場合

エピソード数が 2の場合を考えるが，3以上の場合も同様である．また，状態におけ

るルールの数が 2の場合を考えるが，それ以上の場合も同様である．2個のエピソー

ド A，Bが迂回系列を持つ場合と持たない場合を考える．

エピソードA，Bが迂回系列を持たない場合

[宮崎 94] と同様の証明となる．図 3.1 の環境において，迂回系列を構成する条件

∆ω→xi

> ∆ω→xo，∆ω→

yi> ∆ω→

yoが成立しないことがいえる．合理性定理と比較して，

23

非迂回ルールに対する強化関数の条件が違うため，2個のエピソードに対して，

∆ω→yo≥ ∆ω→

xi(3.12)

∆ω→xo≥ ∆ω→

yi(3.13)

が成立し，迂回系列を構成するための条件式は，

∆ω→xi

+ ∆ω→yi≤ ∆ω→

xo+ ∆ω→

yo< ∆ω→

xi+ ∆ω→

yi(3.14)

となる．∆ωは正なので，この不等式を満たす解は存在しない．したがって，報酬を

含まないループは構成できない．

エピソードA，Bが同じ迂回系列を持つ場合

エピソード A，Bのあるルールがどちらにとっても迂回ルールである場合である．こ

のとき，局所的な合理性により迂回ルールの抑制は保証されている．

エピソードA，Bが同じ迂回系列を持たない場合

あるルールがエピソード Aでは迂回ルールであるが，エピソード Bでは非迂回ルール

となる場合である．状態 xにおいて，エピソード Aは迂回ルール →xiと非迂回ルール

→xoを選択している．エピソード Bにとっては →

xiが迂回ルールでないことより，→

xiを

通り，状態 x以外の状態 y にて →yoにより迂回系列を脱出している．状態 y では，エ

ピソード Aは迂回系列を抜け出ないため，状態 xへ至るルール →yiを選んでおり，→

yo

は選んでいない．つまり，図 3.1と同様の環境となる．エピソードの現れる順序が A，

Bの順の場合，エピソード Aの強化によりルール →xiは →

xoにより抑制されるため，エ

ピソード Bでは迂回系列は構成されない．逆に，エピソードの現れる順序が B，Aの

順の場合，状態 yにて →yoよりも →

yiが抑制されるため，エピソード Aでは →

yiによる迂

回系列は構成されない．よっていずれの場合でも迂回系列に陥ることはない．

ゆえに，迂回ルール抑制条件を満たす強化関数を用いた学習結果に従って行動選択を

すれば，迂回系列に陥ることはない．よって，強化関数が迂回ルール抑制条件を満た

せば，大局的な合理性を満たすことが証明された．

以上により，迂回ルール抑制条件は，迂回ルール抑制の局所的な合理性と大局的な合理性を満

たしていることがわかる．

24

xyo

oi

i

i,ox,y : :

図 3.1: 報酬プラン獲得の証明で用いた環境

3.3.3 定理の考察

Profit Sharingにおいて迂回ルール抑制条件を満たす強化関数を用いることで，迂回ルールを

抑制しつつ報酬を獲得できるための条件式を示した．ここで，迂回ルール抑制条件を満たす強化

関数について検討する．

強化関数の抑制条件として，迂回ルールの強化量を非迂回ルールの強化量で抑える条件式を提

案したが，実際に学習時にこの条件式を使うのは少し不自由である．なぜなら，迂回ルールの存

在状態に応じて，左辺に現れる f(j)が変化し，強化関数の決定が難しくなる．そこで，迂回ルー

ルの強化量が一番大きくなるときを考える．つまり，d(j) = 1 ∀j = i, . . . ,W.のときである．こ

のとき，抑制条件は L∑W

j=i f(j) · d(j) ≤ L∑W

j=i f(j) < f(i− 1)として書き換えられるが，合理

性は失われていない．この条件式は，合理性定理と同様であるため，学習距離が長い関数形とし

て等比減少関数を挙げることができる．よって，条件を満たす強化関数の例として，

f(i) = 1S f(i− 1) if d(i) = 1.

f(i) ≤ f(i− 1) それ以外のとき.

∀i = 1, 2, . . . ,W.

が考えられ，実際に使うにはこの関数形で十分といえる．ここで，S = L + 1であり，実際に適

用する際には，選択できる行動数とすることで十分である．

次に，迂回ルールの状況による関数形の変化を考える．あるエピソードにおいて迂回ルールが

存在しないとき，迂回系列が存在しないので無効ルールも存在しない．このとき，迂回ルールの

数が 0であるので f(1) = f(2) = . . . = f(w) = α(定数)が許される．つまり，強化関数 f(x)は定

数 αを用いることができる．迂回ルールが一番多いエピソードを考える．一番迂回ルールが多い

エピソードは，f(0)で強化されるルールが非迂回ルールで，それ以外は全て迂回ルールで構成さ

れたエピソードである．迂回ルール抑制条件は無効ルール抑制条件と同じ条件となり，無効ルー

ルを抑制できる．

25

�

�

0

f(1)

f(2)

f(3)

f(4)

1 2 3 4 5 . . . t

× × × × × × ×

× ×

×

×

×

×

×

×

×××

定数関数

f ′(t)

f(t)

図 3.2: 拡張合理性定理を満たす強化関数の例

無効ルールを抑制する合理性定理に対し，抑制する対象を迂回ルールに限定した本定理を拡張

合理性定理と呼ぶこととする．合理性定理を満たす関数の代表として等比減少関数 f(t)を考える

と，拡張合理性定理を満たす関数 f ′(t)は，合理性定理の範囲に加えエピソードの状態に応じて図

(3.2)のように定数値 f(1)から等比減少関数 f(t)に挟まれた範囲の関数形を取ることができる．

また，合理性定理の条件は，拡張合理性定理の条件に含まれているため，本定理は合理性定理を

包括していることがわかる．

合理性定理では，無効ルールが抑制対象であり，本定理では迂回ルールを抑制対象とした．ど

ちらも，迂回系列に関わるルールである．それぞれのルールの確定方法について，以下に比較検

討することとする．あるルールが無効ルールであるかどうかの判断は，無効ルールの定義が「常

に迂回系列上にあるルール」であるため，1エピソードだけでは決定できない．その迂回系列周

辺の環境を同定するまでは，無効ルールと断定できない．任意の無効ルールを抑制するためには，

ルールを常に抑制することになる．一方迂回ルールは，エピソード内に迂回系列が存在すれば，

そこに迂回ルールがあることがわかるため，1エピソードだけで決定できる．そのため，エピソー

ド単位での学習作業時に発見でき，強化関数を動的に変化させ抑制することができる．以上のこ

とより，拡張合理性定理ではルールが抑制対象のルールであるかどうかの判定が学習時に行える

ため，合理性定理と比べて学習効率が良いと考えられる．

26

1

2

3

S

4

5

6

7

8

9

10

11

12

13

■

■

■

14

15

16

17

18

19

20

21

22

23

24

25

26

27

■

28

29

30

31

32

33

34

35

36

37

38

39

40

■

■

■

41

42

43

44

45

G

図 3.3: Suttonの迷路

3.4 実験

拡張合理性定理に従った強化関数を用いた学習の効果を迷路を用いたシミュレーション実験に

て確認する．実験環境は図 3.3に示す迷路走行タスク [Sutton 90]を用いた．始点 (S)から終点

(G)までの経路を学習する問題である．条件は以下の通りである．エージェントは各マス目をそ

れぞれ別の状態として認識し，隣接 4マスのうち任意のマスへの移動を選択する．黒いマスは壁

で，壁への移動を選択すると，状態は変化せず次状態は同じマスのままになる．終点に到着する

と報酬 10が得られ，再び始点から出発する．終点への到着までの行動選択群が 1エピソードとな

る．獲得報酬を単位行動 (エピソードあたりの行動数)で割った値を，性能の評価として用いる．

乱数系列を変えた実験を 100回行い，その平均値を実験値とする．最適解の値は，報酬までの最

短経路 14ステップより，10/14 0.714である．合理性定理に基づく Profit Sharingの強化関数

は公比 1/4の等比減少関数を用い，本手法と比較した．また，本手法の公比 Lも 1/4とし，迂回

ルール以外の強化時は f(i) = f(i− 1)とした．行動選択方法は，いずれもルーレット選択である．

図 3.4は結果を示す．従来の手法では常に抑制条件を適用していたが，本手法では必要な時だけ

用いるように改善している．その改善効果が学習速度の違いとして現れていることが確認できる．

ただし，試行回数をさらに大きくし，それぞれの手法の収束値を比べたところ，従来の手法の方

がわずかに良い値を示した．ともに最適政策の獲得までは保証していないが，距離情報を含む従

来の強化関数の方が，迷路走行タスクの学習において，より最適政策を獲得しやすい場合がある

ためと考えられる．環境に対する予備知識の差が，収束値の差に現れていると考えられる．

次に，エピソードを長くした場合の効果を確認するために，図 3.3の迷路の縦横をそれぞれ 2・

3倍にした迷路を用いた (図 3.5・図 3.6)．状態数は 4倍と 9倍になる．最短経路が 29ステップ

27

0

0.3

0.6

0 5000 10000

/

(1)(2)

(1)

(2)

図 3.4: 迷路走行タスクの実験結果

と 43ステップであることより最適値は 0.345と 0.233となる．従来の手法ではエピソードが長く

なると学習の効果が確認できない．しかし，本手法では効果を確認することができる．収束値の

90%の値に達する行動選択回数は，2倍迷路で約 22000回目，3倍迷路で約 45600回目である．状

態数の増加に対して収束までの時間は線形的な増加量を示していることが図 3.7から読み取れる．

環境のサイズに影響されず安定して学習できることがわかる．

28

0

0.1

0.2

0.3

0 25000 50000

/

(1)

(2)

(2)

(1)

図 3.5: 縦横 2倍の迷路における実験結果

0

0.1

0.2

0 50000 100000

/

(1)

(2)

(1)

(2)

図 3.6: 縦横 3倍の迷路における実験結果

29

0.0

2.5

5.0

0 5 10

( )

×104

図 3.7: 収束速度と状態数の関係

3.5 あとがき

強化学習 Profit Sharingを用いる時，従来は無効ルールの強化を抑制することを目的とした合

理性定理に従う強化関数を用いている．ここでは，合理性定理を満たす学習距離が最も長い関数

が等比減少関数であることを示すとともに，エピソードが長い場合，学習効率が悪くなることを

指摘した．

また，抑制する対象を，迂回系列へ至るルールである迂回ルールのみに限定するための条件式

を示した．この結果，ルールが迂回ルールであるかどうかは，一つのエピソードで決定できる．

このため学習時に，ルールが抑制対象か否かを判断でき，強化関数を動的に変化させ，迂回ルー

ルを抑制するための拡張合理性定理を提案した．この定理を満たす強化関数が，局所的な合理性

と大局的な合理性を満たしていることを証明し，エピソードの状況によっては強化関数に定数を

許すことを確認した．さらに，エピソード長に制限されない学習が実現できたことを実験にて確

認した．合理性定理では状態数等が実質的に制限されていたが，拡張合理性定理により大幅な緩

和を実現した．

最後に，本研究により学習対象の状態数の実質的な制限がなくなり，状態数が大きすぎて Profit

Sharingによる学習を導入できなかった問題への適用を可能とした．

30

第4章部分観測可能マルコフ決定過程環境におけ

る報酬分配法 [植村 05]

4.1 まえがき

この章では，エージェントの知覚能力に制限のある条件での報酬分配を検討する．問題環境がマ

ルコフ性を持ち，エージェントの知覚能力に制限があるとき，エージェントは問題環境を適切に認

識できない場合がある．例えば，迷路において現在の位置情報を獲得できないとする．このとき，

エージェント周囲の壁の状況のみを入力情報（観測または観測状態）とすると，迷路内の別の状

態も同じ観測として扱う可能性がある．POMDPsとは，このような不完全知覚問題（perceptual

aliasing problem）[Whitehead 90]のクラスである．

本論文で提案する手法に対しては，決定的な状態遷移を持つ問題環境に対する POMDPs環境

を議論し，その後，状態遷移が非決定的な場合への適用範囲を検討する．

4.2 部分観測可能マルコフ決定過程環境における従来の研究

POMDPs環境に対する従来の研究について説明する．まず，POMDPs環境の特徴を説明し，

過去の履歴を用いて不完全知覚の影響を受ける状態群を受けない状態に分離する方法を述べる．

次に，不完全知覚の影響を受けている状態が分離できない場合に取るべき政策について述べる．

4.2.1 部分観測可能マルコフ決定過程環境の特徴

問題環境がマルコフ性を持ち，エージェントの知覚能力に制限があるとき，エージェントは問題

環境を適切に認識できない場合がある．この場合のエージェントの環境を POMDPs環境と呼ぶ．

POMDPs環境で問題となるのは，学習に必要な入力情報が獲得できない場合である．例えば

センサーの故障により，そのセンサーからの入力情報が変化しない場合などが考えられる．

エージェントの知覚する観測を oとすると，それに対応する状態がどれであるか，エージェン

トは区別することができない．エージェントは，状態 sのかわりに観測 oを用いて学習を強化す

ることが求められる．例えば，今までルールとは (s, a)であったが，観測 oに対する行動 aであ

31

るため，以後 (o, a)となる．

4.2.2 メモリベース法

POMDPs環境に対して，過去の履歴を用いて不完全知覚の影響を受ける状態群を，影響の受

けない状態に分離する方法がメモリベース法である．メモリベース法の一種である USM（Utile

Suffix Memory）[McCallum 95]では，過去の履歴を木構造で保持し，木を深くするかどうかを検

定により判断する．しかし，十分な履歴を用意しないと，不完全知覚の影響を分離できないため，

膨大なメモリを必要とする．

4.2.3 確率的政策法

不完全知覚の影響を受けている状態が分離できない場合を考える．それぞれの観測で異なる行

動が必要となる場合がある．この問題に対して，決定的な政策では解決できない．そこで，確率

的な政策を取る方法 [木村 96]が提案されている．しかし，理論が要請している仮定が満たされず，

改悪される場合があることが指摘されている [宮崎 03]．

4.2.4 PS-r*

簡単で偏りのない確率的政策としてランダム選択があげられる．観測状態が不完全知覚の影響

をうけているかどうかを統計的に判断し，影響下では全行動に対してランダム選択を行い，影響

のない状態では必要な行動だけでランダム選択を行う PS-r*[宮崎 03][斎藤 04]が提案されている．

この方法では，不完全知覚が存在すると判定された観測ではランダムに行動が選択されるため，

そのような観測においては何度試行しても性能が向上することはない．

4.3 強化学習における問題

強化学習ではルールの選択のために，状態やルールの価値を用いる．不完全知覚問題により価

値の違う状態やルールを混同すると，価値の評価が意味を持たなくなる．このような混同により

生じる問題の分類が提案されている [宮崎 99a]．状態の価値を推定する強化学習では，状態の価

値の混同の影響を受ける．Q-Learningや，TD法は，この影響を受ける．状態 st の観測 ot に対

して遷移先の状態 st+1の観測を ot+1とすると，Q-Learningはルールの価値の推定値Q(ot, at)を

32

次式に従って更新する．

Q(ot, at)← (1− α)Q(ot, at) + α

[r + γ max

a′ Q(ot+1, a′)]

(4.1)

ここで，この式に現れるQ(ot, at)とQ(ot+1, a′)との関係が不完全知覚により複数の組み合わせに

なる場合があり，状態の価値が収束しなくなるという問題が生じる．

4.4 Sarsa(λ)における問題

Sarsa(λ)では，すべてのルールの価値の推定値Q(o, a)を次式に従って更新する．

1. δ ← r + γQ(ot+1, at+1)−Q(ot, at)

2. e(ot, at)← e(ot, at) + 1

3. for all o, a :

Q(o, a)← Q(o, a) + αδe(o, a)

e(o, a)← γλe(o, a); (4.2)

δの計算において，Q(ot, at)とQ(ot+1, at+1)との関係が不完全知覚により複数の組み合わせにな

る場合があり，δの値が意味を持たなくなる可能性が生じる．

この混同が生じるときは常に状態の価値の混同も生じるが，逆は成立しない．そのため，Q-

Learningや TD法に比べて，不完全知覚の影響を受けにくく，不完全知覚に頑強であると言われ

ている [Lanzi 00][Loch 98]．

4.5 Profit Sharingにおける問題

Profit Sharingの更新式は，

ω(ox, ax)← ω(ox, ax) + r × f(x) (4.3)

であるがこの式では，ルール間の関係を用いていないため，他のルールの価値による騙しの影響は

受けない．しかし強化を行う際に，エピソード内におけるルール (ox, ax)とルール (ox′ , ax′)が実

際は同じでないのに，不完全知覚により同じルールとして扱う可能性が生じる．つまり，ox = ox′，

ax = ax′，sx = sx′，そして x = x′という場合である．Profit Sharingに合理性を与える強化関数

として用いられる等比減少関数は，この影響を受ける．この場合について，より詳しく検討する．

問題が生じる場合は，強化すべきルールと強化してはいけないルールを混同する場合である．具

33

st1

ai

aj st1st2

ai

aiaj

aj

(a): A non-aliasing state. (b): Aliasing states.

o

図 4.1: POMDPs環境における真のループ系列と偽のループ系列

体的には，図 4.1の再帰ルールが存在する二つの場合に対して，エージェントは抑制をすべきか

否か区別できない．図 4.1(a)では，ルールの強化の抑制を行うべきである．図 4.1(b)では，エー

ジェントは状態 st1 と状態 st2 の区別がつかず，いずれも oと知覚する．このとき，状態 st1 でルー

ル (o, ai)がルール (o, aj)の強化を抑制すると，その抑制行動は状態 st2 においてループ系列への

ルール (o, ai)を促進する．ルール (o, ai)とルール (o, aj)はいずれも報酬獲得に必要なルールであ

る．このように POMDPs環境では一つの観測に対して，複数のルールを学習すべき場合が存在

する．これは，状態系列上ではループを構成しないが，観測系列上ではループとなる系列が存在

するためである．この場合，報酬獲得に必要なルールが，ループへ至るルールとして知覚される．

そこで，図 4.1(a)の状態系列上でループを構成しているループ系列を真のループ系列，図 4.1(b)

の観測系列上でループが生じ，報酬獲得に必要なルールがループへ至るルールとして知覚される

ループ系列を偽のループ系列とする．なお，この図では状態と行動は最小の場合を描いているが，

それぞれ三つ以上ある場合でも同様である．偽のループ系列を構成するルールは，報酬獲得に必

要であり，ルールの強化を抑制すると，ランダム選択に劣る可能性があり，好ましくない．MDPs

環境における報酬分配では，偽のループ系列が存在しないため，抑制をしてはいけない場合を考

慮する必要がない．POMDPs環境における報酬分配を行うためには，偽のループ系列の場合を

考慮し，ランダム選択に負けない必要がある．図 4.1(b)において，ランダム選択より有効な性能

を持つためには，報酬獲得に必要なルールをどちらも均一に選択すれば十分である．以上のこと

を次の定理 4.1とする．

34

定理 4.1 POMDPs環境において，偽のループ系列上の観測において，ランダム選択より有効な

性能を持つためには，報酬獲得に必要なルールを，すべて同じ確率で選択できれば十分である．

POMDPs環境の背後にあるMDPs環境において，状態遷移確率が常に 1である決定的な環境

の場合，報酬獲得に必要なルールは常にエピソードに含まれる．それらのルールを均一に強化す

れば，必要なルールの選択確率は等しくなる．

4.6 報酬獲得に貢献しないルール

POMDPs環境を考慮する場合，別の状態を同一観測として扱う場合がある．このとき，エピ

ソード上に同一観測が複数あり，ループを構成しているように見えても，実際の状態はそれぞれ

別のため，ループを構成していない場合がある．そこで，実際の状態におけるループの存在から

ルールの呼び方を定義する．同じルールを選択し続けると，ループし続ける系列をループ系列と

する．ループ系列から抜け出る分岐となる状態において，ループ系列へのルールを再帰ルール，

それ以外のルールを非再帰ルールと呼ぶ．ループ系列は，そのループ系列に対する再帰ルールの

みで形成されている．再帰ルール，非再帰ルールは，ループ系列に対するルールの種類であるた

め，対象とするループ系列が変われば，ルールの種類も変わる．ループ系列の強化を防ぐために

は，ループ系列内の少なくともある一つの状態で，そのループ系列に対する非再帰ルールの強化

がそのループ系列に対する再帰ルールを抑制すれば十分である．

4.6.1 ループ系列の強化を防ぐための十分条件

ループ系列内にある一つの観測で，そのループに対する非再帰ルールの強化がそのループに対

する再帰ルールの強化を抑制できれば，それぞれのループ系列の強化を防ぐために十分であるこ

とを証明する．ループが二つの場合を考えるが，三つ以上の場合でも，対象とするループを二つず

つに分ければ同様に考えられる．観測 o2を共有する二つのループ loop1と loop2を考える．それ

ぞれループを抜け出る観測を持っている．抜け出る観測がそれぞれ別の場合，それらを観測 o1と

観測 o3とする（図 4.2）．このとき，両方のループに共通する観測 o2にて，ルール −−→o2o1は loop1

に対しては再帰ルールであり，loop1に対しては非再帰ルールである．観測 o2 でどちらのループ

にも共通する非再帰ルールがあれば，単にそのルールを強化するだけで良いので，ここでは一方

のループに対する非再帰ルールが必ずもう一方のループに対する再帰ルールになっている場合を

考える．

それぞれのループが，観測 o2以外の観測（観測 o1 と o3）で，抑制を行っている場合，それぞ

れ，その観測からループを抜け出るため，ループ系列の強化が防げる．

35

o1 o2 o3

loop 1 loop 2

図 4.2: 複数のループによりルールの種類が変化する場合

loop1，2のどちらかが，観測 o2で抑制を行い，もう一方のループが，それ以外の観測で抑制を

行っている場合，観測 o2以外の抑制された観測にて，ループを脱出することができる．

loop1，2共に観測 o2 で抑制を行った場合，loop1において，ルールの強化量の期待値を ∆と

表記すると，

∆(o2,−−→o2o3)−∆(o2,−−→o2o1) > 0 (4.4)

が成立し，かつ loop2において，

∆(o2,−−→o2o1)−∆(o2,−−→o2o3) > 0 (4.5)

が成立する必要がある．しかし，式 (4.4)と式 (4.5)を同時に満たすことはできないため，loop1，

2共に観測 o2で抑制は行えない．

以上より，それぞれのループにおいて，ループ系列内にある一つの観測で，そのループに対す

る非再帰ルールの強化がそのループに対する再帰ルールの強化を抑制できれば，それぞれのルー

プ系列の強化を防ぐために十分である．

ループ系列のある行動系列では，そのループ系列に対する再帰ルールを経験し，その後そのルー

プ系列に対する非再帰ルールを経験している．MDPs環境下では，状態遷移と行動系列の情報が

一致するため，目標状態に近いルールが遠いルールの強化を抑制すれば，ルールの強化を抑制で

きる．ループ系列に至る状態で，抑制を行う方法が拡張合理性定理（3章）であり，常に抑制を行

う条件が合理性定理[宮崎 94]である．いずれも，抑制を行う時の強化関数は等比減少の形となる．

36

4.6.2 必要なルールを均一に選択するための条件

報酬獲得に必要なルールを均一に強化し，行動選択にルーレット選択を用いると，報酬

獲得に必要なルールの選択確率は均一に近づき，報酬獲得に不要なルールの選択確率は 0

に近づくことを証明する．ある観測 oi において，m 個のルールが存在する場合を考える．

各ルールは (oi, a1), (oi, a2), . . . , (oi, am) とする．また，報酬獲得に必要なルールは n 個とし，

(oi, a1), (oi, a2), . . . , (oi, an)（n ≤ m）とする．ルール (oi, aj)の評価値を ω(oi, aj)とする．ある

エピソードにより，この観測が強化量 Rで強化された場合の各ルールの選択確率を考える．強化

されたルール (oi, aj1)（j1 = 1, 2, . . . , n）の選択確率は，

ω(oi, aj1) + R∑mk=1 ω(oi, ak) + R× n

(4.6)

となる．強化を繰り返し，R→∞となる場合を考える．

limR→∞

ω(oi, aj1) + R∑mk=1 ω(oi, ak) + R× n

= limR→∞

ω(oi, aj1)/R + 1∑mk=1 ω(oi, ak)/R + n

=1n

(4.7)

また同様に，強化されないルール (oi, aj2)（j1 = n + 1, n + 2, . . . ,m）の選択確率は，

ω(oi, aj2)∑mk=1 ω(oi, ak) + R× n

(4.8)

であり，同様に計算すると，

limR→∞

ω(oi, aj2)∑mk=1 ω(oi, ak) + R× n

= 0 (4.9)

である．よって，報酬獲得に必要なルールの選択確率は均一に近づき，報酬獲得に不要なルール

の選択確率は 0に近づくことが証明された．

POMDPs環境において，報酬獲得に必要なルールが常にエピソードに含まれるためには，エー

ジェントのスタート状態は常に同じ状態に固定されている必要がある．以上をまとめると，次の

定理 4.2が得られる．

定理 4.2 決定的状態遷移を持つ問題における POMDPs環境において，ランダム選択より有効な

性能を持つための強化関数の条件は，

f(x) =

αox ルールλの強化が初めての場合．

0 それ以外の場合． (4.10)

である．ここで，ルール λは f(x)に強化されるルールである．αox は各観測 ox ごとに一定であ

る必要がある．

37

次節で定理 4.2を満たす報酬分配方法を示し，真のループ系列の強化の抑制が行われているこ

とを示す．

4.7 EPS（Episode-based Profit Sharing）: 新しい報酬分配方法

本節では，不完全知覚の影響を受けない報酬分配方法としてEPS（Episode-based Profit Sharing）

を提案する．まず，EPSの基本となる報酬分配方法として single-EPSを提案する．single-EPSの

強化方法がループ系列の強化を抑制することを証明する．次に，強化に用いる行動系列内の部分

的な行動系列を利用して強化を行うことが可能なことを示し，この分配方法を EPSとする．常に

部分的な行動系列を利用できる場合，従来強化関数として用いる等比減少関数と一致することを

示す．最後に，実験を行い EPSの有効性を確認する．

4.7.1 Single-EPS[植村 04b]

single-EPSの報酬分配方法は，

f(x) =

1/LW ルールλの強化が初めての場合．


である．ここで，W は行動系列の長さであり，Lは各観測における非再帰ルールの数である．一

般に Lはルールの数− 1とすることで十分である．また，観測ごとにルールの数が異なり管理が

難しい場合は，最大となるルールの数を用いることで十分である．式 (4.11)が定理 4.2を満たす

ことは明らかである．EPSとは，式 (4.11)のように，エピソードを一括して強化することにちな

んだ名前である．

4.7.2 ループの強化の抑制

single-EPSの強化が真のループ系列の強化を抑制していることを示す．

真のループ系列では，強化量の期待値を∆とすると，観測 olにおける再帰ルールと非再帰ルー

ルの強化量の期待値の間には，

∆(ol,非再帰ルール) > ∆(ol,再帰ルール) (4.12)

が成立することを証明する．

38

証明

single-EPSの強化が真のループ系列の強化を抑制していることを証明する．複数の観

測 ol（l = 1, 2, . . . ,M，1 ≤ M）で真のループ系列を一つ構成する場合を考える（図

4.3）．まず，真のループ系列の強化の抑制が最も困難となる観測 ol の条件を検討す

る．ループ系列の分岐でない観測は，ループの強化に関係しないため，除外して考え

る．ループ系列の分岐となる観測 olでは，ルールは再帰ルールと非再帰ルールの二種

類存在する．再帰ルールの数が少ないほうが，再帰ルールの強化量が増えるため再帰

ルールの強化の抑制が困難になる．非再帰ルールの数が多いほうが，非再帰ルールの

強化量が減るため再帰ルールの強化の抑制が困難になる．よって，L個の非再帰ルー

ルと，1個の再帰ルールという組み合わせが最も強化の抑制が困難である．観測 ol ま

でに nl1 回行動選択を行っており，非再帰ルールを選んだ後は nl2 回行動選択を行う

ものとする．また，それらを合わせ，Nl = nl1 + nl2 とする．再帰ルールを選ぶ確率

を pa とする．観測によって確率に偏りがある場合，最も抑制しやすい観測で抑制す

ればよいため，pa と Lはすべての観測で同じ値となる場合が，最も強化の抑制が困

難である．非再帰ルールの選択確率も同様に，どの観測のどの非再帰ルールも同じ確

率 (1− pa)/Lの場合が，最も再帰ルールの強化の抑制が困難である．それぞれのルー

ルの期待値を計算する．

観測 ol において非再帰ルールを強化する場合は，任意の観測からループ系列に入り，

0回以上ループ系列を経て，その後観測 olにて非再帰ルールによりループを抜け出る

場合である．再帰ルールを強化する場合は，任意の観測からループ系列に入り，観測

ol にて再帰ルールを選択し，0回以上ループ系列を経て，その後非再帰ルールにより

ループを抜け出る場合である．

∆(ol,非再帰ルール) =1L

M−1∑j=0

∞∑i=0

(paM )ipa

j(1− pa)× r

LNl+Mi+j+1(4.13)

∆(ol,再帰ルール) =M−1∑k=0

M−1∑j=0

∞∑i=0

(paM )ipa

jpapak(1− pa)× r

LNl+Mi+j+k+2

(4.14)

よって，期待値の差は，

∆(ol,非再帰ルール)−∆(ol,再帰ルール)

=M−1∑j=0

∞∑i=0

(paM )ipa

j(1− pa)× r

LNl+Mi+j+1

(1L−

M−1∑k=0

pak+1

Lk+1

)

39

L

pa

o1

pa

pa

o2

L

oM

L

pb

pb

pb

図 4.3: ループへ至るルールの抑制が最も困難な場合（状態遷移が決定的な場合は，pb=0）

>M−1∑j=0

∞∑i=0

(paM )ipa

j(1− pa)× r

LNl+Mi+j+1

(1L− pa

L

11− pa

L

)

=M−1∑j=0

∞∑i=0

(paM )ipa

j(1− pa)× r

LNl+Mi+j+1

L− 1Lpa− 1

≥ 0 (4.15)

なぜなら，0 < pa < 1，1 ≤ L，そして 0 < r だからである．よって，single-EPSの

真のループ系列の強化の抑制が証明された．

よって，single-EPSの強化により，真のループ系列の強化の抑制が保証される．

偽のループ系列では，single-EPSはその観測のルールのうち，報酬獲得に用いたルールをすべ

て均一に強化する．このとき，行動選択にルーレット選択を用いると，報酬獲得に必要なルール

の選択確率は均一に近づき，報酬獲得に不要なルールの選択確率は 0に近づく（証明は 4.6.2節

参照）．single-EPSを用いると，報酬獲得に必要なルール集合上での，ランダム選択を獲得する

ことができる．

40

4.7.3 部分的な行動系列の利用

行動系列 (o1, a1), (o2, a2), . . . , (oW , aW )を経験して報酬 rを獲得したとき，時刻 tから始まる

部分的な行動系列 (ot, at), (ot+1, at+1), . . . , (oW , aW )を考える（t = 1, 2, . . . ,W）．時刻 t以前を

無視して，時刻 tから始まる部分行動系列を用いて学習することも可能であり，それを複数の t

（t = 1, 2, . . . ,W）に関して重ね合わせることも可能である．

POMDPs 環境において適切に重ね合わせを行うための条件を求める．観測 ot1 と観測 ot2

（1 ≤ t1 < t2 ≤W）が同一の観測であると仮定する．しかし実際の状態 st1 と状態 st2 は，不完全

知覚の影響により同一でない可能性がある．このとき，定理 4.2を満たすためには観測 ot1 と観測

ot2 の間にあるルール (ot, at)（t1 < t ≤ t2）から開始する行動系列を，部分的な行動系列として採

用することはできない．逆に，ルール (ot, at)（t ≤ t1もしくは t2 < t）からルール (oW , aW )まで

の部分的な行動系列を利用して強化することは，定理 4.2を満たし，POMDPs環境における強化

に問題は生じない．複数の観測が不完全知覚の影響を受ける場合も同様である．観測 ot1 と観測

ot2 の間の行動系列を観測上のループと呼ぶ．行動系列内のルール (ot, at)が観測上のループ内か

どうかのフラグを dtとする．dt は，

dt =

0 otが観測上のループ内にある場合．

（t1 < t ≤ t2, ot1 = ot2）．


と定義する．

部分行動系列 (ot, at), (ot+1, at+1), . . . , (oW , aW )を強化する際は，行動系列の長さW − t + 1，

獲得報酬 rとして強化できる．このとき複数の tに関する重ね合わせを行うと，ルール (ox, ax)の

強化量 f(x)は，

f(x) =W∑

k=x

1Lk

dk， (4.17)

となる．ここで，分配関数の引数 xと行動系列の選択の時間軸の引数 tは，軸の方向が逆である

ことに注意する必要がある（図 4.4）．部分行動系列に対する single-EPSを重ね合わせた分配方

法を，EPSと呼ぶ．

4.7.4 Episode-based Profit Sharing[Uemura 04a]

EPSの報酬分配方法は，

f(x) =

∑Wk=x

1Lk dk ルールλの強化が

初めての場合．

0 それ以外の場合．

41

when ot1 = ot2 .

x = W 1

t = 1 W W + 1

1/LW

1/L5

1/L1

Episode

dx

ot1 ot2 r�

. . .

. . .

. . .

. . .

. . .

. . .

......

1 1 1 1 1 0 0 0 1 1

� � � � � � � � � ��

� � � � � � � � ��

� ��

� � � � � ��

� � � � � � ��

� � � � � � � � � ��

図 4.4: 部分的な行動系列の利用

(4.18)

である．一つの行動系列からたくさんの情報を得るため，重ね合わせを用いる EPSの方が，用い

ない single-EPSより学習の立ち上がりが早くなる．部分行動系列の情報を利用できるので，探索

能力が高く学習の性能向上が期待できる．

MDPs環境では，すべての tに対し dt = 1（t = 1, 2, . . . ,W）であり，エピソードに重複する

ルールが存在しない場合，強化関数 f(x)は，

f(x) =W∑

k=x

1Lk， (4.19)

となる．行動系列の長さW →∞とすると，強化関数 f(x)は初項 L/(L − 1)，公比 1/Lの等比

減少関数となる．これは，従来用いられている公比 1/Lの等比減少関数と一致する．

4.7.5 重複するルールの扱い

EPSでは，あるルールが行動系列内に複数現れる場合，そのルールは一度だけ強化する．よっ

て，行動系列の長さW のかわりに，重複したルールを除いた行動系列の長さW ′を用いることが

考えられる．重複したルールの存在は，真のループ系列，もしくは偽のループ系列の存在を意味

する．4.7.2節の真のループ系列の強化の抑制の証明において，ループの出現回数は iで表現して

42

いるが，再帰ルール，非再帰ルール両方の計算に共通しているため，長さW ′ を用いてもループ

の強化の抑制の証明は同様に成立する．以後，行動系列の長さは重複したルールを除いた長さW ′

を用いる．

4.7.6 実験

EPSの有効性を実験にて確認する．POMDPs環境では，不完全知覚の影響を受けている状態

の割合をエージェントは知ることができない．ここでは，全状態のうち不完全知覚が半分生じる

場合と，まったく生じない場合の実験を行う．そして，最後に現実的な条件として，センサーが

壊れた場合の実験を行う．

まず，不完全知覚の影響を受けている状態と受けていない状態が半分ずつ存在する環境（図 4.5）

で実験を行う．各状態では，エージェントは 4方向から一つを選択する．選択した方向が図中の

矢印の方向と一致すれば次の状態に遷移し，一致しない時は遷移しない．エージェントは状態 s1，

状態 s2，そして状態 s3 を同一観測 o1 として知覚する．それぞれ遷移に必要な行動は，右，下，

そして上であるため，エージェントは o1を知覚する時は，左以外の三方向をランダムに選択する

必要がある．状態 s4，状態 s5，そして状態 s6では，観測と状態が一致するため，それぞれ遷移す

る行動を学習する必要がある．目標状態 sgoalに遷移すると報酬 10を獲得し，スタート状態 sstart

に戻る．状態 sstartと状態 sgoalにおける遷移は数えないものとし，観測 o1における不完全知覚を

適切に分離できた場合の最適な政策は 6ステップで目標状態に到達し，分離できない場合では観

測 o1 にて左以外をランダムに選択する政策が最適であるため，平均 12ステップで目標状態に到

達する．単位行動数（steps）当たりの獲得報酬量（received rewards）を性能とし，100回平均で

評価する．また，学習を進める能力として，性能の傾きを学習性能とする．分離できない場合の

最適政策では 10/12 0.833となる．結果が図 4.6である．比較対象である Sarsa(λ)の行動選択

器には εグリーディを用い，90%の確率で最大の評価値の行動を選び，10%の確率でランダムに行

動を選択する．従来の等比減少関数を用いた Profit Sharingを PS（Decrease）とする．従来法は，

行動選択回数が少ない時は不完全知覚の影響が少ないが，学習が進み不完全知覚の影響が大きく

なると，性能が下がることがわかる．EPSのみが不完全知覚の混同に影響されず，学習を進めて

いることがわかる．なお，メモリベース法である USMでは，木の深さを順に深くしていくため，

観測 o1 の分離の際，観測 ostart から遷移した場合と観測 o1 から遷移した場合の集合に分けて検

定を行う．観測 ostart から遷移した場合の観測 o1 の価値は遷移先が常に観測 o1 であるため観測

o1の価値であるQ(o1)となり，観測 o1から遷移した場合の観測 o1の価値は，遷移先が観測 o1の

場合と観測 o4の場合があるため，Q(o1)とQ(o4)の価値の履歴が混在する．このとき，いずれの

履歴集合にも価値 Q(o1)が存在するため，検定を行っても有意な差を見出すことができず，適切

43

に観測を分離できない．学習器にQ-Learningを用いるため，性能は Q-Learningと同等となる1 ．

次に，不完全知覚の生じない場合での学習性能を比較する．環境はMDPsのクラスになるため，

MDP環境での代表的な迷路走行タスク [Sutton 90]を用いる．迷路は，図 4.7の構成である．状

態 Sから状態Gまでの走行問題であり，壁への行動を選択すると，状態は変化しないものとする．

報酬は 10，最短経路は 14ステップであるため，最適政策は 10/14 0.714である．結果は，図 4.8

である．4.7.5節で議論した重複するルールをすべて数える方法が single-EPS(W)とEPS(W)であ

り，重複するルールを数えない方法が single-EPS(W’)と EPS(W’)である．EPS(W)と EPS(W’)

はほぼ同じ性能を示したため，EPS(W’)のみを示す．重ね合わせを行わない single-EPSでは，重

複するルールを数えない強化の方が若干性能の立ち上がりが早い．これに関しては次節で考察す

る．部分行動系列の重ねあわせを行わない single-EPSに対して重ね合わせを行う EPSの方が，学

習に用いる情報が多い分，学習の立ち上がりが早い．どの EPSも再帰ルールの強化の抑制が実現

できており，適切な学習が確認できる．従来の等比減少関数を用いた強化関数の場合は示してい

ないが，分配方法が EPS(W)と類似しているため，性能差はほとんどなかった．

最後に，実際の POMDPs環境の問題として，センサーが故障した場合を実験する．問題環境は

図 4.9である．先ほどの図 4.7の迷路において，真ん中の 2つの行で横軸のセンサーが壊れ，同じ

行の状態をそれぞれ Aと B として知覚する．どちらの観測でも，報酬獲得に必ず必要な行動は，

上と下への移動である．右や左への移動は，報酬獲得に必ずしも必要ではないが，報酬を獲得す

る行動系列に含まれる場合がある．これは，センサーの故障により，局所解が多数生成されたと

考えられる．結果は，図 4.10である．EPSと Sarsa(λ)が学習を進めている．EPSの学習は，局

所解に落ち着いたため，性能の収束値が最適値2 の半分程度になったものと考えられる．Sarsa(λ)

は，不完全知覚の影響を受けにくいため学習を進めているが，不完全知覚の影響を適切に回避し

ていないため，EPSよりも悪い性能になったと考えられる．センサーの故障といった予測できな

い事態に対しても，EPSの報酬分配は実用に耐えられることがわかる．

4.8 EPSの報酬分配に関する考察

この節では，EPSの報酬分配方法が持つ意味について考察する．部分的な行動系列を用いる場

合と用いない場合で，行動系列の長さが報酬の分配量に与える影響について検討する．また，行

動系列内の重複するルールの数え方が，報酬の分配量に与える影響について検討する．そして，

非決定的状態遷移を持つ問題における POMDPs環境での報酬分配について検討し，最後に，従

来の POMDPs環境に対するアプローチとの比較を行い，EPSの特徴を確認する．

1 不完全知覚では，Q-Learning の性能は，Sarsa(λ) より悪い．2 観測 Aと観測 B において，上下の行動を半分の確率で選択する政策を最適とし，実験環境にて同様に実行した結

果，平均性能 0.375 を得た．

44

sstart s1 s2 s3 s4 s5 s6 sgoal

o1

Agents can select an action from 4 actions{Left, Right, Up, Down}.

o4 o5 o6

図 4.5: 実験環境

0

0.5

1

0 200 400

the number of steps

rece

ived

rew

ards

/ st

eps

Sarsa(λ )PS(Decrease)RandomWalkEPS

4)

4)

1)

1)

2)

2)3)

3)

図 4.6: POMDP環境の性能

45

1

2

3

S

4

5

6

7

8

9

10

11

12

13

■

■

■

14

15

16

17

18

19

20

21

22

23

24

25

26

27

■

28

29

30

31

32

33

34

35

36

37

38

39

40

■

■

■

41

42

43

44

45

G

図 4.7: Suttonの迷路

0

0.2

0.4

0.6

0 5000 10000the number of steps

rece

ived

rew

ard

s /

step

s

Sarsa(λ )EPS(W')

single-EPS(W')

single-EPS(W)

1)

1)

2)

3)

4)

2)

3)

4)

図 4.8: MDP環境の性能

46

1

2

B

S/A

4

5

6

7

B

A

10

11

12

13

■

■

■

14

15

16

B

A

19

20

21

22

B

A

25

26

27

■

B

A

30

31

32

33

B

A

36

37

38

39

B

■

■

■

41

42

B

A

45

G

図 4.9: センサーが一部故障した条件での迷路

0

0.1

0.2

0.3

0 10000 20000 30000

the number of steps

rece

ived

rew

ard

s /

step

s

Sarsa(λ )DecreasingPS

EPS

1)

2)

3)

1)

2)

3)

図 4.10: センサー故障環境での性能

47

ot

ot

W1

W1+1W2-1

W2

a(t,1)

a(t,2)

A)

B)

図 4.11: 行動系列の長さの違いによる強化量の違い

4.8.1 部分的な行動系列の利用の効果

部分的な行動系列の利用の効果を検討する．部分的な行動系列を利用できる場合に，利用した

場合（EPS）と利用しなかった場合（single-EPS）のルールの強化量の違いを考える．

ある観測 ot において，ルール (ot, a(t,1))とルール (ot, a(t,2))の獲得する報酬量 rが同じと仮定

する．ルール (ot, a(t,1))を選んだ後の行動系列の長さをW1 とし，ルール (ot, a(t,2))を選んだ後

の行動系列の長さをW1 + 1とする．また，ルール (ot, a(t,1))までの行動系列の長さをW2 とし，

ルール (ot, a(t,2))までの行動系列の長さをW2 − 1とする（図 4.11）．簡単のために，行動系列内

にルールの重複はないものとする．

EPSでは，強化関数は公比 1/Lの等比減少関数となる．このとき，ルール (ot, a(t,2))を L回選

んだ場合の強化量と，ルール (ot, a(t,1))を 1回選んだ場合の強化量が等しくなる．つまり公比 L

の等比減少関数を用いた強化関数は，行動系列の長さ 1の違いに対して L倍の価値の違いを与え

る．single-EPSでは，強化対象のルールまでの行動選択回数も分配量に影響する．図 4.11 の場

合，ルール (ot, a(t,1))とルール (ot, a(t,2))のいずれも，長さW1 + W2の行動系列に対する強化の

ため，同じ分配量となる．single-EPSは，行動系列全体の長さを考慮してルールを評価するが，

EPSはそのルール以降の行動系列の長さのみを考慮した評価を行う．したがって，図 4.11B)の

前半と図 4.11A)の後半を組み合わせたより短い行動系列を簡単に見つけることができる．この探

索能力の高さが，学習性能の高さ（図 4.8）や最終的な性能の高さにつながることが期待できる．

48

4.8.2 行動系列内の重複するルールの数え方

次に，行動系列内にルールの重複がある場合を考える．強化対象のルールまでに重複がある場

合，EPSでは強化対象のルールまでのルールの数は強化するルールの評価に関係しないため，強

化量に影響はない．single-EPSでは，重複するルールを数えると，ルール (ot, a(t,1))の価値を低

く評価することとなる．そのため single-EPSでは，重複するルールを数えない場合は，数える場

合に対して学習性能が向上した．

4.8.3 非決定的状態遷移を持つマルコフ決定過程環境下での学習

MDPs環境の状態遷移に非決定性が含まれる場合，報酬獲得に必要なルールが常に同じでない

場合が生じる．そのため，複数のエピソードにおいて，それぞれのルールを均一に強化しても，

選択確率が偏り，ランダム選択に劣る可能性がある．

ここで，状態遷移の非決定性を考慮した，再帰ルールや非再帰ルール，ループ系列を定義する．

同じルールを選択し続けると，確率 1でループし続ける系列をループ系列とする．ループ系列から

抜け出る分岐となる状態において，ループ系列上の状態に遷移する確率が常に 1であるルールを

再帰ルール，それ以外を非再帰ルールと呼ぶ．ループ系列は，再帰ルールのみで形成されている．

このとき，4.7.2節の真のループ系列の強化の抑制の証明は，状態遷移に非決定性を加えても成

立することを証明する．

証明

非決定的な状態遷移環境における single-EPSの真のループ系列の強化の抑制を証明

する．4.7.2節の環境の状態遷移が，非決定的である環境を考える（図 4.3）．非再帰

ルールの状態遷移は，確率 pbにて非決定的に観測 ol に遷移するものとする．観測 ol

以外への非決定性による遷移がある場合，同様に観測 ol 以外から観測 ol への遷移も

存在する．そのため，非決定性による遷移先を観測 olだけに固定するのは，一般性を

失わない．また，確率 pb も偏りがない場合が最も強化の抑制が困難である．よって，

確率 pb にて観測 ol に遷移する L個の非再帰ルールと，1個の再帰ルールという組み

合わせが最も強化の抑制が困難である．

非再帰ルールを選び，非決定性により観測 ol に戻る回数を hとする．観測 ol におい

て非再帰ルールを強化する場合は，任意の観測からループ系列に入り，0回以上ルー

プ系列を経て，その間任意の観測にて非再帰ルールを h回選択し，その後観測 olにて

非再帰ルールによりループを抜け出る場合である．再帰ルールを強化する場合は，任

意の観測からループ系列に入り，観測 ol にて再帰ルールを選択し，0回以上ループ系

49

列を経て，その間任意の観測で h回非再帰ルールを選択し，その後非再帰ルールによ

りループを抜け出る場合である．

∆(ol,非再帰ルール) =1L

M−1∑j=0

∞∑i=0

∞∑h=0

(paM )ipa

j(1− pa)h+1

×pbh(1− pb)

r

LNl+Mi+j+h+1(4.20)

∆(ol,再帰ルール) =M−1∑k=0

M−1∑j=0

∞∑i=0

∞∑h=0

(paM )ipa

jpapak(1− pa)h+1

×pbh(1− pb)

r

LNl+Mi+j+k+1+h+1

(4.21)

となり，いずれの式にも，∑∞

h=0(1− pa)hpbh(1− pb) 1

Lh が同様に加わり，証明は 4.7.2

節と同様に成立する（なぜなら，0 ≤ pb < 1であるから．）．なお，閉じたループ系列

における最も抑制が困難な場合は，M = 1の場合である．

非決定性のために，適切に報酬が分配できなくなるのは以下の場合である．不完全知覚により，

一つの観測に対して複数のルールを必要とし，かつ，そのルールが非決定性により必要となる時と

ならない時がある場合である．その場合，観測上のループにおいて，非決定的にループから出る

遷移や，ループに入る遷移が存在し，観測上のループを抜け出るために必要なルールがエピソー

ドに含まれたり含まれなかったりする．そのため，それらの必要なルールの強化量が均一になら

ず，ランダム選択より性能が劣る．つまり，不完全知覚問題と状態遷移の非決定性が同時に起こ

る状態で，かつその観測において必要とするルールがエピソードごとに変化する場合に，EPSは

適切に報酬を分配できない．

4.8.4 部分観測可能マルコフ決定過程環境に対する従来法との比較

EPSは，問題環境に存在する状態のうち，不完全知覚の影響を受ける観測状態の割合を知る必

要がない．行動系列の構成に必要なルールをすべて均一に強化するだけである．不完全知覚の影

響を受ける観測状態では，行動系列の構成に複数の行動が必要になるが，EPSでは，それらをす

べて均一に強化する．不完全知覚の影響を受けない観測状態では，必要な行動が一つだけであり，

EPSはその行動を優先的に強化し，適切に学習を進めることができる．メモリベース法では，履

歴の長さとして不完全知覚の影響を受けている観測状態の割合を知る必要があるが，EPSはその

ような情報を必要としない特徴がある．ただし，メモリベース法において，うまく不完全知覚を

解消できた場合，EPSより良い性能になる可能性がある．

観測状態が不完全知覚の影響をうけているかどうかを統計的に判断する PS-r*では，不完全知

50

覚が存在すると判定された観測ではランダムに行動が選択されるため，そのような観測において

は何度試行しても性能が向上することはない．EPSは不完全知覚の影響下では，必要な行動を均

一に強化し，必要な行動だけでランダム選択を行う．報酬獲得に必要な行動に対してランダム選

択を行うため，すべての行動に対するランダム選択と比べて，報酬獲得に不要な行動を選ばない

分，性能が向上することが期待できる．すべての行動が報酬獲得に必要な場合は，EPSは全行動

に対するランダム選択を学習するため，統計的な判断と同じ性能に収束する．不完全知覚問題と

状態遷移の非決定性が同時に起こる状態で，かつその観測において必要とするルールがエピソー

ドごとに変化する場合にのみ，EPSはランダム選択より劣る．PS-r*では，統計的な判断を行う

ために十分な試行回数を必要とするが，EPSは不完全知覚の影響を受けているかどうかの判断を

行う必要がないため，学習の立ち上がりの早さが期待できる．

4.9 あとがき

従来 Profit Sharingの報酬分配関数である強化関数には，ループ系列の強化の抑制のために等

比減少関数を用いることが多い．しかし，POMDPs環境では等比減少関数によるルールの強化

の抑制がループ系列の強化の抑制に結びつかない場合があるために，等比減少関数を用いてはい

けない．POMDPs環境においても適切に報酬を累積するためには，報酬獲得に用いたルールの

選択確率を等しくなるように強化すれば十分で，決定的状態遷移を持つ問題における POMDPs

環境の場合，すべて均一に強化する必要があることを示した．

以上の条件を満たした報酬分配方法として EPSを提案した．部分的な行動系列を利用しない

single-EPSの報酬分配は，行動系列内の各ルールに一度だけ均一の分配量を与える．ループ系列

が存在する環境において，single-EPSがループ系列の強化を抑制できることを証明した．次に

single-EPSを，部分的な行動系列を用いた報酬分配方法へと拡張し，EPSとした．MDPs環境で

は，従来の分配方法である等比減少関数と一致することを示した．非決定的状態遷移を持つ問題

における POMDPs環境では，不完全知覚問題と状態遷移の非決定性が同時に起こる状態で，か

つその観測において必要とするルールがエピソードごとに変化する場合に，EPSは適切に報酬を

分配できないことを示した．

不完全知覚が半分生じる POMDPs環境と，生じないMDPs環境の二つの環境にて実験を行っ

た．POMDPs環境でも，MDPs環境でも，適切に報酬を累積できていることが確認できた．そ

して，現実的な条件として，センサーが壊れた場合の実験を行った．EPSの報酬分配が，実用に

耐えられることを示した．

EPSは，POMDPs環境でもMDPs環境でも，適切に報酬を累積できた．EPSの部分行動系列

の利用による報酬分配と，重複するルールの扱いについて検討した．EPSは過去の履歴や統計的

51

な情報を使わず，不完全知覚問題を解決する．そのような情報が不完全知覚の学習を適切に解消

できる場合，従来法が優れている場合がある．そのため，今後の課題として，従来法と組み合わ

せることが考えられる．過去の履歴が，有効な場合と無効な場合のどちらの場合でも，優れた学

習を行うことが期待できる．

52

第5章評価値と報酬分配の関係について

5.1 まえがき

経験強化型の強化学習である Profit Sharing[Grefenstette 88]は，学習の立ち上がりが早く，複

雑な環境での適用が期待されている．また，状態遷移が理想的な問題環境であるMDPs（Markov

Decision Processes）環境だけでなく，非 MDPs 環境である POMDPs（Partially Observable

Markov Decision Processes）環境の一部においても学習できる [宮崎 99a]．そのため，これから

の強化学習法として，期待されている．

Profit Sharingでは，目標状態に到達した際に獲得する報酬を，それまでの行動系列に分配する

ことで，学習を進める．報酬を分配する関数を，強化関数と呼ぶ．また，分配した値を，評価値と

して累積し，行動選択時の判断に用いる．強化関数の報酬分配として，MDPs環境下での条件で

ある合理性定理[宮崎 94]が提案されており，決定的な状態遷移を持つ問題に対する POMDPs環

境下での報酬分配方法 EPS（Episode-based Profit Sharing）は 4章で議論した．いずれの分配方

法においても，強化関数は指数的な表記を持つ関数となる．例えば，MDPs環境においては，等

比減少関数が報酬分配に適した関数である．

強化関数が指数的な表記を持つ関数であるため，環境のサイズが大きくなるなどにより行動系

列が長くなるほど，分配量は著しく少なくなる．そのため，学習の進行が非常に遅くなり，学習

が困難になることが指摘されている [荒井 01]．また，獲得する報酬量の大小よりも，報酬獲得ま

での行動選択回数の大小を極端に反映した価値を与えるため，大きさの異なる報酬値を扱う場合，

行動数あたりの獲得報酬量が大きく減少する可能性がある．そのため本章では，報酬値は一つの

場合に限定する．

本章では，評価値と強化関数による分配量との関係を議論する．評価値は，学習開始時の初期

値と，学習により分配された分配量の累積である累積量に分けることができる．初期値が分配量

よりも大きいと，分配量が評価値に反映されにくい．これを学習速度の問題と呼ぶことにする．

一方，初期値が分配量よりも小さいと，一回の分配の影響が大きく，最適でない解を学習する可

能性が高くなる．これを経験への固執問題と呼ぶことにする．評価値の初期値は，最適経路を経

た時に得る分配量のみが反映されるように設定するのが望ましい．これを，適切な初期値とする．

学習初期では，最適経路の情報を知ることができない．また，適切な初期値は，状態ごとに異な

53

るため，全ルールで一律の初期値を設定する方法には限界がある．

本章では，行動選択器にルーレット選択方法を用いる場合の，各状態ごとに評価値の初期値を

設定する方法を提案する．Profit Sharingの強化は，他の状態のルールの評価値を参照しない非

ブートストラップ型の強化であるため，各状態において独立して評価値を扱うことができる．提

案手法では，各状態で，現在設定している初期値よりも，適切な値に近い初期値が存在すること

がわかれば，新たに初期値を設定し直し，その状態での学習を 0からやり直す．その際の分配量

にあわせて，適切な初期値を設定することで，学習速度の問題が解決する．ランダム探索で得た

経路に対する初期値から開始し，最終的には，学習収束時の経路に対する初期値へ更新する．初

期値を適切な値へと更新することで，学習初期の経験に固執する問題が解決する．以上の方法に

より，学習速度の問題と経験への固執問題を解決する．

提案手法は，各状態ごとに，学習が進むように独立した評価値の初期値を決める．そのため，問

題環境のサイズが増加したりすることでエピソード長が増加しても，学習を進めることが期待で

きる．また，提案手法は，現在提案されている抑制条件を満たすどんな強化関数の場合でも，初

期値の設定を自動的に行えるため，MDPs環境に対する強化関数だけでなく，POMDPs環境や

その他の環境において報酬獲得に貢献しないルールの抑制条件を満たす強化関数に対しても，適

用が期待できる．

以下， 5.2節では Profit Sharingにおける報酬分配について検討する．5.3節では，強化関数に

よる分配量と，評価値の関係について議論する．特に，評価値の初期値が適切な範囲でない場合

に，問題が生じることを明らかにする．5.4節では，その問題を解決するために，状態ごとに評価

値の初期値を独立して設定し，更新する手法を提案する．5.5節において，実験にて効果を確認

し，5.6節にて考察する．5.7節にて，実装の際に生じる桁あふれの問題を扱い，最後に，5.8節

でまとめる．

5.2 Profit Sharing

Profit Sharingは，正の報酬 rt+1を獲得した時に，エピソード内の各ルールに報酬 rt+1の一部

を分配し，それを累積することで強化を行う．報酬を分配する関数を強化関数 f(x)と呼び，目標

状態からさかのぼって分配するため，強化関数の引数 xは，エージェントのルール選択時の時系

列 tと逆方向となる．各ルールに累積された報酬の値を評価値と呼び，ルール選択時の判断基準

に使われる．

強化関数による報酬 rt+1の分配は，次式に従う．

ω(sx, ax)← ω(sx, ax) + rt+1 × f(x) (5.1)

54

EPS-POMDPs環境で用いる強化関数:f(x)

f(x) =

∑W

k=x 1/Lk × dk ルールλの強化が初めての場合．

0 それ以外の場合

ここで，dt は，

dt =

0 otが観測上のループ内にある場合．（t1 < t ≤ t2, ot1 = ot2）．

1 それ以外の場合．

である．

観測上のループとは，エピソード内の観測 ot1 と観測 ot2 において時刻 t1 と時刻 t2は異なるが，同じ観測を持つ場合の，観測 ot1 と観測 ot2 の間の範囲のことである．

図 5.1: POMDPs環境で用いる強化関数（EPS）

ここで，ω(sx, ax)は，ルール (sx, ax)の評価値である．Profit Sharingでは，報酬の獲得に直接貢

献したルールを強化するため，報酬獲得に貪欲であり学習の立ち上がりが早いという特徴を持つ

が，学習したルールが最適である保証はない [荒井 01]．過去の経験に基づく値であるため，評価

値の大きさに応じたルール選択方法（ソフトマックス行動選択法）を用いることが多い．一般的

に，評価値の比率に応じてルールを選択するルーレット選択が，よく用いられる．ほかにも，ボ

ルツマン分布に従った割合で，ルールを選択する方法などがある．

強化関数 f(x)に対して，報酬獲得に貢献しないルールの強化を抑制する条件が，提案されて

いる．その条件に従うと，抑制対象のルールの数を αとして，知覚能力に制限のないMDPs環

境では，強化関数は一般に等比減少関数である f(x) = 1/αx を用いる [宮崎 94]．4章で議論し

た single-EPSの強化関数は，エピソードの開始状態が固定されており，状態遷移が決定的な問題

環境に対してエージェントの知覚能力が制限された POMDPs環境で適用できる．この環境を，

EPS-POMDPs環境とする．single-EPSの強化関数は，f(x) = 1/αW である．ここで，W は，エ

ピソードの長さである．また，両方の分配条件を考慮した分配方法として EPSを 4章にて提案し

た（図 5.1）．いずれの抑制手法においても，αは，各状態におけるルールの数 Lで十分であるこ

とが証明されている．

合理性定理に従う強化関数や EPSの強化関数では，エピソードが 1長くなると分配量が 1/α倍

55

になる．αが大きくなるほど，報酬値の差よりも距離の差を優先した価値を与える．例えば割引

率が 1/4の場合，10の報酬を獲得するルールに対して，獲得にそれより 3ステップ遠い報酬は，

640以上の報酬値でない限り，価値は低いとみなされる．よって，合理性定理に従う強化関数や

EPSの強化関数では，大きさの異なる報酬を扱う際に，獲得報酬量を多くするよりも必要行動数

が少なくなるように学習を行う．異なる報酬の値を適切に設定するのは困難であるため，本章で

は，報酬値は一つの場合に限定する．

エピソードが長いと，いずれの強化関数も，関数値は 0に近づく．Profit Sharingでは，評価値

の大きさに応じた確率で行動を選択するため，分配量が少なすぎると，行動選択確率がほとんど

変化しない．そのため，分配量が少ない場合は，学習に時間がかかることが懸念される．また逆

に，ルールの価値よりも分配量が不相応に大きい場合は，選択確率が大きく変化しそのルールに

固執するため，探索性が弱くなる可能性がある．状態やルールの価値を推定する強化学習である

Q-Learning[Watkins 92]や Sarsa[Rummery 94]では，評価値は理想値を持ち，行動選択時に理想

値に近づくように更新する．行動選択には一般に ε-greedy選択を用いる．そのため，各ルールの

理想値にほとんど差がない場合でも，ε-greedy選択により，わずかな差を検出できる．しかし，

ルーレット選択では，ルールの評価値がわずかな差の場合は，それらのルールは同じ選択確率に

なり，優れたルールを見つけることができない．評価値が理想値よりも大きい場合は，行動選択

ごとの評価値の更新により評価値は小さくなり，そのルールに固執することはない．この性質を

用い，全てのルールの評価値をあえて大きく設定し，探索能力を高める方法がオプティミスティッ

ク初期値である．報酬獲得時にのみ強化作業を行う Profit Sharingでは，使用できない．上記の

通り，Q-Learningや Sarsaでは問題にならないが，ルーレット選択を用いた Profit Sharingでは，

問題が生じる．

等比減少関数の公比を 1に近づけても，ループ系列の抑制が成立する場合は多い．そのため，3

章の拡張合理性定理に従う強化関数を用いることで，エピソード内のループ系列の有無の判断に

より強化関数の減少を遅らせることができる．しかし，分配量が少なくなることで生じる問題の

本質については，議論していない．また，MDPs環境を対象としており，POMDPs環境におけ

る報酬分配は検討していない．

POMDPs環境では，一つの観測に対して複数の行動を選択する必要が生じる場合がある．一つ

の観測に対して，常に一つの行動を選択する政策では，目標状態にたどり着けない．別の行動を

学習すべき状態を，同一観測として扱うことで生じる問題を，不完全知覚問題[Whitehead 90]と

いう．他の状態や他の状態のルールの価値を用いるブートストラップ型の強化学習では，不完全

知覚の影響を受けやすい [宮崎 99a]．Profit Sharingは，非ブートストラップ型の強化学習である

ため，不完全知覚問題に強い．不完全知覚問題を考慮した強化関数を用いることで，より不完全

知覚問題に影響されずに，学習を進めることができる．また，不完全知覚の影響がある状態では，

56

一つの観測に対して複数の行動を選択する必要があり，行動の組み合わせ数が増えるため，必要

な組み合わせを見つけるのは難しくなる．探索空間が大きくなるため，全ての組み合わせから最

適な組み合わせを見つけるよりも，報酬を獲得できた組み合わせを優先して強化するほうが，性

能が良い．Profit Sharingの報酬分配方法は，後者の特性を持っているため，POMDPs環境にお

いても効率的な学習が行える．

Profit Sharingの長所として，学習の立ち上がりが早い点と，POMDPs環境においても適切に

学習が進みやすい点が挙げられる．一方短所として，探索性が弱く，経験に固執して性能が上が

らない点と，問題環境が大きくなり必要な行動選択回数が増えると学習が進まない点が挙げられ

る．これらの短所は，いずれも評価値の初期値の設定に依存している問題であることを次節で議

論する．次節では，評価値は，初期値と分配量の累積の和であることに着目し，評価値の初期値

を適切に設定する必要があることを明らかにする．

5.3 学習速度の問題と経験への固執問題のトレードオフ

この節では，評価値と強化関数による分配量の関係について議論する．Profit Sharingでは，

ルールの重みである評価値に報酬を分配し，ルールの選択確率を高めることで，学習を進める．

ここで，学習の速度は，選択率の変化量に依存する．ただし，そのルールが最適である保証はな

いため，学習が進むことが必ずしも最適政策の獲得につながるとは言えない．

行動選択器に，ソフトマックス行動選択法に属する選択方法を用いる場合，ルールの評価値へ

の分配量に応じて選択確率が高まり，学習が進む．分配量がわずかな場合，選択確率がほとんど

変化しないため，学習が進まない可能性がある．ルーレット選択を用いる場合，評価値のわずか

な差は，選択確率に反映されにくい．ボルツマン分布に従う選択では，温度 T を調整することで，

評価値のわずかな差を選択確率に反映させることができる．しかし，5.2節で説明したような等比

減少関数を用いた場合，目標状態に近い状態のルールへの分配量と，遠い状態のルールへの分配

量の間に大きな差ができる可能性があり，一律な温度 T の調整では対応が難しい．議論を簡単に

するため，ここでは，ルーレット選択を対象とする．

まず，学習が進行しない場合を検討し，問題が生じるのは，分配量に対して評価値の初期値が

極端に大きすぎる場合のみであることを明らかにする．次に，学習が進みすぎる場合を検討する，

問題が生じるには少なくとも，分配量に対して評価値の初期値が小さすぎる必要があることを明

らかにする．そして，それらの問題が生じないための，評価値の初期値を検討する．なお，この

節では，状態 sに対する議論を行うが，それ以外の状態との関係を用いないため，不完全知覚問

題の影響は現れない．そのため，観測 oにおいても，同様に議論できる．

57

5.3.1 分配量に対して，初期値が大きすぎる場合

分配量による学習が進行しない場合を検討する．M 個のエピソードによる，ルール (s, ai)の強

化を考える．状態 sにおけるルールの数を Lとする．L = 1の場合は，学習の必要がないため，

L > 1の場合を議論の対象とする．

定義 5.1 学習が進まない場合

一番分配量の多いルールの選択確率が，常に学習開始時と同じ場合を，学習が進まな

い場合とする．つまり，

P (s, ai)m =1L

,∀m = 1, 2, . . . ,M. (5.2)

が，成立する場合である．

ここで，ルール (s, ai)は状態 sで最大の評価値を持つルールであり，m回目の試行時の選択確率

を P (s, ai)m とする．また，その時のルールの評価値を ω(s, ai)m とする．

学習が進まない場合に生じる問題について，検討する．評価値の初期値が，常に分配量よりも

極端に大きく，さらに分配量の総和よりも大きい場合，たとえ良いルールを学習しても，分配量

が少ないため，学習が進まない．これを学習速度の問題と呼ぶことにする．

定義 5.2 学習速度の問題の定義

ωinit(s)�m∑

n=1

∆ω(s, ai)n

,∀m = 1, 2, . . . ,M (5.3)

式 (5.3)を満たすときを，学習速度の問題とする．

なお，ωinit(s)は，状態 sで利用可能な各ルールの評価値の初期値であり，n回目のエピソードに

よるルール (s, ai)への分配量を∆ω(s, ai)n+1とする．学習速度の問題が生じる場合，学習が進ま

ない．また，学習が進まない場合に問題が生じるのは，定義 5.2の場合のみである．

証明

学習が進まない場合に生じる問題は，学習速度の問題だけであることを明らかにする．

m回目の試行に対するルール (s, ai)への強化量を，∆ω(s, ai)m+1 とする．m回目の

試行時のルール (s, ai)の選択確率 P (s, ai)m は，

P (s, ai)m

=ω(s, ai)∑L

j=1 ω(s, aj)

58

=ωinit(s) +

∑mn=1 ∆ω(s, ai)n∑L

j=1 (ωinit(s) +∑m

n=1 ∆ω(s, aj)n)

=1L× ωinit(s) +

∑mn=1 ∆ω(s, ai)n

ωinit(s) + 1L

∑Lj=1

∑mn=1 ∆ω(s, aj)n

(5.4)

であり，学習が進まない場合として，次の二つの場合が考えられる．

m∑n=1

∆ω(s, ai)n =1L

L∑j=1

m∑n=1

∆ω(s, aj)n (5.5)

が，m = 1, 2, . . . ,M にて成立する場合と，

ωinit(s)�m∑

n=1

∆ω(s, ai)n (5.6)

と，

ωinit(s)� 1L

L∑j=1

m∑n=1

∆ω(s, aj)n (5.7)

が，m = 1, 2, . . . ,M にて成立する場合である．

今，ω(s, ai)が状態 sの最大の評価値であるため，m∑

n=1

∆ω(s, aj)n ≤m∑

n=1

∆ω(s, ai)n

,∀j = 1, 2, . . . , L (5.8)

である．よって，1L

L∑j=1

m∑n=1

∆ω(s, aj)n ≤m∑

n=1

∆ω(s, ai)n (5.9)

という大小関係にある．式 (5.5)が成立するのは，常に状態 sの全てのルールを均一

に強化する場合のみである．これは，状態 sのルールを全て選択し，EPSの強化関数

にて強化する場合であり，状態 sの全てのルールに均一の価値を与えているため，常

に選択確率が 1/Lであっても問題ない．

式 (5.6)と式 (5.7)の場合を検討する．式 (5.9)より，式 (5.6)が成立すれば，式 (5.7)

も成立する．式 (5.6)がm = 1, 2, . . . ,M にて成立する場合，評価値の初期値が適切で

ないため，たとえ良いルールを学習しても，分配量が少なく，学習が進まない．これ

は，学習速度の問題である．

以上より，学習が進まない場合に生じる問題は，学習速度の問題だけである．

また，逆に，式 (5.6)が成立する場合，式 (5.4)より，

P (s, ai)m =1L

(5.10)

となるため，学習速度の問題が生じるときは，学習が進まないことがいえる．

59

定理 5.1 学習速度の問題が生じる場合

学習速度の問題が生じる場合は，評価値の初期値が，分配量よりも極端に大きい場合

のみである．

よって，学習速度の問題を解決するためには，評価値の初期値を分配量に対して，極端に大きく

ならないように設定すればよい．

5.3.2 分配量に対して，初期値が小さすぎる場合

次に，分配量に対して，評価値の初期値が小さい場合を検討する．初期値が小さい場合，式

(5.3)を満たさないため，学習速度の問題は生じない．簡単な例として，初期値が 0の場合を考え

る．一回も学習をしていない状態では，全ての評価値が同じ値（= 0）であるため，ランダム探

索を行う．一回学習を行うと，その状態では，強化しなかったルールの選択確率は 0になる．つ

まり，一番最初はランダム探索を行い，一回でも強化した状態では，その一回目に選んだルール

群からのみ，ルールを選択し，その他のルールは全く探索しない．このとき，学習したルールは，

ランダム探索により選んだルールであるため，優れたルールかどうかの判断は行われていない．

このルールよりも優れたルールが存在する可能性は十分にあるが，探索を行わないため，優れた

ルールを発見することはない．この問題を，経験への固執問題とする．また，EPSの強化関数に

より，状態 sの複数のルールを同時に強化する場合は，強化対象以外のルールを探索しないとい

う意味では一回の強化の経験に固執しているが，その強化した複数のルールから優れたルールを

見つける可能性があるため，経験への固執問題には含めないことにする．

定義 5.3 経験への固執問題

ランダム探索から，一度の強化でルールの選択を固定する場合を，経験への固執問題

とする．

つまり，

P (s, al)M−1 =1L

,∀l = 1, 2, . . . , L

(5.11)

かつ，

P (s, ai)M 1 (5.12)

の場合である．

60

経験への固執問題が生じる場合について，検討する．経験への固執問題が生じる場合は，

∆ω(s, ai)M � Lωinit(s),

∆ω(s, ai)M � LM−1∑n=1

∆ω(s, ai)n,

∆ω(s, ai)M �L∑

j �=i

∆ω(s, aj)M (5.13)

が成立する場合のみである．

証明

経験への固執問題が生じる場合が，M 回目の強化量が，評価値の初期値よりも十分に

大きく，今までのそのルールの強化量よりも十分に大きく，かつ，そのエピソードに

よる状態 sの他のルールの強化量よりも十分に大きい場合のみであることを証明する．

経験への固執問題が生じる場合は，式 (5.11)と式 (5.12)より，

P (s, ai)M 1

ωinit(s) +∑M

n=1 ∆ω(s, ai)n∑Lj=1

(ωinit(s) +

∑Mn=1 ∆ω(s, aj)n

) 1

ωinit(s) +∑M

n=1 ∆ω(s, ai)nLωinit(s) + L

∑M−1n=1 ∆ω(s, al)n +

∑Lj=1 ∆ω(s, aj)M

1

α(ωinit(s) +

∑M−1n=1 ∆ω(s, ai)n

)+ 1

α(Lωinit(s) + L

∑M−1n=1 ∆ω(s, al)n +

∑Lj �=i ∆ω(s, aj)M

)+ 1

1

α× ω(s, ai)M−1 + 1

α×(L× ω(s, al)M−1 +

∑Lj �=i ∆ω(s, aj)M

)+ 1

1

(∀l = 1, 2, . . . , L) (5.14)

である．ここで，α = 1/ (∆ω(s, ai)M )である．また，∑L

j �=iは，∑

j �=i(j = 1, 2, . . . , L)

を意味する．この式が成立する場合として，次の二つの場合が考えられる．

ω(s, ai)M−1 = Lω(s, al)M−1 +L∑

j �=i

∆ω(s, aj)M (5.15)

の場合と，

∆ω(s, ai)M � Lωinit(s),

∆ω(s, ai)M � LM−1∑n=1

∆ω(s, ai)n,

∆ω(s, ai)M �L∑

j �=i

∆ω(s, aj)M (5.16)

61

の場合である．

式 (5.15) が成立するのは，L = 1の場合，もしくは，M − 1回目の試行時のルール

(s, ai)の評価値が，少なくとも状態 sの他のルールの評価値の L倍以上の評価値であ

る必要がある．前者の L = 1の場合は，選択できるルールが 1つの場合であるため，

そのルールの選択に固執して当然である．後者は，P (s, ai)M−1 = 1/Lに反するため，

成立しない．

式 (5.16)の場合は，M 回目の強化量が，評価値の初期値よりも十分に大きく，今まで

のそのルールの強化量よりも十分に大きく，かつ，そのエピソードによる状態 sの他

のルールの強化量よりも十分に大きい場合である．経験への固執問題は，式 (5.16)が

成立する場合にのみ生じる．

よって，次のことが言える．

定理 5.2 経験への固執問題が生じる場合

経験への固執問題は，評価値の初期値が，分配量よりも極端に小さく，その分配量が

今までのそのルールの強化量の総量よりも極端に大きく，かつ，そのエピソードによ

る状態 sの他のルールの強化量よりも極端に大きい場合のみに生じる．

経験への固執問題を解決する方法の一つとして，評価値の初期値を分配量に対して，極端に小さ

くならないように設定すればよい．また，EPSの強化関数により，状態 sの複数のルールを同時

に強化する場合は，経験への固執問題が生じないことが確認できる．

環境の探索を行わず，一回目のエピソードに固執しても，報酬を獲得し続けることができる．

試行回数を増やすと，そのエピソードにおける報酬獲得に貢献しないルールの選択確率を減少さ

せることはできるが，それ以上性能が向上することはない．報酬獲得への経路が複数ある場合，

学習する経路は一回目のエピソードに大きく依存することになり，経験への固執問題の影響が現

れる．また，報酬が複数ある場合も，同様に，経験への固執問題が生じる．しかし，価値の異な

る複数の報酬の設定は難しい．ここでは，簡単のため，報酬が一つの場合を検討する．

5.3.3 学習速度の問題と経験への固執問題

分配量に対して，評価値の初期値が大きすぎると学習速度の問題が生じ，小さすぎると経験へ

の固執問題が生じることを明らかにした．この節では，評価値の初期値を，どれくらいに設定す

るのが望ましいか検討する．

学習速度の問題が生じる場合は，ランダム探索から学習が進まない．一方，経験への固執問題

が生じる場合は，複数の経路からランダムに選んだ経路を学習し，それ以外の経路の探索は行わ

62

ない．よって，学習速度の問題よりも，経験への固執問題の方が，性能への悪影響は少ない．

評価値の初期値は，学習速度の問題も，経験への固執問題も生じない値に設定するのが望まし

い．学習速度の問題は，式 (5.3)の場合にのみ生じるため，少なくとも，

ωinit(s)� ∆ω(s, ai)M (5.17)

を満たさなければ，生じない．また，経験への固執問題は，式 (5.13)の場合にのみ生じるため，

少なくとも，

∆ω(s, ai)M � Lωinit(s) (5.18)

を満たさなければ，生じない．また，EPSによる強化関数を用い，状態 sの複数のルールを同時

に強化する場合も，経験への固執問題は生じない．

定理 5.3 学習速度の問題と経験への固執問題が生じないための評価値の初期値の十

分条件

評価値の初期値 ωinit(s)が，

1L

∆ω(s, ai)M ≤ ωinit(s) ≤ ∆ω(s, ai)M (5.19)

の範囲であれば，少なくとも学習速度の問題と経験への固執問題は生じない．

評価値の初期値の適切な値は，各状態ごとに，学習が適度に進む値である．この値のことを，適

切な初期値と呼ぶことにする．MDPs環境では，各状態において，最短経路に対する報酬の分配

量の前後の範囲であれば，目標状態に近いルールから順に学習が進む．しかし，学習を始める前

に，最短経路を知ることはできない．観測が常に観測上のループにある場合，EPSの強化関数で

は，目標状態からの距離に関係なく，一律の分配量を提供するため，目標状態に近いルールから

順に学習が進むことは期待できない．学習初期はランダム探索によるエピソードであるため，そ

の長さによる分配量に対して，学習が進む必要がある．いずれの環境にしても，最終的には，最

適経路を経た時に得る報酬分配量に対してのみ，適度に学習が進むことが理想である．次節では，

状態ごとに評価値の初期値を設定し，更新する方法を提案する．

5.4 評価値の初期値の設定方法

評価値の初期値が，分配量に対して大きすぎる場合，学習速度の問題が生じる．また，小さす

ぎる場合は，経験への固執問題が生じる可能性がある．いずれの問題も，評価値の初期値と分配

量の比率が，適切でないために起こる．評価値の適切な初期値は，最適経路やそれに準ずる経路

を得た時に得る分配量に対してのみ適度に学習が進む値である．

63

本節では，状態ごとに評価値の初期値を設定し，更新する方法を提案する．今までに経験した最

も良い経路に合わせて各状態の評価値の初期値を設定し，それよりも良い経路を経験すると，その

経路に合わせて新しい初期値を設定し，学習を 0からやり直す．この方法により，評価値の初期値

と分配量の関係が適切になる．また，この方法は強化関数に依存しないため，様々な環境において

報酬獲得に貢献しないルールの抑制条件を満たす強化関数に対して適用でき，性能の向上が期待

できる．その結果，Profit Sharingの長所である学習の立ち上がりの早さを保ち，EPS-POMDPs

環境において報酬獲得に貢献しないルールの抑制条件を満たしたまま，短所である経験への固執

と学習速度の問題を改善することができる．

5.4.1 従来の評価値の初期値の扱い

Profit Sharingに関する従来の研究では，評価値の初期値の設定については，具体的に議論さ

れていない．他の強化学習同様，偏りがない設定として，全ルールの評価値の初期値を同じ値に

設定する方法が一般的である．そして，予備実験を繰り返すことで，適切な初期値を見つけるこ

とが多い．

評価値の初期値の適切な値は，状態ごとに異なる．学習速度の問題と，経験への固執問題が生

じないための評価値の適切な初期値には，ある程度の範囲があるため，経路長が小さい場合は，

全状態で同じ初期値を用いても問題が現れにくい．しかし，問題環境のサイズが大きくなるなど

により最適経路長が大きくなると，開始状態付近では学習速度の問題が生じやすく，目標状態付

近では経験への固執問題が生じやすくなり，一律の評価値の初期値では，効率的に学習が進まな

い．また，評価値の適切な初期値が 0に近づくため，予備実験にて見つけるのが困難になる．

5.4.2 評価値の初期値の設定方法: PS-GTR

Profit Sharingでは，評価値は状態ごとに意味を持ち，それぞれの状態で評価値を独立に扱って

も問題は生じない．また，一回も学習していない状態では，ランダム探索を行うため，評価値の

初期値を設定していなくても問題がない．評価値の適切な初期値は，最適経路を経た時に得る分

配量に対して学習が進む量である．ここで，状態 sの最適経路の経路長を lmin，適切に学習が進

む比率を hとし，状態におけるルールの数を Lとすると，評価値の初期値 ωinit(s)は，式 (5.19)

より，

ωinit(s) =(

r × f(lmin)L

)× h (5.20)

に設定するのが望ましい．ここで，ωinit(s)を，式 (5.19)の最も小さい場合に設定したのは，学

習速度の問題より経験への固執問題の方が性能に与える悪影響が少ないためである．また，一つ

64

の状態に対する分配量が，EPSによる強化関数は，合理性定理に従う強化関数に対して，最大で

L倍になり学習が進みにくいため，比率 hにて調整を行う必要がある．学習初期に lmin の値は

わからない．そこで，既知の最短の経路長に合わせて評価値の初期値を設定し，より短い経路が

見つかると，その経路に合わせて初期値を設定し直し，学習を 0からやり直す．この方法により，

問題環境の大きさの予備知識を必要とせず，評価値の初期値と分配量の比率 hを適切に設定する

ことができる．新しい優れた経路を見つけた場合は，学習をやり直すことで環境の探索を行い，

見つけられない場合は，分配量を累積することで経験を利用する．経験利用と環境探索のバラン

スを徐々に保つことから，PS-GTR（Profit Sharing for Gradually balancing exploiTation with

exploRation.）と呼ぶことにする．

なお，比率 hを極端に大きく，もしくは小さく設定すると，学習速度の問題や経験への固執問

題が生じる．

PS-GTRのアルゴリズムを，図 5.2に示す．

5.5 実験

本節では，分配量に対して評価値の初期値が適切でない場合に，学習速度の問題や経験への固

執問題が生じることを明らかにした．そして，評価値の初期値を適切に設定する方法として，各

状態ごとに評価値の初期値を設定し，それを更新して理想値に近づける PS-GTRを提案した．こ

の節では，その効果を実験にて確認する．

まず，簡単な問題環境にて，学習速度の問題と経験への固執問題の解決を確認する．そして，代

表的な迷路環境に対して確率的な状態遷移を付加した場合を用い，MDPs環境に対する適応を確

認する．大きなサイズの問題環境への適用を確認するため，迷路の縦横をそれぞれ 2倍，3倍に

引き伸ばした実験環境を用いて実験を行う．また，EPS-POMDPs環境への適用を確認するため

に，センサーが故障した場合を想定した環境で実験を行う．

5.5.1 評価値の初期値の更新の効果

提案手法では，学習速度の問題を解決するために，各状態で評価値の初期値を学習が進むよう

に設定する．そして，経験への固執問題を解決するために，評価値の初期値を，適切な値になる

ように更新し，ランダム探索時の経験に固執しないようにする．まず，学習が進むための，分配

量に対する評価値の初期値の比率について調べる．そして，評価値の初期値の更新の効果を確認

し，経験への固執問題を解決していることを確かめる．

実験環境は，図 5.3を用いる．開始状態 S から目標状態 Gまでの経路を学習する問題である．

65

procedure 初期設定begin

h← 1 // 適切に学習が進む比率を設定for all s ∈ S {

// 状態 sで利用可能な各ルールの評価値の初期値を設定ωinit(s)← 0for all a ∈ A(s) {

ω(sx, a)← ωinit(sx)}

}end.

procedure エピソードごとの行動選択と学習作業begin // エピソード開始:

do// ルール (s, a)の選択: a ∈ A(s), at s

if ωinit(s) = 0 thenRandom Selection

elseAction Selection(ex. Roulette Selection)

end ifwhile 報酬を獲得するまで繰り返す

// 報酬 rの分配:for x = 1 to エピソード長 {

if ωinit(sx) < r × f(x)× h/L then// 初期値の更新と，学習のやり直しωinit(sx)← r × f(x)× h/L

for all a ∈ A(sx) {ω(sx, a)← ωinit(sx)

}end if// 選んだルール (sx, ax)への報酬の分配ω(sx, ax)← ω(sx, ax) + r × f(x)

}end.

ここで hは，分配量に対する評価値の初期値の比率，Lは，状態 sにおけるルールの数である．

図 5.2: 評価値の初期値の設定と更新方法: PS-GTR

66

S

s1 s2 s9

G

s10 s11

3³ 3³ 3³

3³ 3³

2³

図 5.3: 学習速度の問題と経験への固執問題を確認するための環境

0

1

2

3

/

10 10 10 10-40 +40-20 +20

(a)(b)

(c)

図 5.4: 1000ステップ目における評価値の初期値による性能の変化

67

エージェントは，各マスをそれぞれ別の状態として認識する．それぞれの状態で選択できる行動

は，四通りある．開始状態 S 以外では，そのうち一通りの行動だけが次状態へ遷移し，残り三通

りの行動は自状態に戻る．状態遷移は決定的なものとする．目標状態 Gへの遷移により，報酬

R = 10を獲得し，開始状態 Sに戻る．報酬を獲得するたびに，その獲得にかかった行動選択数あ

たりの報酬量を求め，行動選択回数に対する性能とする．1回の実験では，離散的な点を結んだ

グラフとなる．100回実験を行い，平均を性能とする．

開始状態 S における行動選択が性能を大きく決め，状態 s1 への遷移を選ぶと，最短で 10ス

テップで目標状態に到達し，状態 s10 への遷移を選ぶと，最短で 3ステップで目標状態に到達す

る．最適政策による性能は，10/3 3, 33である．選択可能行動数が 4であるため，強化関数は

公比 1/4の等比減少関数を用い，行動選択器は，ルーレット選択を用いる．

まず，従来の評価値の初期値を全状態で一律に設定する方法で実験を行った．1000 ステップ

目における結果を，図 5.4 に示す．最適経路に対する報酬分配の最小量は，開始状態 S では

10 × (1/4)3 0.16であり，その量に対して評価値の初期値が大きすぎると，学習速度の問題が

生じる場合が多くなり，学習が進まない（図中 (a)）．状態 s1 を通る経路に対する報酬分配の最

小量は，10× (1/4)10 9.5× 10−6 である（図中 (b)）．図中 (a)から (b)の間は，状態 s1を通る

経路に対しては学習が進まず，状態 s10 を通る経路に対しては学習が有効に働く．そのため，最

適経路を学習し，最適解 3.33の性能を示す．評価値の初期値が 0に近づくと，性能はランダム探

索で選んだ経路への依存が大きくなるため，(10/3 + 10/10)/2 2.17に近づく．しかし，図中の

(c)ではそれよりも少し性能がよい（約 2.33）．これは，ランダム探索による経路が長くて，評価

値の初期値に比べて分配量が少ない場合があり，学習に反映されないことが起こるからである．

このような長い経路は，最適経路の場合よりも，状態 s1を通る経路の場合に生じやすい．そのた

め，状態 s1と状態 s10への遷移の学習は半々の確率にならず，状態 s10への遷移を学習する確率

が高くなる．従来の，評価値の初期値を全状態で一律に設定する場合において，学習速度の問題

と経験への固執問題が生じることが確認できた．また，評価値の初期値が，最適経路に対する最

小の分配量に対して，適切な範囲にある場合，最適経路を学習していることが確認できた．

次に，提案手法である PS-GTRを用いた場合の，各状態において，分配量に対する評価値の初

期値の比率 hの設定が，性能に与える影響を調べた．また，評価値の初期値を更新する PS-GTR

に対して，初期値の更新を行わず，最初の分配量に対してのみ初期値を設定する方法と比較を行っ

た．ステップ数が 1000回目における性能の比較が，図 5.5である．

評価値の初期値を更新し，学習をやり直す PS-GTRでは，分配量に対する評価値の初期値の比

率 hを 1付近に設定すると最適解（3.33）に近い性能が得られる．比率 hを高めると，評価値の

初期値が大きくなりすぎ，学習速度の問題が生じている．また比率 hを低くすると，経験への固

執問題が生じていることが確認できる．

68

0.0001 0.01 1 100 10000: h

/

(1)

(PS-GTR)

(2)

(1)

(2)2

3

図 5.5: 1000ステップ目における分配量に対する評価値の初期値の比率と性能の関係

評価値の初期値を更新しない方法では，最初の分配量に対する一定の比率で，各状態の初期値

を決定する．再学習は行わず，継続して学習を行う．更新を行わないため，適切な初期値より小

さい値に設定される．経験への固執問題を解決できない場合が多く存在するため，性能の向上に

乏しい．そのため，比率 hを大きくすると若干性能が向上するが，大きすぎると学習速度の問題

が生じるため，性能が悪くなる．このことより，PS-GTRでは，評価値の初期値が，経験への固

執問題が生じない値へと更新されていることがわかる．

5.5.2 確率的な状態遷移を持つ環境への適用

次に，MDPs環境の一般的な問題として，代表的な迷路問題を対象とする（図 5.6）[Sutton 90]．

エージェントは，各マスをそれぞれ別の状態として認識し，上下左右のうち一つを選ぶことで，

対応する隣接状態に遷移する．確率的な状態遷移として，図の下部にあるように，0.8の確率で選

んだ方向に進み，残りそれぞれ 0.1の確率にて，進行方向右，もしくは左のマスへ遷移するもの

とする．黒いマスは壁で，壁への遷移の場合は，状態は変化しない．目標状態Gへの遷移により，

報酬 R = 10を獲得し，開始状態 S に戻る．強化関数は，公比 1/4の等比減少関数を用い，行動

選択器はルーレット選択を用いる．全状態で一律に評価値の初期値を設定する方法では，初期値

69

1

2

3

S

4

5

6

7

8

9

10

11

12

13

■

■

■

14

15

16

17

18

19

20

21

22

23

24

25

26

27

■

28

29

30

31

32

33

34

35

36

37

38

39

40

■

■

■

41

42

43

44

45

G

0.8

0.1 0.1

図 5.6: 確率的な状態遷移のある迷路

を 1.5 × 10−9 に設定すると性能が良いことが予備実験にて確認された．100回実験を行い，その

平均を比較する．

図 5.7に示した結果の通り，PS-GTRでは学習の立ち上がりの良さという長所を失わずに，良

い性能に収束した．その理由は，以下のように考察できる．Profit Sharingにおける評価値は，分

配量の累積であるため，何度も試行することで，統計的な累積量となり，確率的な遷移を扱うこ

とができる．しかし，小さい確率で，大きな分配量を得る遷移のある環境では，一回大きな分配

量を得ると，その分配量が行動選択に強く影響する．等比減少関数を用いた分配を行うと，経路

差が小さくても，大きな分配量の差となる．そのため，小さい確率で目標状態へ近づく遷移を持

つルールを選び，運良く，目標状態へ近づく遷移を経験すると，そのルールに対して不相応に大

きな分配量を与える場合がある．例えば，状態 40にて，上へのルールにより，0.1の確率で状態

43に遷移し報酬を得ると，状態 40では，0.8の確率で壁へ遷移するルールに対して大きな分配量

を与える．このとき，累積型の強化学習では，この大きな分配量を減らす手立てがない．しかし，

PS-GTRでは，今までの経験よりも短い経路を経験すると，その状態では新しい評価値の初期値

を設定し，再学習を行う．また，その際に設定される初期値は，探索性を失わない程度の大きさ

なので，他のより良いルール（0.8の確率で状態 43に遷移するルール）を探索することもできる．

そのため，最終的な性能が向上する．

70

0

0.3

0.6

0 10000 20000 30000

/

(1)PS-GTR

(2) 10-9

(1)

(2)

図 5.7: 確率的な状態遷移のある迷路における性能

5.5.3 大規模な問題環境への適用

大規模な問題環境における性能の違いを検討する．一般に，問題環境のサイズが大きくなると，

最適経路は長くなり，開始状態付近の評価値の適切な初期値と，目標状態付近の適切な初期値が

大きく異なる．そのため，全状態で評価値の初期値を一律に設定する方法では，学習速度の問題

と経験への固執問題が生じないように設定するのは困難になる．PS-GTRでは，それぞれの状態

で，評価値の初期値を独立に扱うため，問題環境のサイズが大きくなりエピソードが長くなって

も問題は生じない．この節では PS-GTRが，問題環境のサイズが変化し，最適経路長が変化して

も，効率的な学習を行うことを確認する．

まず，問題環境の大きさを変化させた場合の，分配量に対する評価値の初期値の比率と性能の

関係を調べる．先ほどの迷路走行問題（図 5.6）に対して，その迷路の縦横をそれぞれ 2倍，3倍

に引き伸ばした迷路において実験を行う．例えば，左上から，状態 5a，状態 5b，状態 11a，状態

11bとなる．二倍の迷路では，初期状態 Sは，Sの左上に該当する状態にあり，目標状態Gは，G

の右上に該当する状態にある．また，三倍の迷路では，初期状態 S は，S の左上に相当する状態

にあり，目標状態 Gは，Gの上に相当する状態にある．状態数は，4倍と 9倍になる．ここでは

簡単のため，状態遷移は決定的なものとする．報酬は，R = 10とする．100回実験を行い，性能

71

の平均を比較する．

2倍にした迷路では 50000ステップ目，3倍にした迷路では 100000ステップ目における性能の

比較を行った．最短経路は，それぞれ 29ステップと 43ステップであり，最適政策による性能は

0.35と 0.23となる．結果は，図 5.8である．なお，エピソードが長くなると，著しく 0に近い値

を扱う必要が生じる．この場合の，評価値の扱いについては 5.7節の方法にて対処している．

この迷路は，問題環境が異なるため，5.5.1節の結果と直接比較できないが，ほぼ同様の性能を

示していることがわかる．評価値の初期値が，最終的な分配量に対して h = 1の比率であれば，

学習速度の問題は生じず学習は進み，それよりも大きい比率にすると，学習速度の問題が生じる

ことがわかる．

評価値の初期値を，全状態で一律に設定する方法と，状態ごとに更新する提案手法との比較実

験を行った．評価値の初期値を全状態で一律に設定する方法では，予備実験により性能の収束値

が最も向上する初期値を探した（4.1× 10−22と 3.7× 10−38を用いた）．結果は，図 5.9と図 5.10

である．

評価値の初期値を全状態で一律に設定する場合，エピソードが長くなるほど，一回の強化で固

着するルールの数が多く，より立ち上がりが早くなる．しかし，最適さと関係なくルールが固着

するため，収束値が悪い．問題環境のサイズが大きくなり，エピソードが長くなるほど，この問

題が深刻になる．PS-GTRでは，再学習を繰り返すため，エピソードの長さに関係なく，収束値

の性能が高い．ただし，再学習を行うため，学習の立ち上がりの早さでは若干劣るが，問題のな

い早さである．

5.5.4 EPS-POMDPs環境への適用

エージェントの知覚能力に制限のある EPS-POMDPs環境への適用を確認する．図 5.6の迷路

において，センサーが故障し，不完全知覚が生じる場合を実験する．問題環境は図 5.11である．

簡単のため，状態遷移は決定的なものとする．真ん中の 2つの行で横軸のセンサーが壊れ，同じ

行の状態をそれぞれ AとBとして知覚する．どちらの観測でも，報酬獲得のためには複数の行動

を学習する必要がある．また，それ以外の行動も，報酬獲得に必要ではないが，報酬を獲得する

エピソードに含まれる場合がある．この故障迷路では，最短経路は，故障前の迷路と同じである．

しかし，故障情報を知らない行動選択器にとっての最適政策は，故障前と異なる．例えば，観測

Aと B において，上と下への行動を半々の確率で出力する政策が有効であると考えられる．

ここでは，前述の図 5.1に示す強化関数を用いる．この強化関数は，不完全知覚の影響がない

状態に対しては，等比減少的な分配を行い，不完全知覚の影響がある状態では，均一な分配を行

う．不完全知覚の影響がある状態とは，エピソード内の観測 ot1 と観測 ot2 において，時刻 t1 と

72

0

0.2

0.4

/

(1) 2 ( 50000 )

(2) 3 (100000 )

(1)

(2)

10 -410

+4

0.35

0.23

図 5.8: 迷路のサイズを大きくした場合の，分配量に対する評価値の初期値の比率と性能の関係

0

0.1

0.2

0.3

0 25000 50000

/

(1)PS-GTR

(2) 10

(1)

(2)

-22

図 5.9: 縦横 2倍の迷路

73

0

0.1

0.2

0 25000 50000

/

(1)PS-GTR

(2) 10

(2)

(1)

-38

図 5.10: 縦横 3倍の迷路

時刻 t2 は異なるが，同じ観測を持つ場合の，観測 ot1 と観測 ot2 の間の範囲のことであり，観測

上のループと呼ぶ．図 5.11の環境では，開始状態の観測 Aと，目標状態から二つ下の観測 Aが

必ずエピソードに含まれるため，エピソード内のほぼ全ての観測は，観測上のループ内にある．

そのため，この強化関数は，観測 45以外の観測に対して，エピソードの長さに応じた同じ分配値

1/LW を用いて，均一に報酬を分配する．

EPSは，ある状態において複数のルールを強化する分配方法である．一つのルールを強く強

化する等比減少関数による分配方法よりも，状態のルールへの分配量の合計が多くなる．その

分，適切な比率 hは 1より小さくなる．ここでは，h = 1/4を用いる．h = 1/4を用いた場合の

PS-GTRと，全ルールの評価値の初期値を 10−42 に固定した方法と比較を行った（図 5.12）．こ

の実験で用いた強化関数は，目標状態からの距離 xに依存せず，エピソードの長さに応じて均一

に分配を行う．つまり，目標状態に近い状態のルールも遠い状態のルールも，一律の分配量を受

け取る．そのため，どの状態においても，最適経路に対する分配量が同じであるため，評価値の

適切な初期値は同じである．よって，全ルールの評価値の初期値を一律に設定する従来の方法で

も，適切な初期値を設定できれば，問題なく学習が進む．

提案手法は，評価値の適切な初期値へ更新するため，EPS-POMDPs環境でも，性能が低下す

ることなく学習が進むことが確認できる．また，等比減少関数に対する PS-GTRでは，性能が向

74

1

2

B

S/A

4

5

6

7

B

A

10

11

12

13

■

■

■

14

15

16

B

A

19

20

21

22

B

A

25

26

27

■

B

A

30

31

32

33

B

A

36

37

38

39

B

■

■

■

41

42

B

A

45

G

図 5.11: センサーが一部故障した条件での迷路

上するため，観測が観測上のループにない場合は，性能が向上することが期待できる．PS-GTR

を用いることで，等比減少関数に対する性能向上と，定数関数に対する性能維持が確認できたこ

とより，EPSへの適用により，少なくとも従来と同等の性能を維持し，環境によっては性能が向

上することが期待できる．

本提案手法では，強化関数に条件をつけていないため，さまざまな環境の条件に対応した強化

関数においても適用でき，大規模な環境においても性能の低下を起こさない．また，少なくとも

従来と同等の性能を維持し，環境によっては性能が向上することが期待できる．

5.6 考察

Profit Sharingにおいて，状態ごとに独立して，評価値の適切な初期値を求める PS-GTRを提

案し，実験にて効果を確認した．Profit Sharingの長所である，学習の立ち上がりの早さを保ち，

EPS-POMDPs環境に対する報酬獲得に貢献しないルールの抑制条件を満たしたまま，短所であ

る，学習速度の問題と経験への固執問題を改善できた．ここでは，PS-GTRによる強化について

検討する．

まず，状態遷移が決定的な場合と確率的な場合の PS-GTRの学習の進み方について検討し，最

後に不完全知覚問題が生じる環境での学習の進み方について検討する．

75

0

0.1

0.2

0.3

0 50000 100000

/

(1)PS-GTR

(2) 10 (1)

(2)

-42

図 5.12: EPS-POMDPs環境における性能

5.6.1 状態遷移が決定的な場合の学習の進み方

状態遷移が決定的な環境では，ある状態から，目標状態まで最短で到達するルールを選択する

ことが重要である．今まで経験した経路よりも短い経路を発見した場合，その状態から新しい経

路を利用するより良い経路が存在する可能性がある．PS-GTRでは，その場合に，評価値の初期

値を再設定すると共に，その状態での学習をやり直す．たまたま近所にハイウェーが延びてきて

いるのを発見した場合に，今までの下道を使った経路情報を捨て，ハイウェーに続くより良い道

を探索し直すようなものである．このことにより，今までの経験に固執せず，適切な経験を積み

重ねることができる．

5.6.2 状態遷移が確率的な場合の学習の進み方

状態遷移が確率的な場合，低い確率で行動数が小さくなる経路を経験し，大きな分配量を得る

場合がある．一回大きな分配量を得ると，その分配量が行動選択に強く影響する．PS-GTRでは，

再学習を行うことで，そのような影響をやわらげることができる．ただし，分配量が極端に大き

い場合には，影響をやわらげることができない．

76

5.6.3 不完全知覚問題が生じる環境での学習の進み方

不完全知覚の影響がある状態で用いる EPSによる分配では，どのルールへの分配量も同じで

あるため，目標状態からの距離に関係しない分配量である．問題環境のサイズが大きくなりエピ

ソードが長くなっても，目標状態付近のルールへの強化量と，開始状態付近のルールへの強化量

に差が出ない．そのため，適切な値であれば，一律に固定した初期値でも，学習が進む．評価値の

初期値は，ランダム探索における分配量に対して学習が進む値である必要があり，PS-GTRでは，

その条件を満たすため，不完全知覚問題が生じる環境でも適用できる．この値は，MDPs環境に

おける適切な値よりもかなり小さいため，予備実験にて見つけるには手間がかかる．PS-GTRで

は，かわりに適切に学習が進む比率 hを見つける必要がある．しかし，この値は 1前後であるた

め，予備実験にて見つけるのが簡単である．上述のように，一律の初期値でも学習が進むため，

PS-GTRの性能面での優位性は見られないが，必要なパラメータの調節のための予備実験が簡単

であるという点で優れている．

5.7 実装の問題

一般に，学習開始時はランダム探索であるため，エピソード長が大きくなる．例えば，5.5.2節

の実験で用いた迷路（図 5.6）の状態遷移が決定的な場合では，最適政策 14ステップに対して，

ランダム探索では平均約 500ステップ前後である．このとき，評価値を扱う変数は，γ14 から少

なくとも γ500の小さい数字を扱う必要がある．現在一般に使われている計算機言語では，Double

型と呼ばれる 64ビットの浮動小数点型の変数が指数的な数値を表すのに適しているが，この変数

の扱える範囲は，だいたい 1.7× 10−308 から 1.7 × 10+308 である．そのため，公比 γ が 0に近い

場合，すぐに桁が足りなくなることが，容易に想像できる．解決するためには，言語仕様に頼ら

ず，自分で指数を管理する必要がある．

本付録では，評価値を指数的に扱い，更新量との相対的な計算のみで分配を行うことで，言語

仕様の指数の範囲で扱う方法を提案する．ただし，ボルツマン分布に従う選択方法では，評価値

の絶対的な値が選択確率を決めるため，相対的に扱うことが難しい．そのため，ここでは選択方

法から除外する1 ．

通常，指数表記を行う際は，α×10β の形式で表現する．ここでは，γ（= 1/L）が底であるため，

ω(s, a) = α(s, a)× γβ(s,a)

= α(s, a)× γβ(s,a)−βmin(s) × γβmin(s)

1 温度 T を γ の指数表記で管理することで，評価値の指数表記に対して相対的に扱うことができると考えられる．ただし，温度の変化の際，指数部を意識する必要があり，簡単に変化させられないため，ここでは除外する．

77

= α′(s, a)× γβmin(s) (5.21)

の形式で表現することを考える．ここで，

α′(s, a) = α(s, a)× γβ(s,a)−βmin(s) (5.22)

であり，状態 sのルールにおいて最も小さい β を βmin(s)とする．この γ を底とした表現で十分

かは，後に検討する．

このとき，γβ(s,a) や γβmin(s) は計算が困難であるが，β(s, a)と βmin(s)との差は小さいので，

γβ(s,a)−βmin(s) の計算は可能である．したがって，α′(s, a)は，計算可能な範囲である．

行動選択器に ε-greedy選択を用いる場合，γβmin(s) を計算しなくても，大小関係を知ることが

できる．ルーレット選択を用いる場合，ルール (s, ai)の選択確率 P (s, ai)は，

P (s, ai) =ω(s, ai)∑j ω(s, aj)

=α(s, ai)γβ(s,ai)−βmin(s)γβmin(s)∑j α(s, aj)γβ(s,aj)−βmin(s)γβmin(s)

=α(s, ai)γβ(s,ai)−βmin(s)∑j α(s, aj)γβ(s,aj)−βmin(s)

=α′(s, ai)∑j α′(s, aj)

(5.23)

であり，γβmin(s) を用いずに，α′の計算で P (s, ai)が計算できる．

強化作業は，r × γx の加算計算であり，

ω(s, a) ← α(s, a) × γβ(s,a) + r × γx

= (α(s, a)γβ(s,a)−βmin(s)

+r × γx−βmin(s))γβmin(s) (5.24)

となることより

α′(s, a)← α′(s, a) + r × γx−βmin(s) (5.25)

の更新式となる．γβmin(s)の値を用いずに，α′と，βmin(s)の値を保持するだけで，評価値の更新

ができる．

α′の更新作業後に，β(s, a)と βminを比較し，β(s, a)が小さい場合，その β(s, a)を新たな βmin

とする．βmin の更新は，その差分 βmin − β(s, a)の回数だけ，その状態 sの全ての αに対して γ

を掛け，βminを β(s, a)に更新すればよい．

78

ここで，式 (5.22)において，|x− βmin(s)|が大きい場合，計算時にオーバーフローやアンダーフローが生じる可能性がある．x βmin(s)の場合，大きく性能の良いルールを学習する場合で

あり，今までの経験量 α(s, a)を切り捨てても問題は生じない．x� βmin(s)の場合，今まで学習

したルールよりも，かなり性能の悪いルールを学習する場合であり，今回の更新が反映されなく

ても，問題は生じない．いずれにしても，現在の学習しているルールに対して，相対的に性能が

かけ離れたルールを学習する場合であるため，切捨てが生じても問題にはならない．よって，γを

底とした表現で十分であると考えられる．

以上より，γβ の値を直接計算せず，γβmin との相対的な値を計算することで，指数計算を回避

できる．

5.8 あとがき

行動選択器にルーレット選択方法を用いた Profit Sharingにおいて，評価値の初期値と，分配

量の関係による問題として，初期値が大きすぎる場合は学習速度の問題が生じ，小さすぎる場合

は経験への固執問題が生じることを明らかにした．いずれの問題も，各状態における分配量に対

して評価値の初期値が適切でないため，問題が生じることを明らかにした．初期値を状態ごとに

独立して設定し，更新する PS-GTRを提案し，適切な初期値の設定を実現した．以上の効果を実

験にて確認し，状態数の大きい環境への適用の可能性を示した．

合理性定理に従う強化関数や EPSの強化関数では，大きさの異なる報酬値を扱う場合に，行動

数あたりの獲得報酬量が最適な性能よりも大きく悪化する可能性がある．そのため PS-GTRで

は，報酬が一つの場合を対象とした．また，確率的な状態遷移の環境では，ルールの価値と不相

応な分配量を与え，性能が悪化する場合があるが，PS-GTRでは再学習を行うことで，この影響

をやわらげる．ただし，分配量が極端に大きい場合には，影響をやわらげることができない．

評価値の適切な初期値は，各状態ごとに異なる．そのため，従来の全状態で一律の初期値を設

定する方法では，問題環境のサイズが大きくなりエピソードが長くなると限界が現れる．状態ご

とに評価値の初期値を設定する PS-GTRでは，エピソードの長さに影響されず，学習を進めるこ

とができ，大規模な問題へ適用できる．

EPS-POMDPs環境で用いる EPSの強化関数は，目標状態からの距離に依存せず，エピソー

ドの長さに依存する強化関数である．そのため，全状態で一律の初期値を設定しても，問題は生

じない．ただし，ランダム探索の経路の分配量に対する評価値の初期値を設定する必要がある．

PS-GTRでは，評価値の初期値を適切な値へと更新するため，適切な初期値を探す必要がない．

PS-GTRは，Profit Sharingの長所である，学習の立ち上がりの早さを保ち，EPS-POMDPs

環境において報酬獲得に貢献しないルールの抑制条件を満たしたまま，短所である，学習速度の

79

問題と経験への固執問題を改善できた．また，問題環境のサイズに影響されず，学習を行うことが

できる．本手法は，強化関数に条件を設定していないため，任意の強化関数に対する適用が期待

できる．今後は，POMDPs環境に対する適用可能範囲を広げた報酬分配方法を考えていきたい．

80

第6章マルチエージェントにおける報酬分配

[植村 04d]

6.1 まえがき

この章では，POMDPs環境の実例であるマルチエージェントにおける報酬分配を検討する．マ

ルチエージェント強化学習では，どのエージェントのどの行動選択が良かったかを割り当てる必

要がある．この問題を，信頼度割り当て問題と呼ぶ．従来の信頼度割り当て問題では，エージェ

ントや行動選択ごとに優劣を決めて割り当てを行っているが，その割り当て方法の適用条件を明

らかにする．

以下，6.2節ではマルチエージェント強化学習へのアプローチの際の問題点を述べる．そして，

6.3節では，マルチエージェントにおける強化学習の枠組みを説明する．マルチエージェントで

は，それぞれのエージェントの観測能力が制限されるため，POMDPs環境となる．通常のシング

ルエージェントにおける POMDPs環境との違いを明らかにする．6.4節では，マルチエージェン

トにおける報酬分配を議論する．MDPs環境に対する Profit Sharingでは，報酬の分配に等比減

少関数を用いる．POMDPs環境では，均一に報酬の分配を行う EPSが有効である．それぞれの

適用範囲を検討し，マルチエージェントにおける報酬分配がどのようなものか検討する．6.5節で

は，マルチエージェントにおける信頼度割り当て問題を扱う．従来，等比減少的な分配に基づい

た割り当てが考えられていたが，POMDPs環境に有効であるためには，均一的な分配に基づい

た割り当てを行う必要がある．従来の等比減少的な分配の限界を示し，一般的なマルチエージェ

ントでは均一的な割り当てが必要なことを示す．最後に 6.6節でまとめとする．

6.2 マルチエージェント強化学習

この章では，不完全知覚問題に対する報酬分配法 Episode-based Profit Sharing（EPS）を基

に，マルチエージェントに対する報酬分配方法を考える．EPSでは，報酬獲得までの行動系列を

全て均一に強化する．そして，ループを生じる行動選択の強化は抑える方法である．マルチエー

ジェントの報酬分配においても，シングルエージェントと同様に，報酬獲得までの各エージェン

トの各行動系列を全て均一に強化する必要があることを示す．

81

エージェントを複数用いたマルチエージェントでは，それぞれのエージェントが協力して問題

を解決する．単体のエージェントでは解決が難しい複雑な問題でも，複数のエージェントが担当

することで，個々のエージェントの仕事量が減り，容易に解決することが期待できる．

このとき，お互いのエージェントが協調するためには，単体のエージェントの学習にはない問

題が生じる．例えば，他のエージェントとの通信に遅延がある場合，お互いがどのように動くか

詳しく知ることができない．このようなマルチエージェント学習独特の難しさとして，四つの問

題がある [荒井 98][高玉 98][荒井 01]．1)状態空間の爆発問題．2)同時学習問題．3)不完全知覚問

題．4)信頼度割り当て問題．である．

6.2.1 状態空間の爆発問題

状態空間の爆発問題とは，エージェントの数が増えれば増えるほど，組み合わせの数が指数的

に増加する問題である．人間は，協調作業時に問題なく処理できることから，状態空間の設定を

適切に行えば，解決できると考えられる．しかし，どのように設定すればよいかは問題依存であ

り，エージェントが一から構築するのは困難である．また，情報量を減らし，組み合わせ数を抑

える場合，必要な情報を失う可能性がある．この場合，この問題空間は，3)の不完全知覚の環境

となる．

6.2.2 同時学習問題

同時学習問題とは，強化学習の枠組みがシングルエージェントをモデルにしているためにおこ

る問題である．シングルエージェントでは，問題環境の変化は，エージェントが行動を起こすこ

とで生じる．しかし，マルチエージェントの場合，他のエージェントも問題環境を変化させる．

そのため，選択した行動と問題環境の変化の因果関係がはっきりしないため，選択した行動の評

価が難しくなる．また，他のエージェントも試行錯誤による学習を行うため，再び同一の状態を

経験し同じ行動を選択しても，他のエージェントは別の行動を選択する可能性がある．その結果，

同一状態で同一の行動を選択しても，環境の変化は異なる変化となる場合がある．他のエージェ

ントの動作は，エージェントの外界である問題環境の一部であると考え，従来の強化学習で扱う

場合，問題環境の動的な変化が頻繁に起こる仮定の下での学習となり，エージェントの学習は困

難になる．なお，同時学習問題は，それぞれのエージェントが学習を進め政策を固定すると，問

題環境は静的になり，従来の強化学習でも十分扱える問題になる [荒井 98]．

82

6.2.3 不完全知覚問題

エージェントの観測能力に制限を仮定した問題を不完全知覚問題[Whitehead 90]と呼ぶ．本来

別の状態であるが，エージェントは同一として観測する．例えば，2)の同時学習問題では，相手

のエージェントの内部状態を観測できないため，見かけの状態が同一であっても，次に相手がど

ちらに動くか知ることができない．この問題環境は，マルチエージェント独特ではなく，シングル

エージェントでも同様に起こりえる．不完全知覚問題は，状態を区別するのに必要な情報が足り

ない場合である．特に，強化学習にとって問題となるのは，学習に必要な情報が足りない場合で

ある．マルチエージェント強化学習の場合，各エージェントの観測能力の制限は自然であり，必

然的に不完全知覚が生じる．

不完全知覚問題では，非ブートストラップ型の強化学習である Profit Sharing[Grefenstette 88]

が有効である．Profit Sharingは，目標状態に到達した時に獲得する報酬を用いて，それまでの

行動系列を一括して強化する方法である．従来報酬の分配関数には，等比減少関数が有効である

[宮崎 94]．しかし，等比減少関数では，一部の不完全知覚問題に対して適切に報酬の分配が行え

ない．全ての不完全知覚問題に対して，適切に報酬の分配を行う方法として Episode-based Profit

Sharing（EPS）を 4章で提案した．EPSはシングルエージェントに対する報酬分配の方法である

が，本章では EPSの分配方法をマルチエージェントに拡張することを目標とする．EPSは，強

化する行動系列に均一に報酬を分配し，ループの強化を抑制する強化条件である．等比減少関数

に基づく分配方法を等比減少的な分配とし，EPSに基づく分配方法を均一的な分配とする．本研

究では，マルチエージェントにおける報酬分配において，等比減少的な分配の限界を示し，均一

的な分配を基にした新たな分配方法を提案する．

6.2.4 信頼度割り当て問題

信頼度割り当て問題とは，報酬を獲得した場合に，どのエージェントが報酬獲得に貢献したの

か，またどの行動選択が報酬獲得に貢献したのかを考え，分配量を適切に割り当てる問題である．

エージェント間の報酬の割り当てをエージェント間の信頼度割り当て問題と呼ぶ．その割り当て

られた報酬を，さらにエージェントのどの行動選択に割り振るかをエージェント内の信頼度割り

当て問題と呼ぶ．例えば球技において，ゴールを決めたエージェントは報酬獲得に貢献している

ことがわかる．しかし，周りのエージェントは，どれくらい報酬獲得に貢献しているのか客観的

にはわからない．この問題に対して，等比減少的な分配をマルチエージェントに拡張した分配方

法が提案されている [宮崎 99b]．この分配方法では，等比減少関数を用いているため，一部の不

完全知覚問題に対して適切に報酬の分配が行えない．

83

6.2.5 マルチエージェントにおける問題の解決

本研究では，全ての不完全知覚問題に対して，適切に報酬分配を行う EPSを基に，マルチエー

ジェントにおける報酬分配を考える．等比減少的な分配と EPSの均一的な分配の違いを考え，マ

ルチエージェントにおいて等比減少的な分配ができない条件を明らかにする．

6.3 マルチエージェントにおける強化学習

本研究では，信頼度を割り当てるために強化学習の一つである Profit Sharingに着目する．本

節では，強化学習の枠組みについて述べる．問題環境として，不完全知覚問題を扱うための部分

観測可能マルコフ決定過程（Partially Observable Markov Decision Processes:POMDPs）を用い

る．シングルエージェントの場合の POMDPs環境に対して，マルチエージェント強化学習にお

ける POMDPs環境がとのような特徴を持っているか議論する．

6.3.1 シングルエージェントのための強化学習

強化学習のモデルは，シングルエージェントをベースとしているため，エージェントを中心と

するモデルである．時刻 tにおいて，エージェントは環境から知覚入力として状態st を知る．そ

の状態に対してエージェントは実行できる行動群の中から一つを選び行動at として出力する．状

態 stで行動 atを実行することをルール(st, at)と呼び，ルールを選択する判断基準を政策と呼ぶ．

行動の実行により，エージェントは次状態 st+1 に遷移する．次状態 st+1 が目標状態であるとき，

エージェントは報酬rtを受け取る．目標状態でないときは，報酬を受け取らない（rt = 0）．報酬

を獲得するまでの行動系列をエピソードと呼ぶ．エージェントはこの報酬情報のみをもとに，今

までの行動選択を評価する．

6.3.2 マルコフ決定過程環境

環境の状態遷移において，状態 st から状態 st+1 への状態遷移確率 Pt が状態 st と行動 at にの

み依存しているとき，つまり Pt = P (st+1|st, at)が成り立つ時，この性質を（単純）マルコフ性

（Markov property）と呼び，そのマルコフ性を持った確率過程を（単純）マルコフ過程（Markov

process）という．MDPsとは，マルコフ過程を基にし状態を離散状態として扱う逐次決定過程の

ことである．MDPs環境下では，状態遷移が決定的な場合，つまり状態遷移確率が常に 1である

場合，全状態遷移を経験すれば，エージェントは計算により最適解を求めることができる．それ

に対して，状態遷移に非決定性を含む場合，何度も試行して報酬の期待値を求める必要がある．

84

6.3.3 部分観測可能マルコフ決定過程環境

問題環境がマルコフ性を持つが，エージェントの知覚能力に制限があるとき，エージェントは

問題環境を正しく認識できない場合がある．例えば，迷路において現在の位置情報を獲得できな

いとする．このとき，エージェント周囲の壁の状況を観測し入力情報とすると，迷路内の別の状

態も同じ観測として扱う可能性がある．POMDPsとは，このような不完全知覚問題（perceptual

aliasing problem）[Whitehead 90]のクラスである．POMDPs環境で問題となるのは，学習に必

要な入力情報が獲得できない場合である．例えばセンサーの故障により，そのセンサーからの入

力情報が変化しない場合などが考えられる．

状態 s1 と状態 s2 のいずれも観測 oと知覚する問題環境の場合，エージェントは観測 oを知覚

しても，本来の問題環境の状態が状態 s1であるのか状態 s2であるのか区別することができない．

エージェントは，状態 sのかわりに観測 oを用いて学習を強化することが求められる．例えば，

今までルールとは (s, a)であったが，観測 oに対する行動 aであるため，以後 (o, a)となる．

複数のエージェントを用いる場合，エージェント間の情報交換の有無によって，不完全知覚は

二つに分類できる．各エージェントがお互いの観測情報を交換できる場合，各エージェントは同

じ観測情報に基づいて行動を決定する．この場合，環境の状態に対しては不完全知覚が生じてい

るが，エージェント間の観測には不完全知覚が生じていない．そのため，全てのエージェントを

統合した一つのエージェントで置き換えることができ，問題のクラスはシングルエージェントの

不完全知覚問題と同等になる．

各エージェントがお互いの観測情報を交換できない場合，同一観測を得ても，他のエージェン

トは別の観測を得ている可能性がある．他のエージェントの観測を知ることができないため，常

に不完全知覚の影響下にいると考えるべきである．つまり，常に不完全知覚の影響下にいるとい

うのが，一般的なマルチエージェントによる不完全知覚問題の特徴である．

6.4 マルチエージェントにおける報酬分配法

EPSに基づく報酬分配では，行動系列のルールを全て均一の分配量で強化する．この分配方法

を，均一的な分配と呼ぶ．それに対して合理性定理に基づく報酬分配では，目標状態に近いルー

ルから等比減少的な分配量で強化する．この分配方法を，等比減少的な分配と呼ぶ．この節では，

この二つの条件の関係を部分行動系列を用いて考える．

85

6.4.1 EPSに基づく報酬分配法

EPSに基づく報酬分配では，行動系列のルールを全て均一の分配量で強化する．不完全知覚の

影響に関係なく，適切に学習を進めることができる．ただし，EPSに基づく報酬分配は，すべての

POMDPs環境に対して適用できず，条件がある．決定的状態遷移を持つ問題における POMDPs

環境にしか適用できない．マルチエージェントに拡張した場合，この条件がどのように影響する

か検討する．

各エージェントの行動の抽象度が高い場合，外的要因の影響が少なくなり決定的な状態遷移が

期待できる．複数のエージェントが同時に動く場合，同時学習問題による非決定性は存在するが，

各エージェントが実行した行動に対する状態遷移は，決定的な状態遷移を期待することは問題な

い．よって，各エージェントの行動の抽象度が高く，状態遷移が決定的であれば，EPSに基づく

報酬分配を適用することは可能である．

6.4.2 合理性定理に基づく報酬分配法

合理性定理に基づく報酬分配では，MDPs環境に対する合理性しか保証されず，POMDPs環

境に対する合理性は保証されない．マルチエージェントにおいて，個々のエージェントに対して

合理性定理が適用できる範囲を検討する．

合理性定理に基づく報酬分配と EPSに基づく報酬分配は，部分行動系列を用いることで，橋渡

しをすることができた．マルチエージェントにおいても，部分行動系列を用いることができる範

囲内であれば，合理性定理に基づく報酬分配を行っても，問題が生じない．常に部分行動系列を

用いることが可能な条件は，各観測 otが，観測上のループであってはいけない．つまり，各エー

ジェントは，常に不完全知覚の影響下にいなければ，合理性定理に基づく報酬分配は可能である．

ただし，この場合，マルチエージェント強化学習の特徴の一つである「常に不完全知覚の影響下」

という条件がなくなるため，この場合をマルチエージェント強化学習と呼んでよいのかどうかは

微妙である．MDPs環境におけるシングルエージェントを複数組み合わせたという意味のマルチ

エージェント強化学習に相当する．

6.5 マルチエージェント信頼度割り当て問題

従来の等比減少的な報酬分配と，EPSによる均一的な報酬分配が，部分行動系列を用いること

で一致することを示した．この節ではそれぞれの分配方法を，マルチエージェントに拡張する．等

比減少的な報酬分配が，部分行動系列を用いる場合にのみ有効であるため，一般的なマルチエー

ジェントの報酬分配ではルールの均一的な分配が有効であることを示す．

86

6.5.1 等比減少的な信頼度割り当て

シングルエージェントの等比減少的な報酬分配では，エピソード内の目標状態に近いルールの

強化量を大きく扱う．目標状態に近いルールほど，報酬獲得の貢献度が高いと考える．この考え

に従えば，エピソードの最後のルール，つまり報酬を獲得したルールは，報酬獲得に最も貢献し

ていると考えられる．エージェント間の報酬分配に拡張すると，報酬を獲得したエージェントが

最も貢献していることになる．直接報酬を獲得したエージェントに報酬 rを分配し，それ以外の

エージェントは間接的に貢献しているため割り引いた報酬 µRを分配する場合，その割引率 µが

合理性1 を保証するために満たすべき条件は，

µ <M − 1

MW(1− (1/M)W0

)(n− 1) L

(6.1)

である [宮崎 99b]．等比減少的な報酬分配は，MDPs環境に対して合理性の保証が証明されてい

る．しかし，一部の POMDPs環境に対しては合理性が保証されていない．マルチエージェント

に拡張した場合も，保障されない条件は変わらない．そのためマルチエージェントにおいて，合

理性が保証される範囲であれば報酬獲得の貢献度を決めることができるが，合理性が保証されな

い範囲では，貢献度を決めることができない．そこで，全ての POMDPs環境に対して合理性が

保証されている EPSによる報酬分配を基に，マルチエージェントの報酬分配を検討する．

6.5.2 均一的な信頼度割り当て

EPSの報酬分配方法は，行動系列の長さに応じた報酬分配量を，行動系列内の全てのルールに

均一に分配する方法である．マルチエージェントに拡張すると，どのエージェントも均一に，そ

してエージェントのそれぞれのルールも均一に強化することになる．この場合，行動系列の長さ

は，それぞれのエージェントの行動系列の長さの和であり，目標状態に至るまでの総ルール数で

ある．一般的にエージェントの条件として，エージェント間の通信が制限される．その制限され

た条件下でも，報酬を獲得した時に，それぞれのエージェントの行動系列の長さを交換し合うこ

とは，十分実現可能である．もし，その行動系列の長さの情報交換を不可能とするのであれば，

その問題は，シングルエージェントにおける動的な環境変化への学習問題となり，かなり困難な

問題環境となるため，ここでは考えないものとする．

マルチエージェントの信頼度割り当て問題がどのようになるか考える．全てのエージェントの

全てのルールを均一に強化するため，エージェント間の報酬の割り当ては全て均一である．また，

エージェント内の報酬の割り当ても全て均一である．どのエージェントが報酬獲得に貢献している

1 ループ系列へのルールの強化が抑制されていること．簡単に言うとループを学習しないこと．

87

ot

ot

W1

W1+1W2-1

W2

a(t,1)

a(t,2)

A)

B)

図 6.1: シングルエージェントにおいて均一強化をする場合

か，また，どのルールが貢献したのかを考える必要がない．どのルールにも均一に報酬を分配す

るため，信頼度割り当て問題は簡単に解決する．EPSのマルチエージェントにおける報酬分配は，

f(x) =

1/LW ルールλの強化が初めての場合．


である．ここで，W は全エージェントの行動系列の長さの和であり，Lは状態における非迂回

ルールの数である．一般に Lはルールの数− 1とすることで十分である．また，観測ごとにルー

ルの数が異なる場合は，最大となるルールの数を用いることで十分である．

6.5.3 等比減少的な信頼度割り当てを行う条件

マルチエージェントにおいて，等比減少的な信頼度割り当てが実行できる条件を考える．シン

グルエージェントにおいて，等比減少的な分配方法と均一的な分配方法の適用範囲の違いは，一

つの観測に対して報酬獲得に必要なルールで決まる．報酬獲得に必要なルールが一つの場合，等

比減少的な分配と均一的な分配のどちらでも，学習が有効に進む．報酬獲得に必要なルールが複

数ある場合，等比減少的な強化では複数のルールを強化しないため，学習が有効に進まない．均

一的な学習では，複数のルールを均一に強化するため，複数のルールを強化でき，学習が有効に

進む．

マルチエージェントでも同様である．ある観測に対して複数のルールが必要な環境では，等比

減少的な分配は学習に有効でない．マルチエージェントでは，エージェントの観測は常に不完全

知覚の影響下にあるため，複数のルールが必要な環境での学習が必要であり，均一的な分配が必

要である．等比減少的な分配を行うことができるのは，観測に対して必要なルールが常に一つと

88

いう条件下のみである．また，等比減少的な分配は，直接報酬を獲得したエージェントを優先的

に強化する考えであるため，どのエージェントが報酬獲得に貢献したかわからない場合も等比減

少的な分配を用いるのは難しい．例えば，サッカーでは基本的にボールを中心に試合の流れが動

く．エージェントがボールとの関係を見失う場合，試合の流れを判断できなくなり，貢献を評価

するのが難しい．

シングルエージェントの場合では，均一的な分配方法は，部分行動系列を用いることで等比減

少的な分配方法と一致した．部分行動系列を用いる場合と，用いない場合の強化の違いの差が現

れる場合は，図 6.1である．長い行動系列を経験して観測 ot に到達し，ルール (ot, a(t,1))によっ

て短い行動系列を経て報酬を獲得した場合と，短い行動系列を経験して観測 ot に到達し，ルー

ル (ot, a(t,2))によって長い行動系列を経て報酬を獲得した場合，行動系列の長さが同じであれば，

ルール (ot, a(t,1))とルール (ot, a(t,2))の強化量は等しくなる．観測 ot に限定すると，効率の悪い

強化をしているように見える．しかし，観測 otが観測上のループ内にある場合，つまり不完全知

覚の影響下にある場合，観測 ot を出発状態として考えることができないため，問題は生じない．

図 6.1の例では，シングルエージェントにおける無駄に見えるルールの強化量が等しい例であっ

たが，マルチエージェントでは，無駄に見えるエージェントの強化量も等しく扱う場合も生じる．

6.6 あとがき

従来マルチエージェントのエージェント間の信頼度割り当て問題は，等比減少的な報酬分配に

基づき，報酬獲得に貢献したエージェントやルールに大きく信頼度を割り当てていた．しかし，

等比減少的な報酬分配は，POMDPs環境において適切に分配できない場合がある．POMDPs環

境において，適切に分配を行うためには，行動系列ごとに均一的な分配を行わなければならない．

本研究では，均一的な分配を行う EPSに着目し，マルチエージェントでの報酬分配へ拡張した．

均一的な分配と等比減少的な分配の関係は，部分行動系列を使えるか否かに起因していることか

ら，マルチエージェントにおいて部分行動系列を使える条件を明らかにした．一般的なマルチエー

ジェントでは，常に不完全知覚の影響を受けているため，部分行動系列は使えない．効率が悪い

ルールを学習するように見えるが，目標状態の設定によって，ルールが必要なルールか否かが変

わってくるためであり，設定されている目標達成には必要なルールである．今後の課題は，実際

にこの報酬分配方法に基づいてマルチエージェントにおける報酬分配を行い，効果を確認するこ

とである．特に，EPSでは報酬に直接貢献したエージェントがわからなくても報酬分配に問題が

生じないため，従来では分配できなかった問題条件でも適用できることが期待できる．

89

第7章結論

自律した人工知能の実現のため，試行錯誤により自ら解を求める強化学習に着目し，どのように

報酬分配を行う必要があるかを検討した．マルコフ決定過程環境と部分観測可能マルコフ決定過

程環境では，エージェントが獲得できる情報の制約条件が異なる．

MDPs環境では，エージェントの知覚能力に制限がないため，観測情報は問題環境と一致し，

確かな情報として扱える．そのため，エピソード情報に基づいて強化や抑制を行っても，問題は

生じない．Profit Sharingでは，目標状態に到達した際に，学習作業を行う．そのため，報酬獲得

に貢献しないルールを学習し，選択し続けるのは危険である．常に迂回系列上にある無効ルール

の学習は，明らかに報酬獲得に貢献しないため，無効ルールの学習を抑制する必要がある．無効

ルールを抑制する方法として合理性定理が提案されている．この定理を満たす最も分配の効率の

良い強化関数は，等比減少関数である．そのため，エピソードが長いと，分配量は 0に収束し，

学習が進まない問題が生じる．ループ系列の分岐となる状態でのみ，学習の抑制が必要であり，

分岐とならない状態では学習の抑制は必要ないことを示し，状態がどちらに属するかによって強

化関数を変化させる方法を提案した．必要な場合のみ抑制を行う拡張合理性定理である．この定

理に従うと，無効ルールのない場合は，抑制条件を適用しないため，学習の効率が改善された．

POMDPs環境では，エージェントの知覚能力に制限があるため，エージェントの観測情報を，

そのまま問題環境の情報として扱うことができない．同一観測情報に対して，それが同一状態で

ある保証がなく，異なる状態の場合がある．この問題を，不完全知覚問題と呼ぶ．従来の報酬分

配条件では，分配時の不完全知覚問題を考慮していないため，適切に分配できない場合があるこ

とを明らかにした．また，不完全知覚問題の発生の有無に関わらず，適切に報酬を分配する条件

を明らかにし，その条件を満たした分配方法である EPSを提案した．EPSでは，行動系列の長

さに応じた分配量を，すべてのルールに均一に与える．EPSの分配が，不完全知覚問題下におい

ても，適切に報酬を分配することを証明し，EPSの報酬分配の特性を調べた．部分行動系列を用

いることで，MDPs環境下では従来の合理性定理で用いた等比減少関数に一致することを示した．

報酬の分配方法だけでなく，分配の対象である評価値と，分配量の関係について議論した．分

配量に対して，評価値が大きすぎると，いくら分配を行っても評価値の変化が少ないため，学習が

進むのが遅くなる．それに対して，評価値が小さすぎると，一回の分配によって評価値が大きく

変化するため，最適でないルールを学習する可能性が生じる．いずれの問題も，分配量に対する

90

評価値の初期値が適切な範囲でないために，生じることを明らかにした．また，評価値の初期値

の適切な範囲は，状態ごとに異なるため，従来の全状態で一律の初期値を与える方法には限界が

あることを指摘した．そして，状態ごとに独立して評価値の初期値を設定し，更新する PS-GTR

を提案した．大規模な問題において，効率的に学習が進むことを実験的に確認した．PS-GTRは，

任意の強化関数と組み合わせて使うことができ，POMDPs環境に強い強化関数との組み合わせ

でも，問題がないことを確認した．

最後に，POMDPs環境の応用例として，マルチエージェントにおける強化学習での報酬分配を

検討した．マルチエージェント強化学習では，学習を妨げる要因として四つの要因が挙げられる．

そのうちの一つである不完全知覚問題を考慮した信頼度割り当て問題について検討した．従来の

信頼度割り当て方法は，等比減少的に信頼度を割り当てるが，不完全知覚問題を考慮していない

割り当てであったため，マルチエージェントにおける割り当ての特殊な場合に相当する．不完全

知覚問題を考慮した割り当てである EPSを基に，マルチエージェントにおける割り当てを検討し

た．また，従来の等比減少的な信頼度割り当て方法と，EPSに基づく信頼度割り当て方法がどの

ような関係にあるかを明らかにし，従来法が適用できる条件を明確にした．

シングルエージェントの様々な環境における報酬分配だけでなく，マルチエージェントにおけ

る報酬分配について議論し，これからの強化学習における報酬分配について可能性を示した．

マルチエージェント強化学習システムの他の問題は，未だ解決していないため，信頼度割り当

て問題だけが解決しても，残念ながら，マルチエージェントで扱える問題範囲の劇的な変化は見

られない．そのため，6章では，均一的な信頼度割り当て方法の効果を，実験にて確認できないま

まである．今後は，マルチエージェント強化学習システムの残りの学習を妨げる要因のうち，同

時学習問題に着手し，信頼度割り当ての効果を確認したい．

同時学習問題は，学習の本質に結びつく部分である．他のエージェントの行動選択は，問題環

境の一部ともみなすことができる．他のエージェントが学習を行わず，政策を固定していれば，こ

の問題は単なるシングルエージェントの問題に帰結する．しかし，他のエージェントが試行錯誤

を行えば，その間は，動的に変化する環境下での学習が求められる．このときの環境の変化は，無

秩序な動的ではなく，他エージェントに依存した動的変化であるため，単なる動的変化の問題よ

りは，範囲を狭めることができ，また，環境の変化に意味を持たせることができる．つまり，同

時学習問題を扱うためには，動的変化する環境への適応性を高めた強化関数を検討する必要があ

る．この問題が解決したとき，人工知能の実現にかなり近づくことができるであろう．その日を

夢見て，これからも人工知能の研究を続けていきたい．

91

謝辞

本論文をまとめるにあたり，多くの方々の温かいご支援，ご協力を頂きました．ここに，その方々

への感謝の気持ちを申し上げます．

本研究に対して，懇切なる御指導，御鞭撻を賜った本学電子情報系専攻知識情報処理工学分野

の辰巳昭治教授に深く感謝致します．また，本研究だけでなく，大学院進学の修士から六年間，始

終ご指導くださったことに深く感謝致します．

本論文の審査を務めて頂きました本学電子情報系専攻情報処理工学分野の鳥生隆教授ならびに

情報ネットワーク工学分野の岡育生教授には，的確なご指摘，有益なご意見を頂きました．特に，

鳥生隆教授には，ロボカップ世界大会出場の際にも，ご指導を頂き，大変お世話になりました．

ここに感謝の意を表します．

知識情報処理工学分野の上野敦志講師には，論文を書くにあたり，表現の不適切さを詳細にご

指摘頂きました．曖昧な表現をはっきりさせることで，隠れていた問題の本質が浮かび上がって

きたときの喜びは，今も忘れられません．物事の本質を追求する姿勢は，今後の私の研究生活の

基本として継続していきます．ここに感謝の意を表します．

本研究を進めるにあたり，本学応用物理学科在籍時に，本学情報工学専攻（現在，電子情報系

専攻）への入学をご理解いただきました本学応用物理学科の美馬宏司教授（現在，名誉教授）お

よび当時学部長であった西村仁教授（現在，名誉教授）に深く感謝の意を表します．

人工知能学会主催若手の集い研究会（旧サマースクール）では，参加者の皆様方の熱意に刺激

され，研究のモチベーションを高めることができました．特に，北海道東海大学国際文化学部国

際文化学科の畦地真太郎講師（現在，朝日大学経営学部助教授）には，研究会委員としてお世話

になりました．畦地真太郎講師が熱く語られる「心理学者としての人工知能」は，私の「強化学

習としての人工知能」の姿勢の開始点となっています．ここに感謝の意を表します．

また，日頃から何かと御協力頂きました本研究室の皆様方に感謝致します．

最後になりましたが，研究活動への没頭を温かく見守り支えてくれた両親と，私の代わりに両

親のそばにいる愛犬チワワのナム君に，心から感謝致します．

参考文献

[荒井 98] 荒井幸代, 宮崎和光, 小林重信：マルチエージェント強化学習の方法論– Q-Learning

と Profit Sharingによる接近–, 人工知能誌, Vol. 13, No. 4, pp. 609–618 (1998)

[荒井 01] 荒井幸代：マルチエージェント強化学習–実用化に向けての課題・理論・諸技術との融

合–, 人工知能誌, Vol. 16, No. 4, pp. 476–481 (2001)

[Grefenstette 88] Grefenstette, J.: Credit assignment in rule discovery systems based on genetic

algorithms, Machine Learning, Vol. 3, pp. 225–245 (1988)

[情報 89] 情報システムハンドブック編集委員会：情報システムハンドブック, 培風館 (1989)

[木村 96] 木村元, 山村雅幸, 小林重信：部分観測マルコフ決定過程下での強化学習, 人工知能誌,

Vol. 11, No. 5, pp. 761–768 (1996)

[Lanzi 00] Lanzi, P.: Adaptive Agents with Reinforcement Learning and Internal Memory, in

Proc. of the 6th International Conference on Simulation of Adaptive Behavior, pp. 333–342

(2000)

[Loch 98] Loch, J. and Singh, S.: Using Eligibility Traces to Find the Best Memoryless Policy in

Partially Observable Markov Decision Processes, in Proc. of the 15th International Conference

on Machine Learning, pp. 323–331 (1998)

[McCallum 95] McCallum, R.: Instance-based utile distinctions for reinforcement learning with

hidden state, in Proc. of the 12th International Conference on Machine Learning, pp. 387–395

(1995)

[宮崎 94] 宮崎和光, 山村雅幸, 小林重信：強化学習における報酬割当ての理論的考察, 人工知能

誌, Vol. 9, No. 4, pp. 580–587 (1994)

[宮崎 95] 宮崎和光, 山村雅幸, 小林重信：k-確実探査法:強化学習における環境同定のための行

動選択戦略, 人工知能誌, Vol. 10, No. 3, pp. 124–133 (1995)

93

[宮崎 97] 宮崎和光, 山村雅幸, 小林重信：MarcoPolo:報酬獲得と環境同定のトレードオフを考

慮した強化学習システム, 人工知能誌, Vol. 12, No. 1, pp. 78–89 (1997)

[宮崎 99a] 宮崎和光, 荒井幸代, 小林重信：POMDPs環境下での決定的政策の学習, 人工知能

誌, Vol. 14, No. 1, pp. 148–156 (1999)

[宮崎 99b] 宮崎和光, 荒井幸代, 小林重信：Profit Sharingを用いたマルチエージェント強化学

習における報酬分配の理論的考察, 人工知能誌, Vol. 14, No. 6, pp. 1156–1164 (1999)

[宮崎 01] 宮崎和光, 坪井創吾, 小林重信：罰を回避する合理的政策の学習, 人工知能論文誌,

Vol. 16, No. 2, pp. 185–192 (2001)

[宮崎 03] 宮崎和光, 小林重信：Profit Sharingの不完全知覚環境下への拡張:PS-r*の提案と評価,

人工知能論文誌, Vol. 18, No. 5, pp. 286–296 (2003)

[Rummery 94] Rummery, G. and Niranjan, M.: On-line Q-learning using connectionist systems,

Technical Report CUED/F-INFENG/TR 166 Engineering Department, Cambridge University

(1994)

[斎藤 04] 斎藤健, 増田士朗：不完全知覚判定法を導入した Profit Sharing, 人工知能論文誌,

Vol. 19, No. 5, pp. 379–388 (2004)

[Sutton 88] Sutton, R.: Learning to predict by method of temporal differences, Machine Learn-

ing, Vol. 4, pp. 9–44 (1988)

[Sutton 90] Sutton, R.: Integrated architecture for learning, planning, and reacting based on

approximating dynamic programing, in Proc. of the 7th International Conference on Machine

Learning, pp. 216–224 (1990)

[Sutton 98] Sutton, R. and Barto, A.: Reinforcement learning – an introduction –, the MIT

Press (1998)

[高玉 98] 高玉圭樹：マルチエージェント強化学習, コロナ社 (1998)

[植村 01] 植村渉, 辰巳昭治, 北村泰彦：強化学習を用いた 2Dメッシュ結合型マルチコンピュー

タでの耐故障性を持つ適応経路設定, 信学情ソ大, pp. d10–7 (2001)

[植村 02] 植村渉, 辰巳昭治, 北村泰彦：強化学習 Profit Sharingへの学習確定度の導入, 信学総

大, pp. d8–14 (2002)

94

[植村 03] 植村渉, 辰巳昭治, 北村泰彦：Profit Sharing法における強化関数に関する一考察, 人

工知能全国大会, pp. 3f4–01 (2003)

[Uemura 04a] Uemura, W., Ueno, A., and Tatsumi, S.: The exploitation reinforcement learning

method on POMDPs, in Joint 2nd International Conference on Soft Computing and Intelli-

gent Systems, pp. TUE–1–3 (2004)

[植村 04b] 植村渉, 上野敦志, 辰巳昭治：POMDPs環境下での経験強化型強化学習法, 信学技

法, Vol. 104, No. 233, pp. 1–57 (2004)

[植村 04c] 植村渉, 辰巳昭治：Profit Sharing法における強化関数に関する一考察, 人工知能論文

誌, Vol. 19, No. 4, pp. 197–203 (2004)

[植村 04d] 植村渉, 上野敦志, 辰巳昭治：マルチエージェント強化学習における信頼度割り当て

に関する一考察, in Third Joint Agent Workshops and Symposium, pp. 141–147 (2004)

[植村 05] 植村渉, 上野敦志, 辰巳昭治：POMDPs環境のためのエピソード強化型強化学習法,

信学会論文誌, Vol. J88–A, No. 6, pp. 761–774 (2005)

[ワグナー 78] ワグナー著, 高橋幸雄, 森雅夫, 山田暁訳：オペレーションズ・リサーチ入門，

5=確率的計画法, 培風館 (1978)

[Watkins 92] Watkins, C. and Dayan, P.: Technical note:Q-Learning, Machine Learning, Vol. 8,

pp. 279–292 (1992)

[Whitehead 90] Whitehead, S. and Balland, D.: Active perception and reinforcement learning,

in Proc. of the 7th International Conference on Machine Learning, pp. 162–169 (1990)

95

強化学習における 報酬の分配に関する研究 ·...

Documents

強化学習における報酬の分配に関する研究 ·...