大富豪に対する機械学習の適用 + α

23
大大大大大大大大大大大大大大 + α KATSUKI OHTO @ ML 15 MINUTES - 4 2016/9/24

Upload: katsuki-ohto

Post on 16-Apr-2017

2.548 views

Category:

Science


1 download

TRANSCRIPT

Page 1: 大富豪に対する機械学習の適用 + α

大富豪に対する機械学習の適用 + αKATSUKI OHTO

@ ML 15 MINUTES - 4 2016/9/24

Page 2: 大富豪に対する機械学習の適用 + α

自己紹介 大渡 勝己 Katsuki Ohto

大学院生 研究:ゲーム AI

Page 3: 大富豪に対する機械学習の適用 + α

自己紹介 多数のゲーム AI 大会に参加 囲碁 将棋 ぷよぷよ今度人類 vsAI やります !

人狼 Trax

カーリング

Page 4: 大富豪に対する機械学習の適用 + α

大富豪(大貧民)ゲーム

日本で人気のあるトランプゲーム各プレーヤーに配られた手札を早く無くした方が勝ち多人数ゲーム相手の手札がわからない不完全情報ゲーム

Page 5: 大富豪に対する機械学習の適用 + α

人間との大富豪対戦 2016/5/19 深夜日本テレビ「変ラボ」にて人類代表 ? の手越祐也氏と対戦Youtube の動画は削除されていた

Page 6: 大富豪に対する機械学習の適用 + α

大富豪で有効なアルゴリズム:モンテカルロ法 各合法行動について、行動後の試合を何らかの方策で進める (シミュレーション) 最終的な結果が良さそうな行動を選ぶ Alpha 碁に近い手法

手札

行動候補

平均順位  3.5 位 2.9 位  2.1 位    1.6 位

シミュレーション

Page 7: 大富豪に対する機械学習の適用 + α

モンテカルロ法プログラムの強化 シミュレーションが実際の試合展開に近ければ、結果予測が正確になる →シミュレーションの精度向上 機械学習しましょう

手札

行動候補シミュレーション

Page 8: 大富豪に対する機械学習の適用 + α

線形行動価値関数状態 、合法行動 の評価 をベクトルの内積で定義

: 主観的な状態  : 合法行動 : 状態で行動を取る時の特徴ベクトル重みベクトル(学習対象)

Page 9: 大富豪に対する機械学習の適用 + α

softmax 方策行動選択確率 を以下のように定義 : 主観的な状態  : s における合法行動全体 の集合  : 合法行動 : 状態で行動を取る時の行動価値関数重みベクトル(学習対象) : 温度 ( 方策のばらつき )

Page 10: 大富豪に対する機械学習の適用 + α

学習手法

学習中の方策   教師の方策 のとき誤差関数 (カルバック・ライブラー情報量) 教師の方策が決定的(確率 1 で を選択)のとき交差エントロピーに同じ

棋譜からの学習を行うため、教師の方策は決定的と仮定 → 分類問題

Page 11: 大富豪に対する機械学習の適用 + α

学習手法 重みパラメータ の更新式 []

: 主観的な状態  : s における合法行動全体 の集合  重みベクトル(学習対象) : 温度 : 学習率

Page 12: 大富豪に対する機械学習の適用 + α

過去プログラムからの学習 ① 過去のプログラムの自己対戦棋譜 ( 各 50,000 試合 ) を作成 教師プログラム ( 全 15 プログラム )     ② それぞれのプログラムの棋譜から重みパラメータを学習( 40,000 試合利用) → 計 15 種類の重みパラメータを得る <学習設定> 学習率 温度 L1 正則化

係数L2 正則化係数

バッチサイズ

反復回数(交換)

反復回数(役提出)

1.0 0 1 150 50

Page 13: 大富豪に対する機械学習の適用 + α

過去プログラムの着手の学習結果 行動価値関数最大の行動と棋譜の行動の一致率(役提出)                   赤ルールベースが教師                        69% 〜 95% 青モンテカルロが教師 62% 〜71% ( 平均分岐数 5.6 〜 6.6 程度 )

Page 14: 大富豪に対する機械学習の適用 + α

教師プログラムの強さと学習したプログラムの強さの関係 横軸 : 学習に用いたプログラム間でリーグ戦を行った際の平均得点 縦軸 :学習したプログラムの対戦実験での平均得点

より強い教師によって、方策関数プレー、モンテカルロ法プレーいずれも強くなった!

方策関数プレーモンテカルロ法プレー

Page 15: 大富豪に対する機械学習の適用 + α

自分の棋譜からの学習 動機 学習によって強いプログラムができたので、 学習 → 棋譜作成 → 学習 → 棋譜作成 → 学習… と繰り返すことで強くできるのでは ?

強化学習ではなく教師あり学習にて 0 から学習!

Page 16: 大富豪に対する機械学習の適用 + α

自分の棋譜だけからの学習手法 方策パラメータを全て 0 に初期化 ← 第 1世代

モンテカルロ法による自己対戦棋譜の作成 作成した棋譜の行動から方策関数を学習

  学習と自己対戦棋譜作成を繰り返して第 10世代までの重みパラメータを作成、対戦実験

Page 17: 大富豪に対する機械学習の適用 + α

対戦実験結果(自分の棋譜から学習)方策関数によるプレー

結果 : 第 3世代まで平均得点が上昇

モンテカルロ法によるプレー

Page 18: 大富豪に対する機械学習の適用 + α

他人の棋譜から学習 vs 自分の棋譜から学習方策関数でプレー モンテカルロ法でプレー

②③④

③④

自分の棋譜のみで、他プログラムの棋譜を使った場合に近い強さが得られた!

Page 19: 大富豪に対する機械学習の適用 + α

大富豪 AI 参考資料 電気通信大学 コンピュータ大貧民大会(仮サイト)

http://www.tnlab.inf.uec.ac.jp/daihinmin/

私の論文http://www.tanaka.ecc.u-tokyo.ac.jp/wp/ohto/2016/03/15/

Page 21: 大富豪に対する機械学習の適用 + α

DQN with Intrinsic Motivaton(Mnih et al., 2016)

count based な intrinsic( 内面 ) motivation で探索促進 高次元空間なので厳密な到達回数を計測しても意味がない! フレーム予測から擬似到達回数を算出

擬似到達回数が少ない場合に追加で報酬を与える

Page 22: 大富豪に対する機械学習の適用 + α

Pseudo-count の考え方は昔からあるけれど (高次元 or連続)空間で pseudo(擬似 ) count を算出するのはよくある考え方 例:カーリングの連続空間を加算無限に構造化して状態到達回数を近似(私)

それでも最新の研究に用いて成果を出す DeepMind社はすごい!

Page 23: 大富豪に対する機械学習の適用 + α

結論

人工知能技術は楽しく使う!