大富豪に対する機械学習の適用 + α
TRANSCRIPT
大富豪に対する機械学習の適用 + αKATSUKI OHTO
@ ML 15 MINUTES - 4 2016/9/24
自己紹介 大渡 勝己 Katsuki Ohto
大学院生 研究:ゲーム AI
自己紹介 多数のゲーム AI 大会に参加 囲碁 将棋 ぷよぷよ今度人類 vsAI やります !
人狼 Trax
カーリング
大富豪(大貧民)ゲーム
日本で人気のあるトランプゲーム各プレーヤーに配られた手札を早く無くした方が勝ち多人数ゲーム相手の手札がわからない不完全情報ゲーム
人間との大富豪対戦 2016/5/19 深夜日本テレビ「変ラボ」にて人類代表 ? の手越祐也氏と対戦Youtube の動画は削除されていた
大富豪で有効なアルゴリズム:モンテカルロ法 各合法行動について、行動後の試合を何らかの方策で進める (シミュレーション) 最終的な結果が良さそうな行動を選ぶ Alpha 碁に近い手法
手札
行動候補
平均順位 3.5 位 2.9 位 2.1 位 1.6 位
シミュレーション
モンテカルロ法プログラムの強化 シミュレーションが実際の試合展開に近ければ、結果予測が正確になる →シミュレーションの精度向上 機械学習しましょう
手札
行動候補シミュレーション
線形行動価値関数状態 、合法行動 の評価 をベクトルの内積で定義
: 主観的な状態 : 合法行動 : 状態で行動を取る時の特徴ベクトル重みベクトル(学習対象)
softmax 方策行動選択確率 を以下のように定義 : 主観的な状態 : s における合法行動全体 の集合 : 合法行動 : 状態で行動を取る時の行動価値関数重みベクトル(学習対象) : 温度 ( 方策のばらつき )
学習手法
学習中の方策 教師の方策 のとき誤差関数 (カルバック・ライブラー情報量) 教師の方策が決定的(確率 1 で を選択)のとき交差エントロピーに同じ
棋譜からの学習を行うため、教師の方策は決定的と仮定 → 分類問題
学習手法 重みパラメータ の更新式 []
: 主観的な状態 : s における合法行動全体 の集合 重みベクトル(学習対象) : 温度 : 学習率
過去プログラムからの学習 ① 過去のプログラムの自己対戦棋譜 ( 各 50,000 試合 ) を作成 教師プログラム ( 全 15 プログラム ) ② それぞれのプログラムの棋譜から重みパラメータを学習( 40,000 試合利用) → 計 15 種類の重みパラメータを得る <学習設定> 学習率 温度 L1 正則化
係数L2 正則化係数
バッチサイズ
反復回数(交換)
反復回数(役提出)
1.0 0 1 150 50
過去プログラムの着手の学習結果 行動価値関数最大の行動と棋譜の行動の一致率(役提出) 赤ルールベースが教師 69% 〜 95% 青モンテカルロが教師 62% 〜71% ( 平均分岐数 5.6 〜 6.6 程度 )
教師プログラムの強さと学習したプログラムの強さの関係 横軸 : 学習に用いたプログラム間でリーグ戦を行った際の平均得点 縦軸 :学習したプログラムの対戦実験での平均得点
より強い教師によって、方策関数プレー、モンテカルロ法プレーいずれも強くなった!
方策関数プレーモンテカルロ法プレー
自分の棋譜からの学習 動機 学習によって強いプログラムができたので、 学習 → 棋譜作成 → 学習 → 棋譜作成 → 学習… と繰り返すことで強くできるのでは ?
強化学習ではなく教師あり学習にて 0 から学習!
自分の棋譜だけからの学習手法 方策パラメータを全て 0 に初期化 ← 第 1世代
モンテカルロ法による自己対戦棋譜の作成 作成した棋譜の行動から方策関数を学習
学習と自己対戦棋譜作成を繰り返して第 10世代までの重みパラメータを作成、対戦実験
対戦実験結果(自分の棋譜から学習)方策関数によるプレー
結果 : 第 3世代まで平均得点が上昇
モンテカルロ法によるプレー
他人の棋譜から学習 vs 自分の棋譜から学習方策関数でプレー モンテカルロ法でプレー
①
②③④
②
③④
自分の棋譜のみで、他プログラムの棋譜を使った場合に近い強さが得られた!
大富豪 AI 参考資料 電気通信大学 コンピュータ大貧民大会(仮サイト)
http://www.tnlab.inf.uec.ac.jp/daihinmin/
私の論文http://www.tanaka.ecc.u-tokyo.ac.jp/wp/ohto/2016/03/15/
世界のゲーム AI 研究ニュース DQN が MONTEZUNA’S REVENGE をプレイ
Unifying Count-Based Exploration and Intrinsic Motivation. (Mnih et al., 2016)
動画https://www.youtube.com/watch?v=0yI2wJ6F8r0
論文を紹介した日本語スライドhttp://www.slideshare.net/KatsukiOhto/unifying-count-based-exploration-and-intrinsic-motivation
DQN with Intrinsic Motivaton(Mnih et al., 2016)
count based な intrinsic( 内面 ) motivation で探索促進 高次元空間なので厳密な到達回数を計測しても意味がない! フレーム予測から擬似到達回数を算出
擬似到達回数が少ない場合に追加で報酬を与える
Pseudo-count の考え方は昔からあるけれど (高次元 or連続)空間で pseudo(擬似 ) count を算出するのはよくある考え方 例:カーリングの連続空間を加算無限に構造化して状態到達回数を近似(私)
それでも最新の研究に用いて成果を出す DeepMind社はすごい!
結論
人工知能技術は楽しく使う!