大富豪に対する機械学習の適用 + α

大富豪に対する機械学習の適用 + αKATSUKI OHTO

@ ML 15 MINUTES - 4 2016/9/24

自己紹介大渡　勝己 Katsuki Ohto

大学院生研究：ゲーム AI

自己紹介多数のゲーム AI 大会に参加囲碁将棋ぷよぷよ今度人類 vsAI やります !

人狼 Trax

カーリング

大富豪（大貧民）ゲーム

日本で人気のあるトランプゲーム各プレーヤーに配られた手札を早く無くした方が勝ち多人数ゲーム相手の手札がわからない不完全情報ゲーム

人間との大富豪対戦 2016/5/19 深夜日本テレビ「変ラボ」にて人類代表 ? の手越祐也氏と対戦Youtube の動画は削除されていた

大富豪で有効なアルゴリズム：モンテカルロ法各合法行動について、行動後の試合を何らかの方策で進める（シミュレーション）最終的な結果が良さそうな行動を選ぶ Alpha 碁に近い手法

手札

行動候補

平均順位　 3.5 位 2.9 位　 2.1 位　　　 1.6 位

シミュレーション

モンテカルロ法プログラムの強化シミュレーションが実際の試合展開に近ければ、結果予測が正確になる →シミュレーションの精度向上機械学習しましょう

手札

行動候補シミュレーション

線形行動価値関数状態、合法行動の評価をベクトルの内積で定義

: 主観的な状態　　: 合法行動 : 状態で行動を取る時の特徴ベクトル重みベクトル（学習対象）

softmax 方策行動選択確率を以下のように定義 : 主観的な状態　　: s における合法行動全体の集合　: 合法行動 : 状態で行動を取る時の行動価値関数重みベクトル（学習対象） : 温度 ( 方策のばらつき )

学習手法

学習中の方策　教師の方策のとき誤差関数（カルバック・ライブラー情報量）教師の方策が決定的（確率 1 でを選択）のとき交差エントロピーに同じ

棋譜からの学習を行うため、教師の方策は決定的と仮定　→　分類問題

学習手法重みパラメータの更新式 []

: 主観的な状態　　: s における合法行動全体の集合　重みベクトル（学習対象） : 温度 : 学習率

過去プログラムからの学習 ① 過去のプログラムの自己対戦棋譜 ( 各 50,000 試合 ) を作成教師プログラム ( 全 15 プログラム ) 　　　 ② それぞれのプログラムの棋譜から重みパラメータを学習（ 40,000 試合利用） → 計 15 種類の重みパラメータを得る＜学習設定＞学習率温度 L1 正則化

係数L2 正則化係数

バッチサイズ

反復回数（交換）

反復回数（役提出）

1.0 0 1 150 50

過去プログラムの着手の学習結果行動価値関数最大の行動と棋譜の行動の一致率（役提出）　　　　　　　　　　　　　　　　　　赤ルールベースが教師　　　　　　　　　　　　　　　　　　　　　　 69% 〜 95% 青モンテカルロが教師 62% 〜71% ( 平均分岐数 5.6 〜 6.6 程度 )

教師プログラムの強さと学習したプログラムの強さの関係横軸 : 学習に用いたプログラム間でリーグ戦を行った際の平均得点縦軸：学習したプログラムの対戦実験での平均得点

より強い教師によって、方策関数プレー、モンテカルロ法プレーいずれも強くなった！

方策関数プレーモンテカルロ法プレー

自分の棋譜からの学習　動機学習によって強いプログラムができたので、学習 → 棋譜作成 → 学習 → 棋譜作成 → 学習… と繰り返すことで強くできるのでは ?

強化学習ではなく教師あり学習にて 0 から学習！

自分の棋譜だけからの学習手法方策パラメータを全て 0 に初期化 ← 第 1世代

モンテカルロ法による自己対戦棋譜の作成作成した棋譜の行動から方策関数を学習

　　学習と自己対戦棋譜作成を繰り返して第 10世代までの重みパラメータを作成、対戦実験

対戦実験結果（自分の棋譜から学習）方策関数によるプレー

結果 : 第 3世代まで平均得点が上昇

モンテカルロ法によるプレー

他人の棋譜から学習 vs 自分の棋譜から学習方策関数でプレーモンテカルロ法でプレー

①

②③④

②

③④

自分の棋譜のみで、他プログラムの棋譜を使った場合に近い強さが得られた！

大富豪 AI 参考資料電気通信大学　コンピュータ大貧民大会（仮サイト）

http://www.tnlab.inf.uec.ac.jp/daihinmin/

私の論文http://www.tanaka.ecc.u-tokyo.ac.jp/wp/ohto/2016/03/15/



http://www.tanaka.ecc.u-tokyo.ac.jp/wp/ohto/2016/03/15/

世界のゲーム AI 研究ニュース DQN が MONTEZUNA’S REVENGE をプレイ

Unifying Count-Based Exploration and Intrinsic Motivation. (Mnih et al., 2016)

動画https://www.youtube.com/watch?v=0yI2wJ6F8r0

論文を紹介した日本語スライドhttp://www.slideshare.net/KatsukiOhto/unifying-count-based-exploration-and-intrinsic-motivation

https://www.youtube.com/watch?v=0yI2wJ6F8r0



http://www.slideshare.net/KatsukiOhto/unifying-count-based-exploration-and-intrinsic-motivation





DQN with Intrinsic Motivaton(Mnih et al., 2016)

count based な intrinsic( 内面 ) motivation で探索促進高次元空間なので厳密な到達回数を計測しても意味がない！フレーム予測から擬似到達回数を算出

擬似到達回数が少ない場合に追加で報酬を与える

Pseudo-count の考え方は昔からあるけれど（高次元 or連続）空間で pseudo(擬似 ) count を算出するのはよくある考え方例：カーリングの連続空間を加算無限に構造化して状態到達回数を近似（私）

それでも最新の研究に用いて成果を出す DeepMind社はすごい！

結論

人工知能技術は楽しく使う！

大富豪に対する機械学習の適用 + α

Science