2017_04 25_論文紹介
TRANSCRIPT
A Complete Recipe for Stochastic Gradient MCMC(NIPS 2015)
Yi-An Ma, Tianqi Chen, and Emily B. Fox(Washington University)
Gunosy Inc.2017.04.25
@mathetake
2©Gunosy Inc.
自己紹介
● マスタケ - 修士(数学)
● Twitter : @MATHETAKE
● Blog : http://mathetake.hatenablog.com/
● 学生時代の専門○ ピュアマス
■ 微分幾何学■ 複素幾何学■ シンプレクティック幾何学
● 円周上のL^2関数の成すヒルベルト空間上のヒルベルトシュミット作用素全体の成すヒルベルト空間上でハミルトン力学を(ry してました
※機械学習・統計一切関係なし
● 所属○ 株式会社Gunosy 開発本部 データ分析部
3©Gunosy Inc.
What’s about
Stochastic Gradient MCMCを含む
全てのMCMCアルゴリズムが
ある一般的な形の確率微分方程式
で記述出来ることを証明*
↓
自分だけのMCMCの設計が可能に
*純粋数学的には怪しい
4©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
5©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
6©Gunosy Inc.
MCMCのキホンのキ
■ MCMC = Markov chain Monte Carlo
■ 一般の確率分布からサンプリングするためのアルゴリズム”群”
– 理論的には目的の分布を不変分布とする、エルゴード性を満たすマルコフ過程を構成。 ⇒ マルコフ過程の極限の分布が目的の分布に収束
– そのマルコフ過程(確率変数の列)からサンプリングしていくアルゴリズムの総称。
是非Gunosyデータ分析ブログの僕の記事を御覧ください ↓ 初歩の初歩から書いてます
【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで
http://data.gunosy.io/entry/mcmc-sgld-edward
7©Gunosy Inc.
MCMCのキホンのキ ーモチベーションー
正規化定数が分からないような分布からサンプリングしたい
ex.)複雑な確率モデルの事後分布- Bayesian NN
???
8©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
9©Gunosy Inc.
問題設定
= ー ( 事後分布の対数 + 正規化定数の対数 )
←計算可能サンプリングしたい→
ポテンシャル関数
10©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
11©Gunosy Inc.
‘Not’ Stochastic Gradient な MCMCの例
■ Hamiltonian Monte Carlo– NUTSというアルゴリズムに拡張されStanに実装され話題
– θと独立な補助的なパラメータz(運動量)を導入– 次の形の関数をHamiltonianとするような力学をシミュレーション&運動量の
初期化を繰り返す。
– それによりexp(-H(z))に比例する確率分布からサンプリングを実現。– 補助パラメータを無視することでexp(-U(θ))に比例する確率分布からサンプリ
ング。
※以下rといったら補助パラメータの事とし、zで組(θ, r)を表す。
12©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
13©Gunosy Inc.
HMCのシミュレーションphaseとSGMCMCのお気持ち
Computationally expensive.HMCに限らず既存のMCMCアルゴリズムは
サンプル数が多いとキツイ。
ビッグデータにスケールさせたい!!!!
Computationally Expensiveな元凶は対数尤度の勾配計算
↓
サンプルの一部を i.i.d.に持ってきて計算してしまえ (Stochastic Gradient)
↓
サンプリングを記述するダイナミクスが確率的に。。。。(理論解析が難しい)
↓
みんな大好き確率微分方程式の登場
14©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
15©Gunosy Inc.
確率微分方程式と伊藤の拡散過程
● 確率微分方程式 ・・・ 確率的発展を記述する微分方程式
○ アインシュタインによるブラウン運動に関する論文が起源
■ のちに最も偉大な数学者の一人である伊藤清(日本人!!)らにより数学的に
基礎付けがなされる
● 拡散過程 ・・・ 次の形で与えられる確率微分方程式を満たす確率過程
f:パラメータ空間上の実数値関数, D:半定値行列
W:ウィーナー過程:以下を満たす確率過程(数学的に存在)
・各時間で標準正規分布
・2つの時点での値の差(確率変数)の期待値0
・2つの時点での値の差(確率変数)の分散がその時間の差の絶対値
○ランダムネスを表す項○SGによるノイズを表現出来る
16©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
17©Gunosy Inc.
論文の主結果 -1-
f(z)、D(z)が次で与えられる拡散過程を満たすマルコフ過程は目的の分布を不変分
布に持つ。
ここで、Q(z)は歪対称行列関数。また,
(1)Dが常に正定値 または (2) マルコフ過程がエルゴード的
である時、不変分布はただ1つ存在(=目的の分布のみ)。
証明のアイディア:伊藤の公式から導出される、密度関数の時間発展を記述するFokker-Plank方程式を用いる。
18©Gunosy Inc.
論文の主結果 -2-
目的の分布を不変にし、かつ不変分布が一意に存在するような拡散過程に対して、Q(z)が存在して
を満たす。
証明のアイディア:フーリエ変換
19©Gunosy Inc.
論文の主結果 つまり…
- 正定値行列値関数 D(z)- 歪対称行列値関数 Q(z)
を設計し、方程式
によりfを定義することで
自分だけのMCMCアルゴリズムが作れる
だけでなく、確率微分方程式の言葉で統一的にMCMCを記述できる。
20©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
21©Gunosy Inc.
拡散方程式のシミュレーションとSGMCMC
○ step size (ε_t) を用意し離散化
○ 次の更新式でシミュレーションする
Computationally expensive.
Stochastic Gradient MCMC
Stochastic Gradientに置き換える
22©Gunosy Inc.
拡散方程式のシミュレーションとSGMCMC
U(θ)を確率的にミニバッチにして計算(unbiased estimator)し
中心極限定理を使って次のように仮定する:
さらにV(θ)の推定量B_tが存在すると仮定して次の更新式を得る
ステップサイズを0に収束させることで元のシミュレーションとの誤差はゼロに
23©Gunosy Inc.
アジェンダ
■ MCMCのキホンのキ
■ 問題設定
■ ’NOT’ Stochastic Gradient な MCMCの例: HMC
■ HMCのシミュレーションphaseとSGMCMCのお気持ち
■ 確率微分方程式と伊藤の拡散過程
■ 論文の主結果
■ 拡散過程のシミュレーションとSGMCMC
■ Example) Stochastic Gradient HMC
24©Gunosy Inc.
■ Example) Stochastic Gradient HMC
● Stochastic Gradient Hamiltonian Monte Carlo [Chen+ 2014]○ 通常のHMCを単純にSGに → 目標の分布 != 不変分布
○ 摩擦項を導入 → 目標の分布 = 不変分布
○ Q,Dを以下で定義
○ 更新式
25©Gunosy Inc.
■ 参考文献とライブラリ
1. A Complete Recipe for Stochastic Gradient MCMC https://arxiv.org/abs/1506.04696
2. Stochastic Gradient Hamiltonian Monte Carlo https://arxiv.org/abs/1402.4102
3. High-Order Stochastic Gradient Thermostats for Bayesian Learning of Deep Models
https://arxiv.org/abs/1512.07662
4. PFN大野さんのスライド https://www.slideshare.net/KentaOono/stochastic-gradient-mcmc
5. 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで
http://data.gunosy.io/entry/mcmc-sgld-edward
参考文献
ライブラリ
1. Edward A library for probabilistic modeling, inference, and criticism http://edwardlib.org/