2017_04 25_論文紹介

A Complete Recipe for Stochastic Gradient MCMC(NIPS 2015)

Yi-An Ma, Tianqi Chen, and Emily B. Fox(Washington University)

Gunosy Inc.2017.04.25

@mathetake

2©Gunosy Inc.

自己紹介

● マスタケ - 修士(数学)

● Twitter : @MATHETAKE

● Blog : http://mathetake.hatenablog.com/

● 学生時代の専門○ ピュアマス

■ 微分幾何学■ 複素幾何学■ シンプレクティック幾何学

● 円周上のL^2関数の成すヒルベルト空間上のヒルベルトシュミット作用素全体の成すヒルベルト空間上でハミルトン力学を(ry してました

※機械学習・統計一切関係なし

● 所属○ 株式会社Gunosy 　開発本部　データ分析部

http://mathetake.hatenablog.com/

3©Gunosy Inc.

What’s about

Stochastic Gradient MCMCを含む

全てのMCMCアルゴリズムが

ある一般的な形の確率微分方程式

で記述出来ることを証明*

↓

自分だけのMCMCの設計が可能に

*純粋数学的には怪しい

4©Gunosy Inc.

アジェンダ

■ MCMCのキホンのキ

■ 問題設定

■ ’NOT’ Stochastic Gradient な MCMCの例： HMC

■ HMCのシミュレーションphaseとSGMCMCのお気持ち

■ 確率微分方程式と伊藤の拡散過程

■ 論文の主結果

■ 拡散過程のシミュレーションとSGMCMC

■ Example) Stochastic Gradient HMC

5©Gunosy Inc.

アジェンダ


■ 問題設定







6©Gunosy Inc.

MCMCのキホンのキ

■ MCMC = Markov chain Monte Carlo

■ 一般の確率分布からサンプリングするためのアルゴリズム”群”

– 理論的には目的の分布を不変分布とする、エルゴード性を満たすマルコフ過程を構成。 ⇒　マルコフ過程の極限の分布が目的の分布に収束

– そのマルコフ過程（確率変数の列）からサンプリングしていくアルゴリズムの総称。

是非Gunosyデータ分析ブログの僕の記事を御覧ください ↓　初歩の初歩から書いてます

【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで

http://data.gunosy.io/entry/mcmc-sgld-edward



7©Gunosy Inc.

MCMCのキホンのキ　ーモチベーションー

正規化定数が分からないような分布からサンプリングしたい

ex.)複雑な確率モデルの事後分布- Bayesian NN

？？？

8©Gunosy Inc.

アジェンダ


■ 問題設定







9©Gunosy Inc.

問題設定

＝ー　( 事後分布の対数 + 正規化定数の対数 )

←計算可能サンプリングしたい→

ポテンシャル関数

10©Gunosy Inc.

アジェンダ


■ 問題設定







11©Gunosy Inc.

‘Not’ Stochastic Gradient な MCMCの例

■ Hamiltonian Monte Carlo– NUTSというアルゴリズムに拡張されStanに実装され話題

– θと独立な補助的なパラメータｚ（運動量）を導入– 次の形の関数をHamiltonianとするような力学をシミュレーション&運動量の

初期化を繰り返す。

– それによりexp(-H(z))に比例する確率分布からサンプリングを実現。– 補助パラメータを無視することでexp(-U(θ))に比例する確率分布からサンプリ

ング。

※以下ｒといったら補助パラメータの事とし、ｚで組（θ, r）を表す。

12©Gunosy Inc.

アジェンダ


■ 問題設定







13©Gunosy Inc.

HMCのシミュレーションphaseとSGMCMCのお気持ち

Computationally expensive.HMCに限らず既存のMCMCアルゴリズムは

サンプル数が多いとキツイ。

ビッグデータにスケールさせたい！！！！

Computationally Expensiveな元凶は対数尤度の勾配計算

↓

サンプルの一部を i.i.d.に持ってきて計算してしまえ (Stochastic Gradient)

↓

サンプリングを記述するダイナミクスが確率的に。。。。（理論解析が難しい）

↓

みんな大好き確率微分方程式の登場

14©Gunosy Inc.

アジェンダ


■ 問題設定







15©Gunosy Inc.

確率微分方程式と伊藤の拡散過程

● 確率微分方程式　・・・　確率的発展を記述する微分方程式

○ アインシュタインによるブラウン運動に関する論文が起源

■ のちに最も偉大な数学者の一人である伊藤清(日本人！！)らにより数学的に

基礎付けがなされる

● 拡散過程　・・・　次の形で与えられる確率微分方程式を満たす確率過程

ｆ：パラメータ空間上の実数値関数, 　D：半定値行列

W：ウィーナー過程：以下を満たす確率過程（数学的に存在）

・各時間で標準正規分布

・２つの時点での値の差（確率変数）の期待値０

・２つの時点での値の差（確率変数）の分散がその時間の差の絶対値

○ランダムネスを表す項○SGによるノイズを表現出来る

16©Gunosy Inc.

アジェンダ


■ 問題設定







17©Gunosy Inc.

論文の主結果 -１-

ｆ(z)、D(z)が次で与えられる拡散過程を満たすマルコフ過程は目的の分布を不変分

布に持つ。

ここで、Q(z)は歪対称行列関数。また,

（１）Dが常に正定値　または　(２) マルコフ過程がエルゴード的

である時、不変分布はただ１つ存在（＝目的の分布のみ）。

証明のアイディア：伊藤の公式から導出される、密度関数の時間発展を記述するFokker-Plank方程式を用いる。

19©Gunosy Inc.

論文の主結果　つまり…

- 正定値行列値関数 D(z)- 歪対称行列値関数 Q(z)

を設計し、方程式

によりｆを定義することで

自分だけのMCMCアルゴリズムが作れる

だけでなく、確率微分方程式の言葉で統一的にMCMCを記述できる。

21©Gunosy Inc.

拡散方程式のシミュレーションとSGMCMC

○ step size (ε_t) を用意し離散化

○ 次の更新式でシミュレーションする

Computationally expensive.

Stochastic Gradient MCMC

Stochastic Gradientに置き換える

22©Gunosy Inc.

拡散方程式のシミュレーションとSGMCMC

U(θ)を確率的にミニバッチにして計算(unbiased estimator)し

中心極限定理を使って次のように仮定する：

さらにV(θ)の推定量B_tが存在すると仮定して次の更新式を得る

ステップサイズを０に収束させることで元のシミュレーションとの誤差はゼロに

24©Gunosy Inc.


● Stochastic Gradient Hamiltonian Monte Carlo [Chen+ 2014]○ 通常のHMCを単純にSGに　→　目標の分布 !＝不変分布

○ 摩擦項を導入　→　目標の分布＝不変分布

○ Q,Dを以下で定義

○ 更新式

25©Gunosy Inc.

■ 参考文献とライブラリ

1. A Complete Recipe for Stochastic Gradient MCMC　　　　　　　　　　https://arxiv.org/abs/1506.04696

2. Stochastic Gradient Hamiltonian Monte Carlo 　　　　　　　　　　　https://arxiv.org/abs/1402.4102

3. High-Order Stochastic Gradient Thermostats for Bayesian Learning of Deep Models

https://arxiv.org/abs/1512.07662

4. PFN大野さんのスライド　　　　　　　 https://www.slideshare.net/KentaOono/stochastic-gradient-mcmc

5. 【Edward】MCMCの数学的基礎からStochastic Gradient Langevin Dynamicsの実装まで　　　　


参考文献

ライブラリ

1. Edward A library for probabilistic modeling, inference, and criticism http://edwardlib.org/





https://www.slideshare.net/KentaOono/stochastic-gradient-mcmc



http://edwardlib.org/

http://edwardlib.org/

2017_04 25_論文紹介

Engineering