icml2011 minimum probability flow learning

20
Minimum Probability Flow Learning 読む人 佐藤一誠(助教@東大) -読む論文- Jascha Sohl-Dickstein, Peter Battaglino&Michael & R. DeWeese UC Berkley ICML2011読む会2011/08/04 1

Upload: isseisato

Post on 01-Jul-2015

1.272 views

Category:

Documents


1 download

TRANSCRIPT

Page 1: Icml2011 Minimum Probability Flow Learning

Minimum Probability Flow Learning

読む人

佐藤一誠(助教@東大)

-読む論文-

Jascha Sohl-Dickstein, Peter Battaglino&Michael & R. DeWeeseUC Berkley

ICML2011読む会2011/08/04

1

Page 2: Icml2011 Minimum Probability Flow Learning

概要

• 目的

– Ising model, Deep belief networkなどの学習

–分配関数(正規化項)の計算量が問題

• 面白いところ

– Contrastive Divergence (CD) [Hinton+,2002]との関係

– CDよりも高速に学習できる

※2009年にArxivに同名タイトルで論文がすでにあがっていた2

Page 3: Icml2011 Minimum Probability Flow Learning

目次

• Contrastive Divergence (高速Review)

• Minimum Probability Flow Learning

–概要

–導出

– Contrastive Divergenceとの関係

• 実験

3

Page 4: Icml2011 Minimum Probability Flow Learning

)(log];[1

);(1

ZxEN

XLN

n

n

問題設定

Model:

Goal:

Data:

intractable4

)];(exp[)(

1)|(

xE

Zxp

);(maxarg*

XL

離散

Page 5: Icml2011 Minimum Probability Flow Learning

Contrastive Divergence (CD)[Hinton+,2002]

5

x

N

n

n xpxExE

N

XL)|(

];[];[1);(

1

S

s

sN

n

n xE

S

xE

N 11

];[1];[1

)|(~ xpxsサンプル近似→

(but 高コスト)

[Point] 実際には、データXからの1回のマルコフ連鎖で代用する!

Page 6: Icml2011 Minimum Probability Flow Learning

目次

• Contrastive Divergence (高速Review)

• Minimum Probability Flow Learning

–概要

–導出

– Contrastive Divergenceとの関係

• 実験

6

Page 7: Icml2011 Minimum Probability Flow Learning

論文の表記(要注意)

• 離散状態上の確率モデルを考える

• i: 状態 index

• 2つのコイン投げ{表:0,裏:1}を考える

• θ=コインの裏表が出る確率

• i=1⇔00, i=2⇔01, i=3⇔10, i=4⇔11

あるθにおける状態 iの確率

※θの確率分布ではないpは状態の確率ベクトル 7

Page 8: Icml2011 Minimum Probability Flow Learning

MPF学習の概要

Given θ

Data分布からModel分布へのマルコフ連鎖を考えるΓ(θ) : 状態遷移行列

経験分布をp (0)と書く

8

Page 9: Icml2011 Minimum Probability Flow Learning

p (∞)経験分布をp (0)と書く p (t)

定常分布Γ(θ) 9

Page 10: Icml2011 Minimum Probability Flow Learning

どのようなΓ(θ)であればよいのか?

Detailed Balance

エルゴード性を考慮して問題ごとに定義する(Isingの場合は後述する) 10

Page 11: Icml2011 Minimum Probability Flow Learning

最尤学習:モデル分布の空間で経験分布に近いθを見つける

MPF学習: 定常分布へεだけ遷移する分布で経験分布に近いθを見つける

Γ(θ)によるマルコフ連鎖

11

Page 12: Icml2011 Minimum Probability Flow Learning

• 最尤学習

• MPF学習

12

Page 13: Icml2011 Minimum Probability Flow Learning

MPF学習アルゴリズムの導出1/2

Fist order Taylor expansion

がんばると

訓練データ集合 13

Page 14: Icml2011 Minimum Probability Flow Learning

MPF学習アルゴリズムの導出2/2

↓Gradient decent!

がんばると

目的関数

14

Page 15: Icml2011 Minimum Probability Flow Learning

Contrastive Divergenceをもう一度眺める

15

S

s

sN

n

n xE

S

xE

N 11

];[1];[1

勾配を

訓練データ平均 各訓練データから1回のマルコフ連鎖で作ったサンプル平均(i.e.,S=N)

として勾配法で解く

Page 16: Icml2011 Minimum Probability Flow Learning

Constrictive Divergenceとの関係

Dj Di

i

Di

ij

Dj

jijP

E

D

E

D)(

)(

||

)(

||

CDは、この期待値ををjから実際に遷移させたiで近似している

j→iの遷移確率

D中の各データが互いにunconnectedなら1

16

Page 17: Icml2011 Minimum Probability Flow Learning

実験

• Ising model (fully visible Boltzmann machine)

• Jを与えてxを生成して訓練データとする

• 学習したJの平均二乗誤差で評価

xは100次元binaryベクトル

17

Page 18: Icml2011 Minimum Probability Flow Learning

CD-1,CD-10

Psedolikelihood(平均場近似ぽい)

MPF

18

Page 19: Icml2011 Minimum Probability Flow Learning

19

Page 20: Icml2011 Minimum Probability Flow Learning

おわりに

• gをうまく選べばO(|D|) (状態数に依存しない)と主張• Deep belief netなどの実験もある• xが連続の場合への拡張にも言及• 「Long versionのappendixに書いてある文」多数

(ICML論文にappendixはない)

(傾向)CD関連は毎年ICMLに出ているe.g.

– Persistent Contrastive Divergence [ICML2008,2009]– Particle filtered MCMC-MLE [ICML2010]

20