prml復々習レーン#15 前回までのあらすじ

PRML復々習レーン#15 前回までのあらすじ

2013-11-09

Yoshihiko Suhara

@sleepy_yoshi

v.1.0

前回のおさらい

• 復々習レーンの復習を10分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容

• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください

• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため

ポイントだよ

2

ポイント小僧の向きに意味はありません

ポイントだよ

前回の範囲

• 9章混合モデルとEM – 9.1 K-means クラスタリング

• 9.1.1 画像分割と画像圧縮

– 9.2 混合ガウス分布 (Mixture of Gaussians) • 9.2.1 最尤推定

• 9.2.2 混合ガウス分布のEMアルゴリズム

– 9.3 EMアルゴリズムのもう一つの解釈 • 9.3.1 混合ガウス分布再訪

• 9.3.2 K-means との関連

• 9.3.3 混合ベルヌーイ分布

• 9.3.4 ベイズ線形回帰に関するEMアルゴリズム

– 9.4 一般のEMアルゴリズム

3

前回の範囲

9章混合モデルとEM

4

9 混合モデルとEM

観測変数と潜在変数の同時分布を定義することにより単純な分布から複雑な分布を構成することが可能になる (混合モデル) その際，最尤推定に (一般的に) 利用されるのがEMアルゴリズム

• 混合ガウスの例 – 観測データはいずれかのガウス分布から生成されると仮定

ポイントだよ

5

9.1 K-means クラスタリング

6

9.1 K-means クラスタリング

収束するまで以下の2ステップを繰り返すクラスタリング手法 (1) データ点のクラスタへの再割り当て (Eステップに相当)

(2) クラスタ平均の再計算 (Mステップに相当)

• 以下の損失関数を最小化する割り当て𝑟𝑛𝑘 ∈ 0, 1 と，クラスタ平均𝝁𝑘を求めている

𝐽 = 𝑟𝑛𝑘 𝒙𝑛 − 𝝁𝑘 22

𝐾

𝑘=1

𝑁

𝑛=1

• 非凸であるため，大域的最適解の保証はないが，局所最適解への収束保証はあり (初期値によって解

が変わる)

ポイントだよ

7 #iteration

9.1.1 画像分割と画像圧縮

各画素をデータ点とみなしてクラスタリングし，同一クラスタに対して同じ色をアサインすることで

画像圧縮を実現できる

• 画素をRGBの3次元空間のデータ点と解釈して，K-meansクラスタリングを実行した例 – クラスタの平均値を利用して色を表現 – ベクトル量子化とも呼ばれる枠組み

ポイントだよ

8

9.2混合ガウス分布 (Mixture of Gaussians)

9

※ どうでもいいがなぜこれだけ英訳つき? Gaussian Mixture Model (GMM) という呼び方の方がよく見かける気も…

9.2 混合ガウス分布

ガウス分布の線形重ねあわせで混合ガウス分布を表現する潜在変数を用意し，データを観測した際の負担率を計算する

• 𝑝 𝒙 = 𝑝 𝒛 𝑝 𝑥 𝒛𝒛 = 𝜋𝑘𝒩 𝒙 𝝁𝑘 , 𝚺𝑘𝐾𝑘=1

• ベイズの定理より潜在変数の事後確率は以下の形で計算できる

𝛾 𝑧𝑘𝑛 ≡ 𝑝 𝑧𝑘 = 1 𝒙𝑛 =𝑝 𝑧𝑘 = 1 𝑝 𝒙𝑛 𝑧𝑘 = 1

𝑝 𝑧𝑗 = 1 𝑝 𝒙𝑛 𝑧𝑗 = 1𝐾𝑗=1

=𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘

𝜋𝑗𝒩 𝒙𝑛 𝝁𝑗 , 𝚺𝑗𝐾𝑗=1

– ここで 𝛾(𝑧𝑘𝑛)を混合要素𝑘がデータ𝑛を「説明する」度合いを表す負担率と呼ぶ

ポイントだよ

10

9.2.1 最尤推定

混合ガウス分布を最尤推定する…際の注意点

• 各データ点が独立に生成されたと仮定すると，対数尤度関数は以下のように表せる

ln 𝑝 𝑿 𝝅, 𝝁, 𝚺 = ln 𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

• あるデータ点と等しい平均パラメータを持つガウス分布の尤度関数は以下の形になる

𝒩 𝒙𝑛 𝒙𝑛, 𝜎2𝐼 =

1

2𝜋 1/21

𝜎𝑗

• ここで𝜎𝑗 → 0 で尤度は無限に発散してしまう – ベイズ的アプローチやヒューリスティクスで避けられる

ポイントだよ

11

9.2.2 混合ガウス分布のEMアルゴリズム

以下の2ステップを繰り返す (1) 現在のパラメータにおいて負担率を計算，

(2) 計算した負担率にしたがって新しいパラメータを計算

• Eステップ

– 𝛾 𝑧𝑛𝑘 =𝜋𝑘𝒩 𝑥𝑛 𝝁𝑘,𝚺𝑘 𝜋𝑗𝒩 𝑥𝑛 𝝁𝑗,𝚺𝑗𝐾𝑗=1

• Mステップ

– 𝝁𝑘new =

1

𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛𝑁𝑛=1

– 𝚺𝑘new =

1

𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛 − 𝝁𝑘

new 𝒙𝑛 − 𝝁𝑘new 𝑇𝑁

𝑛=1

– 𝜋𝑘new =

𝑁𝑘

𝑁

– ただし，𝑁𝑘 = 𝛾 𝑧𝑛𝑘𝑁𝑛=1

ポイントだよ

12

負担率に無視すれば，通常のガウス分布の最尤推定と同じ形をしていることに注目

9.3 EMアルゴリズムのもう一つの解釈

13

9.3 EMアルゴリズムのもう一つの解釈

一般のEMアルゴリズムについて考える ※ 完全データ集合における対数尤度の最大化は

容易であるという仮定をおく

• 潜在変数を持つモデルの対数尤度を考える

– ln 𝑝 𝑿 𝜽 = ln 𝑃 𝑿, 𝒁 𝜽𝒛 – 総和が対数の中にあるため，計算が困難

• 指数型分布族を考えると log exp となる

• そこで 𝑿, 𝒁 という完全データ集合に対する対数尤度ln 𝑝 𝑿, 𝒁 𝜽を考え，Zに関する期待値を最大化する

– 𝒬 𝜽, 𝜽𝑜𝑙𝑑 = 𝑝 𝒁 𝑿, 𝜽𝑜𝑙𝑑 ln 𝑝 𝑿, 𝒁 𝜽𝒁

– 𝜽𝑛𝑒𝑤 = argmax𝜽 𝒬 𝜽, 𝜽𝑜𝑙𝑑

ポイントだよ

14

9.3.1 混合ガウス分布再訪

完全データに対する対数尤度と不完全データに対する対数尤度を見比べる

• 完全データ対数尤度

ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 = 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

• 不完全データ対数尤度 (完全データ対数尤度関数の期待値)

𝔼𝒁[ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 ] = 𝛾 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘

𝐾

𝑘=1

𝑁

𝑛=1

ポイントだよ

15

…

…

𝜋

𝝁 𝚺 𝑧1 𝑧2 𝑧𝑛

𝒙1 𝒙2 𝒙𝑛

プレート表現を展開

マルコフブランケットが観測されているので各𝑧𝑛は条件付き独立

演習9.5 事後分布のもとで{𝑧𝑛}が独立を示す

つづくさぁ今日も一日がんばるぞ

16

prml復々習レーン#15 前回までのあらすじ

Documents