prml復々習レーン#15 前回までのあらすじ
DESCRIPTION
PRML復々習レーン#15 前回までのあらすじTRANSCRIPT
PRML復々習レーン#15 前回までのあらすじ
2013-11-09
Yoshihiko Suhara
@sleepy_yoshi
v.1.0
前回のおさらい
• 復々習レーンの復習を10分程度でやります – 得られた結論にポイントを絞る – 「よーするに」な内容
• 好きなところをたくさん喋る • よくわからないところは誤魔化す • まちがってたら指摘してください
• 目的 – 前回の復習 – 不参加の方に流れを伝えるため – 自分自身の勉強のため
ポイントだよ
2
ポイント小僧の向きに意味はありません
ポイントだよ
前回の範囲
• 9章 混合モデルとEM – 9.1 K-means クラスタリング
• 9.1.1 画像分割と画像圧縮
– 9.2 混合ガウス分布 (Mixture of Gaussians) • 9.2.1 最尤推定
• 9.2.2 混合ガウス分布のEMアルゴリズム
– 9.3 EMアルゴリズムのもう一つの解釈 • 9.3.1 混合ガウス分布再訪
• 9.3.2 K-means との関連
• 9.3.3 混合ベルヌーイ分布
• 9.3.4 ベイズ線形回帰に関するEMアルゴリズム
– 9.4 一般のEMアルゴリズム
3
前回の範囲
9章 混合モデルとEM
4
9 混合モデルとEM
観測変数と潜在変数の同時分布を定義することにより 単純な分布から複雑な分布を構成することが可能になる (混合モデル) その際,最尤推定に (一般的に) 利用されるのがEMアルゴリズム
• 混合ガウスの例 – 観測データはいずれかのガウス分布から生成されると仮定
ポイントだよ
5
9.1 K-means クラスタリング
6
9.1 K-means クラスタリング
収束するまで以下の2ステップを繰り返すクラスタリング手法 (1) データ点のクラスタへの再割り当て (Eステップに相当)
(2) クラスタ平均の再計算 (Mステップに相当)
• 以下の損失関数を最小化する割り当て𝑟𝑛𝑘 ∈ 0, 1 と,クラスタ平均𝝁𝑘を求めている
𝐽 = 𝑟𝑛𝑘 𝒙𝑛 − 𝝁𝑘 22
𝐾
𝑘=1
𝑁
𝑛=1
• 非凸であるため,大域的最適解の保証はないが,局所最適解への収束保証はあり (初期値によって解
が変わる)
ポイントだよ
7 #iteration
9.1.1 画像分割と画像圧縮
各画素をデータ点とみなしてクラスタリングし, 同一クラスタに対して同じ色をアサインすることで
画像圧縮を実現できる
• 画素をRGBの3次元空間のデータ点と解釈して,K-meansクラスタリングを実行した例 – クラスタの平均値を利用して色を表現 – ベクトル量子化とも呼ばれる枠組み
ポイントだよ
8
9.2混合ガウス分布 (Mixture of Gaussians)
9
※ どうでもいいがなぜこれだけ英訳つき? Gaussian Mixture Model (GMM) という呼び方の方が よく見かける気も…
9.2 混合ガウス分布
ガウス分布の線形重ねあわせで混合ガウス分布を表現する 潜在変数を用意し,データを観測した際の負担率を計算する
• 𝑝 𝒙 = 𝑝 𝒛 𝑝 𝑥 𝒛𝒛 = 𝜋𝑘𝒩 𝒙 𝝁𝑘 , 𝚺𝑘𝐾𝑘=1
• ベイズの定理より潜在変数の事後確率は以下の形で計算できる
𝛾 𝑧𝑘𝑛 ≡ 𝑝 𝑧𝑘 = 1 𝒙𝑛 =𝑝 𝑧𝑘 = 1 𝑝 𝒙𝑛 𝑧𝑘 = 1
𝑝 𝑧𝑗 = 1 𝑝 𝒙𝑛 𝑧𝑗 = 1𝐾𝑗=1
=𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘
𝜋𝑗𝒩 𝒙𝑛 𝝁𝑗 , 𝚺𝑗𝐾𝑗=1
– ここで 𝛾(𝑧𝑘𝑛)を混合要素𝑘がデータ𝑛を「説明する」度合いを表す負担率と呼ぶ
ポイントだよ
10
9.2.1 最尤推定
混合ガウス分布を最尤推定する…際の注意点
• 各データ点が独立に生成されたと仮定すると,対数尤度関数は以下のように表せる
ln 𝑝 𝑿 𝝅, 𝝁, 𝚺 = ln 𝜋𝑘𝒩 𝒙𝑛 𝝁𝑘 , 𝚺𝑘
𝐾
𝑘=1
𝑁
𝑛=1
• あるデータ点と等しい平均パラメータを持つガウス分布の尤度関数は以下の形になる
𝒩 𝒙𝑛 𝒙𝑛, 𝜎2𝐼 =
1
2𝜋 1/21
𝜎𝑗
• ここで𝜎𝑗 → 0 で尤度は無限に発散してしまう – ベイズ的アプローチやヒューリスティクスで避けられる
ポイントだよ
11
9.2.2 混合ガウス分布のEMアルゴリズム
以下の2ステップを繰り返す (1) 現在のパラメータにおいて負担率を計算,
(2) 計算した負担率にしたがって新しいパラメータを計算
• Eステップ
– 𝛾 𝑧𝑛𝑘 =𝜋𝑘𝒩 𝑥𝑛 𝝁𝑘,𝚺𝑘 𝜋𝑗𝒩 𝑥𝑛 𝝁𝑗,𝚺𝑗𝐾𝑗=1
• Mステップ
– 𝝁𝑘new =
1
𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛𝑁𝑛=1
– 𝚺𝑘new =
1
𝑁𝑘 𝛾 𝑧𝑛𝑘 𝒙𝑛 − 𝝁𝑘
new 𝒙𝑛 − 𝝁𝑘new 𝑇𝑁
𝑛=1
– 𝜋𝑘new =
𝑁𝑘
𝑁
– ただし,𝑁𝑘 = 𝛾 𝑧𝑛𝑘𝑁𝑛=1
ポイントだよ
12
負担率に無視すれば,通常のガウス分布の最尤推定と 同じ形をしていることに注目
9.3 EMアルゴリズムのもう一つの解釈
13
9.3 EMアルゴリズムのもう一つの解釈
一般のEMアルゴリズムについて考える ※ 完全データ集合における対数尤度の最大化は
容易であるという仮定をおく
• 潜在変数を持つモデルの対数尤度を考える
– ln 𝑝 𝑿 𝜽 = ln 𝑃 𝑿, 𝒁 𝜽𝒛 – 総和が対数の中にあるため,計算が困難
• 指数型分布族を考えると log exp となる
• そこで 𝑿, 𝒁 という完全データ集合に対する対数尤度ln 𝑝 𝑿, 𝒁 𝜽を考え,Zに関する期待値を最大化する
– 𝒬 𝜽, 𝜽𝑜𝑙𝑑 = 𝑝 𝒁 𝑿, 𝜽𝑜𝑙𝑑 ln 𝑝 𝑿, 𝒁 𝜽𝒁
– 𝜽𝑛𝑒𝑤 = argmax𝜽 𝒬 𝜽, 𝜽𝑜𝑙𝑑
ポイントだよ
14
9.3.1 混合ガウス分布再訪
完全データに対する対数尤度と 不完全データに対する対数尤度を見比べる
• 完全データ対数尤度
ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 = 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘
𝐾
𝑘=1
𝑁
𝑛=1
• 不完全データ対数尤度 (完全データ対数尤度関数の期待値)
𝔼𝒁[ln 𝑝 𝑿, 𝒁 𝝁, 𝚺, 𝝅 ] = 𝛾 𝑧𝑛𝑘 ln 𝜋𝑘 + ln𝒩 𝒙𝑛 𝝁𝑘, 𝚺𝑘
𝐾
𝑘=1
𝑁
𝑛=1
ポイントだよ
15
…
…
𝜋
𝝁 𝚺 𝑧1 𝑧2 𝑧𝑛
𝒙1 𝒙2 𝒙𝑛
プレート表現 を展開
マルコフブランケットが観測されているので各𝑧𝑛は条件付き独立
演習9.5 事後分布のもとで{𝑧𝑛}が独立を示す
つづく さぁ今日も一日 がんばるぞ
16