クラシックな機械学習の入門　２．ベイズ統計に基づく推論

2. Bayes統計に基づく推論

Bayesによる確率分布推定の考え方

多項分布、ディリクレ分布

事前分布としてのディリクレ分布の意味

正規分布と事後分布

多次元正規分布と条件付き分布

指数型分布族

自然共役事前分布の最尤推定

クラシックな機械学習の入門

by 中川裕志（東京大学）

Bayesによる確率分布推定の考え方

事前分布とはパラメター

（i.e. μ）自体の分布

μ

観測データ

or 教師データ:X p(μ|X)=p(X|μ) p(μ)

観測データを事前分布にBayes

の定理で組み合わせる

μ

Ｘを観測した後に得たパラメターμの

事後分布

パラメター μは点では

なく、分布として与えられる点に注意！

複数の離散データが独立に出現する場合の確率分布の定番

個々の離散データ間に相関がない場合に使うもので基本的分布。

以下はK種類の離散データ（例えば、語彙数がKでN単語からなるテキストでの単語の出現分布）がある場合

多項分布:Mult

1

cov1varE

..,|,..,,

1

121

21

K

i

k

kjkjkkkkk

K

k

m

k

K

K

NmmNmNm

mmm

NNmmmMult k

ただし、

μ

多項分布では離散事象（たとえば単語）iの出現回数 mi が確率変数だった。

しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分

布も考えられる。すなわち、多項分布の事前分布として使えるような分布。

ディリクレ分布: Dir

ディリクレ分布：Dir

• K変数の場合。αはパラメターだが、以下の式

の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。

K

kk

K

k

k

K

K

k

K

k

k

KK

kDir

αμ

1

1

1

1

1

1

11

E

|

101

４

２

２４１０

Γ 関数

1

ディリクレ分布の例

2

1

01.0

21

21

21

0μ１ μ１1

１μ２ μ２０

事前分布としてのディリクレ分布の意味

ディリクレ分布Dirを事前分布とみなして、観測データが多項分布Multで与えられたときの事後分布としてのディリクレ分布Dirを考える

こうして見ると、αiは事前分布を得るために想定したiの（仮想的）観測回数と見做せる。

K

i

m

i

KK

K

i

m

i

K

i

i

K

i

iKi

ii

ii

mm

MXDirXDir

DirXMultXDir

MmmmXmi

1

1

11

0

1

1

0

11

1

)|(),|(

)|(|),|(

,),,...,(

　　：の出現回数観測データ　

事前観測事後

1変数正規分布：連続する数値データの確率分布の定番

では、ここでMultからDirの事後分布を求めたと同じように、Bayesの定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。

次のページの例は簡単のため、分散は既知とし、事後分布の期待値だけを求めることにする。

分散の事後分布についてはWishart分布という分布が登場するが、難しいのでここでは省略

正規分布（1変数）と事後分布

2

2

2

2

2 var,E,2

exp2

1,|

xx

xxN

K

i iK

K

KK

K

i i

K

i

i

K

i

iK

K

i

i

xKK

K

NXpK

XpN

x

K

xpXpXp

Bayes

xxp

XpK

Np

122

0

2

0022

0

2

22

0

2

2

2

12

0

022

0

2

2

0

2

0

1

2

2

1

2

22/21

2

00

,11

,||:

|)10(

2

1

exp

22

1exp)|(|

2

1exp

2

1|

)|(:

),|(:

後の事後分布個の観測データを得た

だからこの結果より

は正規分布　　

の定理から

は既知ただし

れた場合の尤度個の観測データが得ら

事前分布

事前分布からの寄与観測データからの寄与

事前観測事後

観測データ数Kと事後分布の例

-1.5 -1 -0.5 0 0.5 1 1.5

K=10の事後分布

K=２の事後分布

K=1の事後分布

事前分布

5.01

01.01.01

0

22

0

xExK

K

i

i

観測データにより事前分布のパラメータμが修正されていく

多次元正規分布：複数種類（つまり複数の確率変数）を持つ数値データの確率分布

多次元正規分布

)()(2

1exp

)2(

||

)()(2

1exp

||

1

)2(

1)|(

:cov

E

2

21

1

21

2

1

2

1

112

11

μxμx

μxΣμxΣμ,x

Σx

μxx

T

D

T

D

DD

D

DD

N

x

x

D

　　

精度行列共分散行列：

次元の正規分布

例題多次元正規分布の共分散行列を推定する。

1

x

x

1

x

11

1

2

21

1

]))([(

0]))([(

[]x

))(())((

))(()()(2

||log1

0

)()(||log)|(log

)()(2

1exp

)2()|(

T

T

TTT

TT

T

T

T

D

E

E

E

trace

N

N

D

μxμx

μxμx

μxμxμxμx

μxμxμxμx

μxμxμ,x

μxμxμ,x

より

をすると、すなわちに対して期待値をとるここで

項の微分第

項の微分第

とおくで微分してするためにこの対数尤度を最大化

次元の正規分布

条件付正規分布

変数ベクトルｚをｘとｙに分割すると

Ｘ＝a

y

p(y)

P(y|x=a)

変数ベクトルｚをｘとｙに分割する。

ここで多次元正規分布の指数の肩の項は次式

-(G-10)

yx

T

xy

yyyx

xyxx

T

yxxy

T

yyyx

xyxx

y

x

where

N

とすると精度行列：

多次元正規分布

1

),|(

μ

μμ

y

xz

μz

)()(2

1)()(

2

1

)()(2

1)()(

2

1

)()(2

1 1

yyy

T

yxyx

T

y

yxy

T

xxxx

T

x

T

μyμyμxμy

μyμxμxμx

μzμz

一般に正規分布の指数の肩は次式で書け、右辺の第１項、第２項の係数の部分に着目すれば期待値、共分散が求まる。

-（G-20)

),( μ|zN

constTTT μzzzμzμz

111

2

1)()(

2

1

条件付正規分布p(ｘ|ｙ)の期待値μｘ|ｙと共分散Σｘ|ｙをこの方法を（G-10)式に適用して求めよう。ー問題

一方、（G-10)においてxの１次の項がΣ -1 μ これは次式

)(

)(

)(

1

1

|||

yxyxxx

xxyxyxyxxxyxyx

yxyxxx

T

μyμ

μyμμ

μyμx

より

これにより

次に、これらの結果を共分散行列を用いて書き直す

yxyyxyxxyx

yyyxyxyx

yyxyyxyyxyxxxyyxyyxyxxxx

yyyx

xyxx

yyyx

xyxxMatrix

1

|

1

|

11111

1

1

)(

)()(

)(

μyμμ

を使えばにおいて

yを定数とみなしてxの分布を求めれば、条件付分布になるから（G-10)の第１項のxの２次の項の係数が共分散。すなわち

1

|2

1 xxyxxx

T によりxx

exponential family:指数型分布族

2)))d(exp()(log)(

1d))(exp()(exp

),(,,

1)η)(exp()()|(

EBxxuηxhηa

uηhηa

ηux

EBauηhηp

T

T

T

xxx

x

xxx

また、　

は一般にはベクトルただし

正規化項

iidの観測データX={x1, …, xＮ }に対しては以下の式

N

n

n

TN

n

n ηNaηhηp11

)()(exp)()|( xuxX

事前分布と学習後の事後分布が同一タイプの分布（事前共役）

いくつかの確率密度関数のExponential family表現：ガウス分布

)(

1

log2

,

1log

22

1,exp

2

1

2

2exp

2

1

2exp

2

1),|(

2

2

121

2

22

22

2

22

2

2

2

2

2

ax

xx

xx

xxp

T

いくつかの確率密度関数のExponential family表現：多項分布

)( )(

1log

1

logexp

1loglogexp

,1)|(

family lexponentia)(

1

1

1

11

1

21

1

1

1

1

1

121

11121

axxh

Nxxxx

N

xNxxxx

N

Nxxxx

Nxp

lMultinomia

T

K

k

kk

K

kK

k

k

k

K

K

k

k

K

k

k

K

k

kk

K

K

k

k

K

k

k

K

k

x

k

K

k

を使うと

表現の多項分布

自然共役事前分布の最尤推定

4])([)(

3])([)(

])([1

0)())()(exp()())()(exp()()(

))()(exp()()|(1

parameter natural

))()(exp()()|(

2

2

EBVη

ηa

EBEη

ηa

E

duηauηhdηauηhη

ηa

j

dηauηhdηp

η

ηauηhηp

j

j

j

j

j

j

TT

j

j

T

T

xu

xu

xu

xxxxxxx

xxxxx

xxx

　　　　　　　　　　　　　　　　　　　　　　　

とで微分してゼロとおく成分の第上の式を

の最尤推定をする。における

(EB3)(EB4)の応用例

ガウス分布に応用

1

)(

2

)(

log2

1

2 )( ,

1log

22

1,exp

2

1),|(

2

22

1

1

2

1

2

1

2

1

2

2

1

11

1

2

2

2

121

2

22

22

2

ηη

ηaxV

ηη

ηaxE

ax

xx

xp

ηη

T 　　　　　　

(EB3)(EB4)の応用例多項分布に応用

kkK

k

k

K

k

k

kK

k

k

k

K

k

K

k

K

k

K

k

k

K

k

k

k

kK

k

k

k

K

k

K

k

k

k

K

k

k

k

K

k

k

k

K

k

K

k

K

k

kkK

k

k

K

k

k

K

k

kK

k

K

k

k

k

K

k

kk

K

k

K

k

k

k

K

K

k

x

k

K

NN

e

eee

N

e

eeee

N

e

eN

a

NNN

e

eN

a

eN

e

NNaee

Nxxx

N

xx

Nxp

k

kkk

k

kkkkk

k

k

k

k

k

k

kk

k

1

1

1

1

1)(

1

1)(

log1

log1log)(

1

1

11

1log

1

logexp)|(

21

1

1

1

1

1

2

1

1

2

1

112

2

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

111

)( 1log )(1

1

axxhK

k

kkk 　　　　　　　

2項分布の場合はおなじみの公式

1e1

e

e1

e

)(

e1

e)(

e1loge1

1log1log)(

e1

ee1e1e

1e

)( 1

log )(

1log1

logexp2

1)|(

22

2

NNNηη

ηaxVNN

axE

NNNa

axh

NxN

x

Nxp

ηη

xNx

　　　　　　　　

Exponential familyとベイズ統計：共役分布と事後分布

仮想的な観測データ

実際の観測データ

仮想的な観測回数:1

実際の観測回数

赤枠の中は事後パラメター

aηaKληxuλh

ηaxuηaηaληλh

xpηpxxηp

xxiidKxp

EBηa

ηλλha

aηaληλhηp

λλλ

TK

i

i

K

i

i

TT

K

i

iN

K

T

T

T

2

1

1

1

21

1

1

1

21

21

21

)(exp)(

)(expexp)(

|)|(),,,|(

)|(

)22(d,

exp)(log

exp)()|(

,:ハイパーパラメター

の事後分布は

が得られたときのの観測データ個のに沿うさて、

布を定義する　によって共役事前分　　

は既知とする。

　　　　　　　　　　

は既知ただし

れた場合の尤度個の観測データが得ら

＝　　事前分布

22

00

22

22

22

2

1

2

22/21

2

0

2

0

2

0

2

2

0

021

2

00

2

0

22

0

0121

2

00

,,

)(

1log

2

1

2

1,exp

2

1),|(

2

1exp

2

1|

)|(:

22expexp),|(|

2

1,,,),|(|:

a

xx

xp

xxp

XpK

λaaλλNp

Np

T

K

i

iK

N

i

i

T

1変数正規分布の期待値に適用した例その１

22

0

2

122

0

0

22

2

2

0

2

122

0

0

2

2

2

1

2

1

1

22

1

T

21

1

1

1

2

1exp

1log

22

1exp)(

12,exp)(

1,

)(expexp)(

|)|(),,,|(

Kx

Nxh

ηNaaλx

xλh

ηaxuηaλλh

xppxxp

K

i

i

K

i

i

K

i

iK

i

i

T

K

i

i

K

i

iN

　　　　　　　　　　　　　

1変数正規分布の期待値に適用した例その２

前に求めた N10 に一致

Exponential family別表現とベイズ統計の続き：予測分布

得られる。で　　　置き換えればを

でを

においての予測分布はの　新規（あるいは未知）

が得られたときのの観測データ個の

とハイパーパラメター

で分布は次式のように与えられたときの事後ハイパーパラメターが

ーしたハイパーパラメタ個の観測データも考慮

Kλλλ

xuλλλ

EBx

xxiidK

EBaηaληxuλhxh

aηaληλhaxuxh

λpxpxp

EBKλλEBxuλλ

K

K

i

i

K

T

TT

K

i

i

222

1

111

1

21

21

22

1

11

ˆ

)(ˆ

)23(

)23(exp d 1)( exp)()(

dexp)()(exp)(

d)|()|()|(

emarginaliz

)22(ˆ)21()(ˆ

ベイズ統計による事前、事後、予測分布の例：多変数ガウス分布

難しいので省略する予定

精度行列（分散の逆行列）Λが既知のd次元ガウス分布をexponential family で表現

T

d

TTT

TTTT

T

Td

xxxu

axh

xxxddxp

xxxxdd

xxdd

xxxp

),..,()(

)( )(

2

1exp||log2log

2

1exp)|(

!:parameter natural

||log2log2

1exp

||log2log2

1exp

2

1exp||2

2

1)|(

1

1

11T1T

112

　　　　　

　　　　

以下も注意

たがまだ決めていなかっ

　とおくと

事前分布のパラメターλから予測分布p(x｜ λ)を求める

||||

2

1||loglog

2

1

22

1||log

2

1exp

2

1exp

222

1exp

2

1expexp)|(

1

2

1

2

1

2

111

2

2

111

1

2

1

2

2

11

2

2

1

1

1

2

1

2121

d

T

TTT

T

TT

TTT

d

da

a

aaap

に対しては、次元の行列

とおくと

として事前分布もガウス分布

)36(2

)()35(2

)4)(3(

)22(d,

exp)(log

exp)()|(

2

2

11

222

1

1

21

21

EBda

aEEBa

E

EBEB

EBηa

ηλλha

aηaληλhηp

TT

T

T

ように求まる。の十分統計量が以下のが与えられたときのより

　および

クラシックな機械学習の入門 ２．ベイズ統計に基づく推論

Engineering

クラシックな機械学習の入門　２．ベイズ統計に基づく推論