2. bayes 統計に基づく推論

2. Bayes 統計に基づく推論

Bayes による確率分布推定の考え方多項分布、ディリクレ分布

事前分布としてのディリクレ分布の意味

正規分布と事後分布多次元正規分布と条件付き分布

指数型分布族自然共役事前分布の最尤推定

クラシックな機械学習の入門

by 中川裕志（東京大学）

Bayes による確率分布推定の考え方

事前分布とはパラメター　（ i.e. μ ）自体の分布

μ

観測データor 教師データ :X

p(μ|X)=p(X|μ) p(μ)観測データを事前分布に Bayesの定理で組み合わせる

μ

Ｘを観測した後に得たパラメター μ の

事後分布

パラメター μ は点ではなく、分布として与えられる点に注

意！

複数の離散データが独立に出現する場合の確率分布の定番

個々の離散データ間に相関がない場合に使うもので基本的分布。以下は K 種類の離散データ（例えば、語彙数が K で

N 単語からなるテキストでの単語の出現分布）がある場合

多項分布 :Mult

1

cov1varE

..,|,..,,

1

12121

K

ik

kjkjkkkkk

K

k

mk

KK

NmmNmNm

mmm

NNmmmMult k

ただし、

μ

多項分布では離散事象（たとえば単語） iの出現回数 mi が確率変数だった。

しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分布も考えられる。すなわち、多項分布の事前分布として使えるような分布。

ディリクレ分布 : Dir

ディリクレ分布： Dir• K 変数の場合。 α はパラメターだが、以

下の式の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。

K

kk

K

kk

K

K

k

K

kk

KK

kDir

αμ

1

1

1

1

1

1

11

E

|

101

４

２

２４１０

Γ 関数

1

ディリクレ分布の例

2

1

01.0

21

21

21

0μ １　　　　　　　　　　　　　　　　　　　　　　　　　　　　 μ １ 1１ μ ２　　　　　　　　　　　　　　　　　　　　　　　　　　　　 μ ２０

事前分布としてのディリクレ分布の意味

ディリクレ分布 Dir を事前分布とみなして、観測データが多項分布 Mult で与えられたときの事後分布としてのディリクレ分布 Dir を考える

こうして見ると、 αi は事前分布を得るために想定した i の（仮想的）観測回数と見做せる。

K

i

mi

KK

K

i

mi

K

ii

K

iiKi

ii

ii

mm

MXDirXDir

DirXMultXDir

MmmmXmi

1

1

11

0

1

1

011

1

)|(),|(

)|(|),|(

,),,...,(

　　：の出現回数　観測データ事前観測事後

1 変数正規分布：連続する数値データの確率分布の定番

では、ここで Mult から Dir の事後分布を求めたと同じように、 Bayes の定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。次のページの例は簡単のため、分散は既知とし、事

後分布の期待値だけを求めることにする。

分散の事後分布については Wishart 分布という分布が登場するが、難しいのでここでは省略

正規分布（ 1 変数）と事後分布

22

2

2

2 var,E,2

exp2

1,|

xx

xxN

K

i iKK

KK

K

i i

K

ii

K

iiK

K

ii

xKK

K

NXpK

XpN

xK

xpXpXp

Bayes

xxp

XpK

Np

1220

20

0220

2

220

2

2

21

20

0220

2

20

20

1

2

2

1

2

22/21

200

,11

,||:

|)10(

2

1

exp

22

1exp)|(|

2

1exp

2

1|

)|(:

),|(:

後の事後分布個の観測データを得た

だからこの結果よりは正規分布

　　

の定理から

は既知ただし

れた場合の尤度個の観測データが得ら

事前分布

事前分布からの寄与観測データからの寄与

事前観測事後

観測データ数 K と事後分布の例

-1.5 -1 -0.5 0 0.5 1 1.5

K=10 の事後分布

K= ２の事後分布

K=1 の事後分布

事前分布

5.01

01.01.01

022

0

xExK

K

ii

観測データにより事前分布のパラメータ μ が修正されていく

多次元正規分布：複数種類（つまり複数の確率変数）を持つ数値データの確率分布

多次元正規分布

)()(2

1exp

)2(

||

)()(2

1exp

||

1

)2(

1)|(

:cov

E

2

21

1

21

2

1

21

112

11

μxμx

μxΣμxΣμ,x

Σx

μxx

TD

TD

DD

D

DD

N

x

x

D

　　

精度行列共分散行列：

次元の正規分布

例題多次元正規分布の共分散行列を推定す

る。

1x

x1

x

11

1

2

21

1

]))([(

0]))([(

[]x

))(())((

))(()()(2

||log1

0

)()(||log)|(log

)()(2

1exp

)2()|(

T

T

TTT

TT

T

T

TD

E

E

E

trace

N

N

D

μxμx

μxμx

μxμxμxμx

μxμxμxμx

μxμxμ,x

μxμxμ,x

より

をすると、すなわちに対して期待値をとるここで

項の微分第

項の微分第

とおくで微分してするためにこの対数尤度を最大化

次元の正規分布

条件付正規分布変数ベクトルｚをｘとｙに分割すると

Ｘ＝ a

y

p(y)

P(y|x=a)

変数ベクトルｚをｘとｙに分割する。

ここで多次元正規分布の指数の肩の項は次式

　　　　　　　　　　　　　　　　　　　　　　　　　　　　　 -(G-10)

yxT

xyyyyx

xyxx

Tyxxy

T

yyyx

xyxx

y

x

where

N

とすると精度行列：

多次元正規分布

1

),|(

μ

μμ

y

xz

μz

)()(2

1)()(

2

1

)()(2

1)()(

2

1

)()(2

1 1

yyyT

yxyxT

y

yxyT

xxxxT

x

T

μyμyμxμy

μyμxμxμx

μzμz

一般に正規分布の指数の肩は次式で書け、右辺の第１項、第２項の係数の部分に着目すれば期待値、共分散が求まる。

- （ G-20)

),( μ|zN

constTTT μzzzμzμz 111

2

1)()(

2

1

条件付正規分布 p( ｘ | ｙ ) の期待値 μ ｘ | ｙと共分散 Σ ｘ | ｙ

をこの方法を（ G-10) 式に適用して求めよう。ー　問題

一方、（ G-10) において xの１次の項が Σ -1 μ 　　これは次式

)(

)(

)(

1

1|||

yxyxxx

xxyxyxyxxxyxyx

yxyxxxT

μyμ

μyμμ

μyμx

より

これにより

次に、これらの結果を共分散行列を用いて書き直す

yxyyxyxxyx

yyyxyxyx

yyxyyxyyxyxxxyyxyyxyxxxx

yyyx

xyxx

yyyx

xyxxMatrix

1|

1|

11111

1

1

)(

)()(

)(

μyμμ

を使えばにおいて

y を定数とみなして x の分布を求めれば、条件付分布になるから（ G-10) の第１項の x の２次の項の係数が共分散。すなわち 1

|2

1 xxyxxxT によりxx

exponential family: 指数型分布族

2)))d(exp()(log)(

1d))(exp()(exp

),(,,

1)η)(exp()()|(

EBxxuηxhηa

uηhηa

ηux

EBauηhηp

T

T

T

xxx

x

xxx

　また、

は一般にはベクトルただし

正規化項

iid の観測データ X={x1, 　… , 　 x Ｎ　 } に対しては以下の式

N

nn

TN

nn ηNaηhηp

11

)()(exp)()|( xuxX

事前分布と学習後の事後分布が同一タイプの分布（事前共役）

いくつかの確率密度関数の Exponential family 表現：ガウス分布

)(

log2

,

log2

2

1,exp

2

1

2

2exp

2

1

2exp

2

1),|(

2

21

21

2

22

22

2

22

2

2

2

2

2

ax

xx

xx

xxp

T

いくつかの確率密度関数の Exponential family 表現：多項分布

)( )(

1log1

logexp

1loglogexp

,1)|(

family lexponentia)(

1

1

1

11

1

21

1

1

1

1

1

121

11121

axxh

Nxxxx

N

xNxxxx

N

Nxxxx

Nxp

lMultinomia

T

K

kkk

K

kK

kk

k

K

K

kk

K

kk

K

kkk

K

K

kk

K

kk

K

k

xk

K

k

を使うと

表現の多項分布

自然共役事前分布の最尤推定

4])([)(

3])([)(

])([1

0)())()(exp()())()(exp()()(

))()(exp()()|(1

parameter natural

))()(exp()()|(

2

2

EBVη

ηa

EBEη

ηa

E

duηauηhdηauηhη

ηa

j

dηauηhdηp

η

ηauηhηp

j

j

jj

j

jTT

j

j

T

T

xu

xu

xu

xxxxxxx

xxxxx

xxx

　　　　　　　　　　　　　　　　　　　　　　　

とで微分してゼロとおく成分の第上の式を

の最尤推定をする。における

(EB3)(EB4) の応用例ガウス分布に応用

1

)(

2

)(

log2

1

2 )( ,

log2

2

1,exp

2

1),|(

2

22

1

12

1

2

12

1

2

21

111

22

21

21

2

22

222

ηη

ηaxV

ηη

ηaxE

ax

xx

xp

ηη

T 　　　　　　

(EB3)(EB4) の応用例　多項分布に応用

kkK

kk

K

kk

kK

kk

k

K

k

K

k

K

k

K

k

k

K

k

k

k

kK

kk

kK

kK

kk

k

K

kk

k

K

k

k

k

K

kK

k

K

kkkK

kk

K

kk

K

kkK

kK

kk

k

K

kkk

K

kK

kk

k

K

K

k

xk

K

NN

e

eee

N

e

eeee

Ne

eN

a

NNNe

eN

a

eNe

NNaee

Nxxx

N

xx

Nxp

k

kkk

k

kkkkk

k

kk

k

k

k

kk

k

1

1

1

1

1)(

1

1)(

log1

log1log)(1

1

11

1log1

logexp)|(

21

1

1

1

1

12

1

12

1

112

2

111

1

1

1

1

1

1

1

11

1

1

1

1

11

1

1

1

1

11

1

111

)( 1log )(1

1

axxhK

kkkk 　　　　　　　

2 項分布の場合はおなじみの公式

1e1

e

e1

e

)(

e1

e)(

e1loge1

1log1log)(

e1

ee1e1e

1e

)( 1

log )(

1log1

logexp2

1)|(

22

2

NNNηη

ηaxVNN

axE

NNNa

axh

NxN

x

Nxp

ηη

xNx

　　　　　　　　

Exponential family とベイズ統計：共役分布と事後分布

仮想的な観測データ

実際の観測データ

仮想的な観測回数 :1

実際の観測回数

赤枠の中は事後パラメ

ター

aηaKληxuλh

ηaxuηaηaληλh

xpηpxxηp

xxiidKxp

EBηa

ηλλha

aηaληλhηp

λλλ

TK

ii

K

ii

TT

K

iiN

K

T

T

T

21

1

121

11

1

21

21

21

)(exp)(

)(expexp)(

|)|(),,,|(

)|(

)22(d,

exp)(log

exp)()|(

,:ハイパーパラメター

の事後分布はが得られたときのの観測データ個のに沿うさて、

布を定義する　によって共役事前分　　

は既知とする。

　　　　　　　　　　

は既知ただし

れた場合の尤度個の観測データが得ら

＝　　事前分布

2200

22

22

222

1

222/21

20

20

20

2

20

021

200

20

220

0121

200

,,

)(

1log

2

1

2

1,exp

2

1),|(

2

1exp

2

1|

)|(:

22expexp),|(|

2

1,,,),|(|:

a

xx

xp

xxp

XpK

λaaλλNp

Np

T

K

iiK

K

ii

T

1 変数正規分布の期待値に適用した例　その１

220

2

122

0

0

22

2

20

2

122

0

0

2

2

2

1

2

11

22

1

T21

11

1

2

1exp

1log

22

1exp)(

12,exp)(

1,

)(expexp)(

|)|(),,,|(

Kx

Kxh

ηKaaλx

xλh

ηaxuηaλλh

xppxxp

K

ii

K

ii

K

i

iK

ii

T

K

ii

K

iiN

　　　　　　　　　　　　　

1 変数正規分布の期待値に適用した例　その２

前に求めた　 N10 　に一致

Exponential family 別表現とベイズ統計の続き：予測分布

得られる。　　　で置き換えればを

でを

においての予測分布は　の新規（あるいは未知）

が得られたときのの観測データ個のとハイパーパラメター

で分布は次式のように与えられたときの事後ハイパーパラメターが

ーしたハイパーパラメタ個の観測データも考慮

Kλλλ

xuλλλ

EBx

xxiidK

EBaηaληxuλhxh

aηaληλhaxuxh

λpxpxp

EBKλλEBxuλλ

K

K

ii

K

T

TT

K

ii

222

1111

1

21

21

221

11

ˆ

)(ˆ

)23(

)23(exp d 1)( exp)()(

dexp)()(exp)(

d)|()|()|(

emarginaliz

)22(ˆ)21()(ˆ

ベイズ統計による事前、事後、予測分布の例：多変数ガウス分布難しいので省略する予定

精度行列（分散の逆行列） Λ が既知の d 次元ガウス分布を exponential family で表現

Td

TTT

TTTT

T

Td

xxxu

axh

xxxddxp

xxxxdd

xxdd

xxxp

),..,()(

)( )(

2

1exp||log2log

2

1exp)|(

!:parameter natural

||log2log2

1exp

||log2log2

1exp

2

1exp||2

2

1)|(

1

1

11T1T

112

　　　　　

　　　　

以下も注意

たがまだ決めていなかっ

　とおくと

事前分布のパラメター λ から予測分布 p(x ｜ λ) を求める

||||

2

1||loglog

2

1

22

1||log

2

1exp

2

1exp

222

1exp

2

1expexp)|(

12

12

1

2

1112

2

111

12

12

2

112

2

1

11

2

12121

d

T

TTT

T

TT

TTT

d

da

a

aaap

に対しては、次元の行列

とおくと

として事前分布もガウス分布

)36(

2)()35(

2

)4)(3(

)22(d,

exp)(log

exp)()|(

22

11

222

1

1

21

21

EBda

aEEBa

E

EBEB

EBηa

ηλλha

aηaληλhηp

TT

T

T

ように求まる。の十分統計量が以下のが与えられたときのより

　および

2. bayes 統計に基づく推論

Documents