クラシックな機械学習の入門 2.ベイズ統計に基づく推論

30
2. Bayes統計に基づく推論 Bayesによる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の意味 正規分布と事後分布 多次元正規分布と条件付き分布 指数型分布族 自然共役事前分布の最尤推定 クラシックな機械学習の入門 by 中川裕志(東京大学)

Upload: hiroshi-nakagawa

Post on 09-Jun-2015

1.659 views

Category:

Engineering


0 download

DESCRIPTION

機械学習の基礎理論のひとつであるベイズ統計と、ベイズ統計を用いた確率分布のパラメタ-推定の話です。データから確率分布を推定するという機械学習のメイントピックの基礎知識になります。

TRANSCRIPT

Page 1: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

2. Bayes統計に基づく推論

Bayesによる確率分布推定の考え方

多項分布、ディリクレ分布

事前分布としてのディリクレ分布の意味

正規分布と事後分布

多次元正規分布と条件付き分布

指数型分布族

自然共役事前分布の最尤推定

クラシックな機械学習の入門

by 中川裕志(東京大学)

Page 2: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

Bayesによる確率分布推定の考え方

事前分布 とはパラメター

(i.e. μ)自体の分布

μ

観測データ

or 教師データ:X p(μ|X)=p(X|μ) p(μ)

観測データを事前分布にBayes

の定理で組み合わせる

μ

Xを観測した後に得たパラメターμの

事後分布

パラメター μは点では

なく、分布として与えられる点に注意!

Page 3: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

複数の離散データが独立に出現する場合の確率分布の定番

個々の離散データ間に相関がない場合に使うもので基本的分布。

以下はK種類の離散データ(例えば、語彙数がKでN単語からなるテキストでの単語の出現分布)がある場合

多項分布:Mult

1

cov1varE

..,|,..,,

1

121

21

K

i

k

kjkjkkkkk

K

k

m

k

K

K

NmmNmNm

mmm

NNmmmMult k

ただし、

μ

Page 4: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

多項分布では離散事象(たとえば単語)iの出現回数 mi が確率変数だった。

しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分

布も考えられる。すなわち、多項分布の事前分布として使えるような分布。

ディリクレ分布: Dir

Page 5: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

ディリクレ分布:Dir

• K変数の場合。αはパラメターだが、以下の式

の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。

K

kk

K

k

k

K

K

k

K

k

k

KK

kDir

αμ

1

1

1

1

1

1

11

E

|

101

2 4 1 0

Γ 関数

1

Page 6: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

ディリクレ分布の例

2

1

01.0

21

21

21

0μ1 μ11

1μ2 μ20

Page 7: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

事前分布としてのディリクレ分布の意味

ディリクレ分布Dirを事前分布とみなして、観測データが多項分布Multで与えられたときの事後分布としてのディリクレ分布Dirを考える

こうして見ると、αiは事前分布を得るために想定したiの(仮想的)観測回数と見做せる。

K

i

m

i

KK

K

i

m

i

K

i

i

K

i

iKi

ii

ii

mm

MXDirXDir

DirXMultXDir

MmmmXmi

1

1

11

0

1

1

0

11

1

)|(),|(

)|(|),|(

,),,...,(

  :の出現回数観測データ 

事前 観測 事後

Page 8: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

1変数正規分布:連続する数値データの確率分布の定番

では、ここでMultからDirの事後分布を求めたと同じように、Bayesの定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。

次のページの例は簡単のため、分散は既知とし、事後分布の期待値だけを求めることにする。

分散の事後分布についてはWishart分布という分布が登場するが、難しいのでここでは省略

正規分布(1変数)と事後分布

2

2

2

2

2 var,E,2

exp2

1,|

xx

xxN

Page 9: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

K

i iK

K

KK

K

i i

K

i

i

K

i

iK

K

i

i

xKK

K

NXpK

XpN

x

K

xpXpXp

Bayes

xxp

XpK

Np

122

0

2

0022

0

2

22

0

2

2

2

12

0

022

0

2

2

0

2

0

1

2

2

1

2

22/21

2

00

,11

,||:

|)10(

2

1

exp

22

1exp)|(|

2

1exp

2

1|

)|(:

),|(:

後の事後分布個の観測データを得た

だからこの結果より

は正規分布  

の定理から

は既知ただし

れた場合の尤度個の観測データが得ら

事前分布

事前分布からの寄与 観測データからの寄与

事前 観測 事後

Page 10: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

観測データ数Kと事後分布の例

-1.5 -1 -0.5 0 0.5 1 1.5

K=10の事後分布

K=2の事後分布

K=1の事後分布

事前分布

5.01

01.01.01

0

22

0

xExK

K

i

i

観測データにより事前分布のパラメータμが修正されていく

Page 11: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

多次元正規分布:複数種類(つまり複数の確率変数)を持つ数値データの確率分布

多次元正規分布

)()(2

1exp

)2(

||

)()(2

1exp

||

1

)2(

1)|(

:cov

E

2

21

1

21

2

1

2

1

112

11

μxμx

μxΣμxΣμ,x

Σx

μxx

T

D

T

D

DD

D

DD

N

x

x

D

  

精度行列共分散行列:

次元の正規分布

Page 12: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

例題 多次元正規分布の共分散行列を推定する。

1

x

x

1

x

11

1

2

21

1

]))([(

0]))([(

[]x

))(())((

))(()()(2

||log1

0

)()(||log)|(log

)()(2

1exp

)2()|(

T

T

TTT

TT

T

T

T

D

E

E

E

trace

N

N

D

μxμx

μxμx

μxμxμxμx

μxμxμxμx

μxμxμ,x

μxμxμ,x

より

をすると、すなわちに対して期待値をとるここで

項の微分第

項の微分第

とおくで微分してするためにこの対数尤度を最大化

次元の正規分布

Page 13: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

条件付正規分布

変数ベクトルzをxとyに分割すると

X=a

y

p(y)

P(y|x=a)

Page 14: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

変数ベクトルzをxとyに分割する。

ここで多次元正規分布の指数の肩の項は次式

-(G-10)

yx

T

xy

yyyx

xyxx

T

yxxy

T

yyyx

xyxx

y

x

where

N

とすると精度行列:

多次元正規分布

1

),|(

μ

μμ

y

xz

μz

)()(2

1)()(

2

1

)()(2

1)()(

2

1

)()(2

1 1

yyy

T

yxyx

T

y

yxy

T

xxxx

T

x

T

μyμyμxμy

μyμxμxμx

μzμz

Page 15: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

一般に正規分布 の指数の肩は次式で書け、右辺の第1項、第2項の係数の部分に着目すれば期待値、共分散が求まる。

-(G-20)

),( μ|zN

constTTT μzzzμzμz

111

2

1)()(

2

1

条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を(G-10)式に適用して求めよう。ー 問題

Page 16: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

一方、(G-10)においてxの1次の項がΣ -1 μ これは次式

)(

)(

)(

1

1

|||

yxyxxx

xxyxyxyxxxyxyx

yxyxxx

T

μyμ

μyμμ

μyμx

より

これにより

次に、これらの結果を共分散行列を用いて書き直す

yxyyxyxxyx

yyyxyxyx

yyxyyxyyxyxxxyyxyyxyxxxx

yyyx

xyxx

yyyx

xyxxMatrix

1

|

1

|

11111

1

1

)(

)()(

)(

μyμμ

を使えばにおいて

yを定数とみなしてxの分布を求めれば、条件付分布になるから(G-10)の第1項のxの2次の項の係数が共分散。すなわち

1

|2

1 xxyxxx

T によりxx

Page 17: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

exponential family:指数型分布族

2)))d(exp()(log)(

1d))(exp()(exp

),(,,

1)η)(exp()()|(

EBxxuηxhηa

uηhηa

ηux

EBauηhηp

T

T

T

xxx

x

xxx

また、 

は一般にはベクトルただし

正規化項

iidの観測データX={x1, …, xN }に対しては以下の式

N

n

n

TN

n

n ηNaηhηp11

)()(exp)()|( xuxX

事前分布と学習後の事後分布が同一タイプの分布(事前共役)

Page 18: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

いくつかの確率密度関数のExponential family表現:ガウス分布

)(

1

log2

,

1log

22

1,exp

2

1

2

2exp

2

1

2exp

2

1),|(

2

2

121

2

22

22

2

22

2

2

2

2

2

ax

xx

xx

xxp

T

Page 19: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

いくつかの確率密度関数のExponential family表現:多項分布

)( )(

1log

1

logexp

1loglogexp

,1)|(

family lexponentia)(

1

1

1

11

1

21

1

1

1

1

1

121

11121

axxh

Nxxxx

N

xNxxxx

N

Nxxxx

Nxp

lMultinomia

T

K

k

kk

K

kK

k

k

k

K

K

k

k

K

k

k

K

k

kk

K

K

k

k

K

k

k

K

k

x

k

K

k

を使うと

表現の多項分布

Page 20: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

自然共役事前分布の最尤推定

4])([)(

3])([)(

])([1

0)())()(exp()())()(exp()()(

))()(exp()()|(1

parameter natural

))()(exp()()|(

2

2

EBVη

ηa

EBEη

ηa

E

duηauηhdηauηhη

ηa

j

dηauηhdηp

η

ηauηhηp

j

j

j

j

j

j

TT

j

j

T

T

xu

xu

xu

xxxxxxx

xxxxx

xxx

                       

とで微分してゼロとおく成分の第上の式を

の最尤推定をする。における

Page 21: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

(EB3)(EB4)の応用例

ガウス分布に応用

1

)(

2

)(

log2

1

2 )( ,

1log

22

1,exp

2

1),|(

2

22

1

1

2

1

2

1

2

1

2

2

1

11

1

2

2

2

121

2

22

22

2

ηη

ηaxV

ηη

ηaxE

ax

xx

xp

ηη

T       

Page 22: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

(EB3)(EB4)の応用例 多項分布に応用

kkK

k

k

K

k

k

kK

k

k

k

K

k

K

k

K

k

K

k

k

K

k

k

k

kK

k

k

k

K

k

K

k

k

k

K

k

k

k

K

k

k

k

K

k

K

k

K

k

kkK

k

k

K

k

k

K

k

kK

k

K

k

k

k

K

k

kk

K

k

K

k

k

k

K

K

k

x

k

K

NN

e

eee

N

e

eeee

N

e

eN

a

NNN

e

eN

a

eN

e

NNaee

Nxxx

N

xx

Nxp

k

kkk

k

kkkkk

k

k

k

k

k

k

kk

k

1

1

1

1

1)(

1

1)(

log1

log1log)(

1

1

11

1log

1

logexp)|(

21

1

1

1

1

1

2

1

1

2

1

112

2

11

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

1

111

)( 1log )(1

1

axxhK

k

kkk        

Page 23: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

2項分布の場合はおなじみの公式

1e1

e

e1

e

)(

e1

e)(

e1loge1

1log1log)(

e1

ee1e1e

1e

)( 1

log )(

1log1

logexp2

1)|(

22

2

NNNηη

ηaxVNN

axE

NNNa

axh

NxN

x

Nxp

ηη

xNx

        

Page 24: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

Exponential familyとベイズ統計: 共役分布と事後分布

仮想的な観測データ

実際の観測データ

仮想的な観測回数:1

実際の観測回数

赤枠の中は事後パラメター

aηaKληxuλh

ηaxuηaηaληλh

xpηpxxηp

xxiidKxp

EBηa

ηλλha

aηaληλhηp

λλλ

TK

i

i

K

i

i

TT

K

i

iN

K

T

T

T

2

1

1

1

21

1

1

1

21

21

21

)(exp)(

)(expexp)(

|)|(),,,|(

)|(

)22(d,

exp)(log

exp)()|(

,:ハイパーパラメター

の事後分布は

が得られたときのの観測データ個のに沿うさて、

布を定義する によって共役事前分  

Page 25: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

は既知とする。

          

は既知ただし

れた場合の尤度個の観測データが得ら

=  事前分布

22

00

22

22

22

2

1

2

22/21

2

0

2

0

2

0

2

2

0

021

2

00

2

0

22

0

0121

2

00

,,

)(

1log

2

1

2

1,exp

2

1),|(

2

1exp

2

1|

)|(:

22expexp),|(|

2

1,,,),|(|:

a

xx

xp

xxp

XpK

λaaλλNp

Np

T

K

i

iK

N

i

i

T

1変数正規分布の期待値に適用した例 その1

Page 26: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

22

0

2

122

0

0

22

2

2

0

2

122

0

0

2

2

2

1

2

1

1

22

1

T

21

1

1

1

2

1exp

1log

22

1exp)(

12,exp)(

1,

)(expexp)(

|)|(),,,|(

Kx

Nxh

ηNaaλx

xλh

ηaxuηaλλh

xppxxp

K

i

i

K

i

i

K

i

iK

i

i

T

K

i

i

K

i

iN

             

1変数正規分布の期待値に適用した例 その2

前に求めた N10 に一致

Page 27: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

Exponential family別表現とベイズ統計の続き:予測分布

得られる。で   置き換えればを

でを

においての予測分布はの 新規(あるいは未知)

が得られたときのの観測データ個の

とハイパーパラメター

で分布は次式のように与えられたときの事後ハイパーパラメターが

ーしたハイパーパラメタ個の観測データも考慮

Kλλλ

xuλλλ

EBx

xxiidK

EBaηaληxuλhxh

aηaληλhaxuxh

λpxpxp

EBKλλEBxuλλ

K

K

i

i

K

T

TT

K

i

i

222

1

111

1

21

21

22

1

11

ˆ

)(ˆ

)23(

)23(exp d 1)( exp)()(

dexp)()(exp)(

d)|()|()|(

emarginaliz

)22(ˆ)21()(ˆ

Page 28: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布

難しいので省略する予定

精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現

T

d

TTT

TTTT

T

Td

xxxu

axh

xxxddxp

xxxxdd

xxdd

xxxp

),..,()(

)( )(

2

1exp||log2log

2

1exp)|(

!:parameter natural

||log2log2

1exp

||log2log2

1exp

2

1exp||2

2

1)|(

1

1

11T1T

112

     

    

以下も注意

たがまだ決めていなかっ

 とおくと

Page 29: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

事前分布のパラメターλから予測分布p(x| λ)を求める

||||

2

1||loglog

2

1

22

1||log

2

1exp

2

1exp

222

1exp

2

1expexp)|(

1

2

1

2

1

2

111

2

2

111

1

2

1

2

2

11

2

2

1

1

1

2

1

2121

d

T

TTT

T

TT

TTT

d

da

a

aaap

に対しては、次元の行列

とおくと

として事前分布もガウス分布

Page 30: クラシックな機械学習の入門 2.ベイズ統計に基づく推論

)36(2

)()35(2

)4)(3(

)22(d,

exp)(log

exp)()|(

2

2

11

222

1

1

21

21

EBda

aEEBa

E

EBEB

EBηa

ηλλha

aηaληλhηp

TT

T

T

ように求まる。の十分統計量が以下のが与えられたときのより

 および