2. bayes 統計に基づく推論

30
2. Bayes 統統統統統統統統 Bayes ににににににににににににに にににに ににににににに にににににににににににににににににに ににににににににに にににににににににににににに にににににに ににににににににににににに ににににににににににににに by にににに ににににに ()

Upload: arnaud

Post on 07-Jan-2016

65 views

Category:

Documents


2 download

DESCRIPTION

クラシックな機械学習の入門. 2. Bayes 統計に基づく推論. Bayes に よる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の 意味 正規分布と事後 分布 多次元正規分布と条件付き分布 指数型分布族 自然共役事前分布の最尤推定. b y 中川裕志(東京大学). Baye s による確率分布推定の考え方. 事前分布 とはパラメター  ( i.e. μ )自体の分布. μ. 観測データ or 教師データ :X. p ( μ |X ) =p ( X | μ ) p ( μ ) - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: 2. Bayes 統計に基づく推論

2. Bayes 統計に基づく推論

Bayes による確率分布推定の考え方多項分布、ディリクレ分布

事前分布としてのディリクレ分布の意味

正規分布と事後分布多次元正規分布と条件付き分布

指数型分布族自然共役事前分布の最尤推定

クラシックな機械学習の入門

by 中川裕志(東京大学)

Page 2: 2. Bayes 統計に基づく推論

Bayes による確率分布推定の考え方

事前分布 とはパラメター ( i.e. μ )自体の分布

μ

観測データor 教師データ :X

p(μ|X)=p(X|μ) p(μ)観測データを事前分布に Bayesの定理で組み合わせる

μ

Xを観測した後に得たパラメター μ の

事後分布

パラメター μ は点ではなく、分布として与えられる点に注

意!

Page 3: 2. Bayes 統計に基づく推論

複数の離散データが独立に出現する場合の確率分布の定番

個々の離散データ間に相関がない場合に使うもので基本的分布。以下は K 種類の離散データ(例えば、語彙数が K で

N 単語からなるテキストでの単語の出現分布)がある場合

多項分布 :Mult

1

cov1varE

..,|,..,,

1

12121

K

ik

kjkjkkkkk

K

k

mk

KK

NmmNmNm

mmm

NNmmmMult k

ただし、

μ

Page 4: 2. Bayes 統計に基づく推論

多項分布では離散事象(たとえば単語) iの出現回数 mi が確率変数だった。

しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分布も考えられる。すなわち、多項分布の事前分布として使えるような分布。

ディリクレ分布 : Dir

Page 5: 2. Bayes 統計に基づく推論

ディリクレ分布: Dir• K 変数の場合。 α はパラメターだが、以

下の式の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。

K

kk

K

kk

K

K

k

K

kk

KK

kDir

αμ

1

1

1

1

1

1

11

E

|

101

2 410

Γ 関数

1

Page 6: 2. Bayes 統計に基づく推論

ディリクレ分布の例

2

1

01.0

21

21

21

0μ 1                             μ 1 11 μ 2                             μ 20

Page 7: 2. Bayes 統計に基づく推論

事前分布としてのディリクレ分布の意味

ディリクレ分布 Dir を事前分布とみなして、観測データが多項分布 Mult で与えられたときの事後分布としてのディリクレ分布 Dir を考える

こうして見ると、 αi は事前分布を得るために想定した i の(仮想的)観測回数と見做せる。

K

i

mi

KK

K

i

mi

K

ii

K

iiKi

ii

ii

mm

MXDirXDir

DirXMultXDir

MmmmXmi

1

1

11

0

1

1

011

1

)|(),|(

)|(|),|(

,),,...,(

   :の出現回数 観測データ事前観測事後

Page 8: 2. Bayes 統計に基づく推論

1 変数正規分布:連続する数値データの確率分布の定番

では、ここで Mult から Dir の事後分布を求めたと同じように、 Bayes の定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。次のページの例は簡単のため、分散は既知とし、事

後分布の期待値だけを求めることにする。

分散の事後分布については Wishart 分布という分布が登場するが、難しいのでここでは省略

正規分布( 1 変数)と事後分布

22

2

2

2 var,E,2

exp2

1,|

xx

xxN

Page 9: 2. Bayes 統計に基づく推論

K

i iKK

KK

K

i i

K

ii

K

iiK

K

ii

xKK

K

NXpK

XpN

xK

xpXpXp

Bayes

xxp

XpK

Np

1220

20

0220

2

220

2

2

21

20

0220

2

20

20

1

2

2

1

2

22/21

200

,11

,||:

|)10(

2

1

exp

22

1exp)|(|

2

1exp

2

1|

)|(:

),|(:

後の事後分布個の観測データを得た

だからこの結果よりは正規分布

   

の定理から

は既知ただし

れた場合の尤度個の観測データが得ら

事前分布

事前分布からの寄与 観測データからの寄与

事前観測事後

Page 10: 2. Bayes 統計に基づく推論

観測データ数 K と事後分布の例

-1.5 -1 -0.5 0 0.5 1 1.5

K=10 の事後分布

K= 2の事後分布

K=1 の事後分布

事前分布

5.01

01.01.01

022

0

xExK

K

ii

観測データにより事前分布のパラメータ μ が修正されていく

Page 11: 2. Bayes 統計に基づく推論

多次元正規分布:複数種類(つまり複数の確率変数)を持つ数値データの確率分布

多次元正規分布

)()(2

1exp

)2(

||

)()(2

1exp

||

1

)2(

1)|(

:cov

E

2

21

1

21

2

1

21

112

11

μxμx

μxΣμxΣμ,x

Σx

μxx

TD

TD

DD

D

DD

N

x

x

D

  

精度行列共分散行列:

次元の正規分布

Page 12: 2. Bayes 統計に基づく推論

例題多次元正規分布の共分散行列を推定す

る。

1x

x1

x

11

1

2

21

1

]))([(

0]))([(

[]x

))(())((

))(()()(2

||log1

0

)()(||log)|(log

)()(2

1exp

)2()|(

T

T

TTT

TT

T

T

TD

E

E

E

trace

N

N

D

μxμx

μxμx

μxμxμxμx

μxμxμxμx

μxμxμ,x

μxμxμ,x

より

をすると、すなわちに対して期待値をとるここで

項の微分第

項の微分第

とおくで微分してするためにこの対数尤度を最大化

次元の正規分布

Page 13: 2. Bayes 統計に基づく推論

条件付正規分布変数ベクトルzをxとyに分割すると

X= a

y

p(y)

P(y|x=a)

Page 14: 2. Bayes 統計に基づく推論

変数ベクトルzをxとyに分割する。

ここで多次元正規分布の指数の肩の項は次式

                              -(G-10)

yxT

xyyyyx

xyxx

Tyxxy

T

yyyx

xyxx

y

x

where

N

とすると精度行列:

多次元正規分布

1

),|(

μ

μμ

y

xz

μz

)()(2

1)()(

2

1

)()(2

1)()(

2

1

)()(2

1 1

yyyT

yxyxT

y

yxyT

xxxxT

x

T

μyμyμxμy

μyμxμxμx

μzμz

Page 15: 2. Bayes 統計に基づく推論

一般に正規分布 の指数の肩は次式で書け、右辺の第1項、第2項の係数の部分に着目すれば期待値、共分散が求まる。

- ( G-20)

),( μ|zN

constTTT μzzzμzμz 111

2

1)()(

2

1

条件付正規分布 p( x | y ) の期待値 μ x | yと共分散 Σ x | y

をこの方法を( G-10) 式に適用して求めよう。ー 問題

Page 16: 2. Bayes 統計に基づく推論

一方、( G-10) において xの1次の項が Σ -1 μ   これは次式

)(

)(

)(

1

1|||

yxyxxx

xxyxyxyxxxyxyx

yxyxxxT

μyμ

μyμμ

μyμx

より

これにより

次に、これらの結果を共分散行列を用いて書き直す

yxyyxyxxyx

yyyxyxyx

yyxyyxyyxyxxxyyxyyxyxxxx

yyyx

xyxx

yyyx

xyxxMatrix

1|

1|

11111

1

1

)(

)()(

)(

μyμμ

を使えばにおいて

y を定数とみなして x の分布を求めれば、条件付分布になるから( G-10) の第1項の x の2次の項の係数が共分散。すなわち 1

|2

1 xxyxxxT によりxx

Page 17: 2. Bayes 統計に基づく推論

exponential family: 指数型分布族

2)))d(exp()(log)(

1d))(exp()(exp

),(,,

1)η)(exp()()|(

EBxxuηxhηa

uηhηa

ηux

EBauηhηp

T

T

T

xxx

x

xxx

 また、

は一般にはベクトルただし

正規化項

iid の観測データ X={x1,  … ,   x N  } に対しては以下の式

N

nn

TN

nn ηNaηhηp

11

)()(exp)()|( xuxX

事前分布と学習後の事後分布が同一タイプの分布(事前共役)

Page 18: 2. Bayes 統計に基づく推論

いくつかの確率密度関数の Exponential family 表現:ガウス分布

)(

log2

,

log2

2

1,exp

2

1

2

2exp

2

1

2exp

2

1),|(

2

21

21

2

22

22

2

22

2

2

2

2

2

ax

xx

xx

xxp

T

Page 19: 2. Bayes 統計に基づく推論

いくつかの確率密度関数の Exponential family 表現:多項分布

)( )(

1log1

logexp

1loglogexp

,1)|(

family lexponentia)(

1

1

1

11

1

21

1

1

1

1

1

121

11121

axxh

Nxxxx

N

xNxxxx

N

Nxxxx

Nxp

lMultinomia

T

K

kkk

K

kK

kk

k

K

K

kk

K

kk

K

kkk

K

K

kk

K

kk

K

k

xk

K

k

を使うと

表現の多項分布

Page 20: 2. Bayes 統計に基づく推論

自然共役事前分布の最尤推定

4])([)(

3])([)(

])([1

0)())()(exp()())()(exp()()(

))()(exp()()|(1

parameter natural

))()(exp()()|(

2

2

EBVη

ηa

EBEη

ηa

E

duηauηhdηauηhη

ηa

j

dηauηhdηp

η

ηauηhηp

j

j

jj

j

jTT

j

j

T

T

xu

xu

xu

xxxxxxx

xxxxx

xxx

                                           

とで微分してゼロとおく成分の第上の式を

の最尤推定をする。における

Page 21: 2. Bayes 統計に基づく推論

(EB3)(EB4) の応用例ガウス分布に応用

1

)(

2

)(

log2

1

2 )( ,

log2

2

1,exp

2

1),|(

2

22

1

12

1

2

12

1

2

21

111

22

21

21

2

22

222

ηη

ηaxV

ηη

ηaxE

ax

xx

xp

ηη

T           

Page 22: 2. Bayes 統計に基づく推論

(EB3)(EB4) の応用例 多項分布に応用

kkK

kk

K

kk

kK

kk

k

K

k

K

k

K

k

K

k

k

K

k

k

k

kK

kk

kK

kK

kk

k

K

kk

k

K

k

k

k

K

kK

k

K

kkkK

kk

K

kk

K

kkK

kK

kk

k

K

kkk

K

kK

kk

k

K

K

k

xk

K

NN

e

eee

N

e

eeee

Ne

eN

a

NNNe

eN

a

eNe

NNaee

Nxxx

N

xx

Nxp

k

kkk

k

kkkkk

k

kk

k

k

k

kk

k

1

1

1

1

1)(

1

1)(

log1

log1log)(1

1

11

1log1

logexp)|(

21

1

1

1

1

12

1

12

1

112

2

111

1

1

1

1

1

1

1

11

1

1

1

1

11

1

1

1

1

11

1

111

)( 1log )(1

1

axxhK

kkkk             

Page 23: 2. Bayes 統計に基づく推論

2 項分布の場合はおなじみの公式

1e1

e

e1

e

)(

e1

e)(

e1loge1

1log1log)(

e1

ee1e1e

1e

)( 1

log )(

1log1

logexp2

1)|(

22

2

NNNηη

ηaxVNN

axE

NNNa

axh

NxN

x

Nxp

ηη

xNx

               

Page 24: 2. Bayes 統計に基づく推論

Exponential family とベイズ統計:共役分布と事後分布

仮想的な観測データ

実際の観測データ

仮想的な観測回数 :1

実際の観測回数

赤枠の中は事後パラメ

ター

aηaKληxuλh

ηaxuηaηaληλh

xpηpxxηp

xxiidKxp

EBηa

ηλλha

aηaληλhηp

λλλ

TK

ii

K

ii

TT

K

iiN

K

T

T

T

21

1

121

11

1

21

21

21

)(exp)(

)(expexp)(

|)|(),,,|(

)|(

)22(d,

exp)(log

exp)()|(

,:ハイパーパラメター

の事後分布はが得られたときのの観測データ個のに沿うさて、

布を定義する  によって共役事前分   

Page 25: 2. Bayes 統計に基づく推論

は既知とする。

                  

は既知ただし

れた場合の尤度個の観測データが得ら

=   事前分布

2200

22

22

222

1

222/21

20

20

20

2

20

021

200

20

220

0121

200

,,

)(

1log

2

1

2

1,exp

2

1),|(

2

1exp

2

1|

)|(:

22expexp),|(|

2

1,,,),|(|:

a

xx

xp

xxp

XpK

λaaλλNp

Np

T

K

iiK

K

ii

T

1 変数正規分布の期待値に適用した例 その1

Page 26: 2. Bayes 統計に基づく推論

220

2

122

0

0

22

2

20

2

122

0

0

2

2

2

1

2

11

22

1

T21

11

1

2

1exp

1log

22

1exp)(

12,exp)(

1,

)(expexp)(

|)|(),,,|(

Kx

Kxh

ηKaaλx

xλh

ηaxuηaλλh

xppxxp

K

ii

K

ii

K

i

iK

ii

T

K

ii

K

iiN

                        

1 変数正規分布の期待値に適用した例 その2

前に求めた  N10  に一致

Page 27: 2. Bayes 統計に基づく推論

Exponential family 別表現とベイズ統計の続き:予測分布

得られる。     で 置き換えればを

でを

においての予測分布は の新規(あるいは未知)

が得られたときのの観測データ個のとハイパーパラメター

で分布は次式のように与えられたときの事後ハイパーパラメターが

ーしたハイパーパラメタ個の観測データも考慮

Kλλλ

xuλλλ

EBx

xxiidK

EBaηaληxuλhxh

aηaληλhaxuxh

λpxpxp

EBKλλEBxuλλ

K

K

ii

K

T

TT

K

ii

222

1111

1

21

21

221

11

ˆ

)(ˆ

)23(

)23(exp d 1)( exp)()(

dexp)()(exp)(

d)|()|()|(

emarginaliz

)22(ˆ)21()(ˆ

Page 28: 2. Bayes 統計に基づく推論

ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布難しいので省略する予定

精度行列(分散の逆行列) Λ が既知の d 次元ガウス分布を exponential family で表現

Td

TTT

TTTT

T

Td

xxxu

axh

xxxddxp

xxxxdd

xxdd

xxxp

),..,()(

)( )(

2

1exp||log2log

2

1exp)|(

!:parameter natural

||log2log2

1exp

||log2log2

1exp

2

1exp||2

2

1)|(

1

1

11T1T

112

         

       

以下も注意

たがまだ決めていなかっ

  とおくと

Page 29: 2. Bayes 統計に基づく推論

事前分布のパラメター λ から予測分布 p(x | λ) を求める

||||

2

1||loglog

2

1

22

1||log

2

1exp

2

1exp

222

1exp

2

1expexp)|(

12

12

1

2

1112

2

111

12

12

2

112

2

1

11

2

12121

d

T

TTT

T

TT

TTT

d

da

a

aaap

に対しては、次元の行列

とおくと

として事前分布もガウス分布

Page 30: 2. Bayes 統計に基づく推論

)36(

2)()35(

2

)4)(3(

)22(d,

exp)(log

exp)()|(

22

11

222

1

1

21

21

EBda

aEEBa

E

EBEB

EBηa

ηλλha

aηaληλhηp

TT

T

T

ように求まる。の十分統計量が以下のが与えられたときのより

  および