2. bayes 統計に基づく推論
DESCRIPTION
クラシックな機械学習の入門. 2. Bayes 統計に基づく推論. Bayes に よる確率分布推定の考え方 多項分布、ディリクレ分布 事前分布としてのディリクレ分布の 意味 正規分布と事後 分布 多次元正規分布と条件付き分布 指数型分布族 自然共役事前分布の最尤推定. b y 中川裕志(東京大学). Baye s による確率分布推定の考え方. 事前分布 とはパラメター ( i.e. μ )自体の分布. μ. 観測データ or 教師データ :X. p ( μ |X ) =p ( X | μ ) p ( μ ) - PowerPoint PPT PresentationTRANSCRIPT
2. Bayes 統計に基づく推論
Bayes による確率分布推定の考え方多項分布、ディリクレ分布
事前分布としてのディリクレ分布の意味
正規分布と事後分布多次元正規分布と条件付き分布
指数型分布族自然共役事前分布の最尤推定
クラシックな機械学習の入門
by 中川裕志(東京大学)
Bayes による確率分布推定の考え方
事前分布 とはパラメター ( i.e. μ )自体の分布
μ
観測データor 教師データ :X
p(μ|X)=p(X|μ) p(μ)観測データを事前分布に Bayesの定理で組み合わせる
μ
Xを観測した後に得たパラメター μ の
事後分布
パラメター μ は点ではなく、分布として与えられる点に注
意!
複数の離散データが独立に出現する場合の確率分布の定番
個々の離散データ間に相関がない場合に使うもので基本的分布。以下は K 種類の離散データ(例えば、語彙数が K で
N 単語からなるテキストでの単語の出現分布)がある場合
多項分布 :Mult
1
cov1varE
..,|,..,,
1
12121
K
ik
kjkjkkkkk
K
k
mk
KK
NmmNmNm
mmm
NNmmmMult k
ただし、
μ
多項分布では離散事象(たとえば単語) iの出現回数 mi が確率変数だった。
しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分布も考えられる。すなわち、多項分布の事前分布として使えるような分布。
ディリクレ分布 : Dir
ディリクレ分布: Dir• K 変数の場合。 α はパラメターだが、以
下の式の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。
K
kk
K
kk
K
K
k
K
kk
KK
kDir
αμ
1
1
1
1
1
1
11
E
|
101
4
2
2 410
Γ 関数
1
ディリクレ分布の例
2
1
01.0
21
21
21
0μ 1 μ 1 11 μ 2 μ 20
事前分布としてのディリクレ分布の意味
ディリクレ分布 Dir を事前分布とみなして、観測データが多項分布 Mult で与えられたときの事後分布としてのディリクレ分布 Dir を考える
こうして見ると、 αi は事前分布を得るために想定した i の(仮想的)観測回数と見做せる。
K
i
mi
KK
K
i
mi
K
ii
K
iiKi
ii
ii
mm
MXDirXDir
DirXMultXDir
MmmmXmi
1
1
11
0
1
1
011
1
)|(),|(
)|(|),|(
,),,...,(
:の出現回数 観測データ事前観測事後
1 変数正規分布:連続する数値データの確率分布の定番
では、ここで Mult から Dir の事後分布を求めたと同じように、 Bayes の定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。次のページの例は簡単のため、分散は既知とし、事
後分布の期待値だけを求めることにする。
分散の事後分布については Wishart 分布という分布が登場するが、難しいのでここでは省略
正規分布( 1 変数)と事後分布
22
2
2
2 var,E,2
exp2
1,|
xx
xxN
K
i iKK
KK
K
i i
K
ii
K
iiK
K
ii
xKK
K
NXpK
XpN
xK
xpXpXp
Bayes
xxp
XpK
Np
1220
20
0220
2
220
2
2
21
20
0220
2
20
20
1
2
2
1
2
22/21
200
,11
,||:
|)10(
2
1
exp
22
1exp)|(|
2
1exp
2
1|
)|(:
),|(:
後の事後分布個の観測データを得た
だからこの結果よりは正規分布
の定理から
は既知ただし
れた場合の尤度個の観測データが得ら
事前分布
事前分布からの寄与 観測データからの寄与
事前観測事後
観測データ数 K と事後分布の例
-1.5 -1 -0.5 0 0.5 1 1.5
K=10 の事後分布
K= 2の事後分布
K=1 の事後分布
事前分布
5.01
01.01.01
022
0
xExK
K
ii
観測データにより事前分布のパラメータ μ が修正されていく
多次元正規分布:複数種類(つまり複数の確率変数)を持つ数値データの確率分布
多次元正規分布
)()(2
1exp
)2(
||
)()(2
1exp
||
1
)2(
1)|(
:cov
E
2
21
1
21
2
1
21
112
11
μxμx
μxΣμxΣμ,x
Σx
μxx
TD
TD
DD
D
DD
N
x
x
D
精度行列共分散行列:
次元の正規分布
例題多次元正規分布の共分散行列を推定す
る。
1x
x1
x
11
1
2
21
1
]))([(
0]))([(
[]x
))(())((
))(()()(2
||log1
0
)()(||log)|(log
)()(2
1exp
)2()|(
T
T
TTT
TT
T
T
TD
E
E
E
trace
N
N
D
μxμx
μxμx
μxμxμxμx
μxμxμxμx
μxμxμ,x
μxμxμ,x
より
をすると、すなわちに対して期待値をとるここで
項の微分第
項の微分第
とおくで微分してするためにこの対数尤度を最大化
次元の正規分布
条件付正規分布変数ベクトルzをxとyに分割すると
X= a
y
p(y)
P(y|x=a)
変数ベクトルzをxとyに分割する。
ここで多次元正規分布の指数の肩の項は次式
-(G-10)
yxT
xyyyyx
xyxx
Tyxxy
T
yyyx
xyxx
y
x
where
N
とすると精度行列:
多次元正規分布
1
),|(
μ
μμ
y
xz
μz
)()(2
1)()(
2
1
)()(2
1)()(
2
1
)()(2
1 1
yyyT
yxyxT
y
yxyT
xxxxT
x
T
μyμyμxμy
μyμxμxμx
μzμz
一般に正規分布 の指数の肩は次式で書け、右辺の第1項、第2項の係数の部分に着目すれば期待値、共分散が求まる。
- ( G-20)
),( μ|zN
constTTT μzzzμzμz 111
2
1)()(
2
1
条件付正規分布 p( x | y ) の期待値 μ x | yと共分散 Σ x | y
をこの方法を( G-10) 式に適用して求めよう。ー 問題
一方、( G-10) において xの1次の項が Σ -1 μ これは次式
)(
)(
)(
1
1|||
yxyxxx
xxyxyxyxxxyxyx
yxyxxxT
μyμ
μyμμ
μyμx
より
これにより
次に、これらの結果を共分散行列を用いて書き直す
yxyyxyxxyx
yyyxyxyx
yyxyyxyyxyxxxyyxyyxyxxxx
yyyx
xyxx
yyyx
xyxxMatrix
1|
1|
11111
1
1
)(
)()(
)(
μyμμ
を使えばにおいて
y を定数とみなして x の分布を求めれば、条件付分布になるから( G-10) の第1項の x の2次の項の係数が共分散。すなわち 1
|2
1 xxyxxxT によりxx
exponential family: 指数型分布族
2)))d(exp()(log)(
1d))(exp()(exp
),(,,
1)η)(exp()()|(
EBxxuηxhηa
uηhηa
ηux
EBauηhηp
T
T
T
xxx
x
xxx
また、
は一般にはベクトルただし
正規化項
iid の観測データ X={x1, … , x N } に対しては以下の式
N
nn
TN
nn ηNaηhηp
11
)()(exp)()|( xuxX
事前分布と学習後の事後分布が同一タイプの分布(事前共役)
いくつかの確率密度関数の Exponential family 表現:ガウス分布
)(
log2
,
log2
2
1,exp
2
1
2
2exp
2
1
2exp
2
1),|(
2
21
21
2
22
22
2
22
2
2
2
2
2
ax
xx
xx
xxp
T
いくつかの確率密度関数の Exponential family 表現:多項分布
)( )(
1log1
logexp
1loglogexp
,1)|(
family lexponentia)(
1
1
1
11
1
21
1
1
1
1
1
121
11121
axxh
Nxxxx
N
xNxxxx
N
Nxxxx
Nxp
lMultinomia
T
K
kkk
K
kK
kk
k
K
K
kk
K
kk
K
kkk
K
K
kk
K
kk
K
k
xk
K
k
を使うと
表現の多項分布
自然共役事前分布の最尤推定
4])([)(
3])([)(
])([1
0)())()(exp()())()(exp()()(
))()(exp()()|(1
parameter natural
))()(exp()()|(
2
2
EBVη
ηa
EBEη
ηa
E
duηauηhdηauηhη
ηa
j
dηauηhdηp
η
ηauηhηp
j
j
jj
j
jTT
j
j
T
T
xu
xu
xu
xxxxxxx
xxxxx
xxx
とで微分してゼロとおく成分の第上の式を
の最尤推定をする。における
(EB3)(EB4) の応用例ガウス分布に応用
1
)(
2
)(
log2
1
2 )( ,
log2
2
1,exp
2
1),|(
2
22
1
12
1
2
12
1
2
21
111
22
21
21
2
22
222
ηη
ηaxV
ηη
ηaxE
ax
xx
xp
ηη
T
(EB3)(EB4) の応用例 多項分布に応用
kkK
kk
K
kk
kK
kk
k
K
k
K
k
K
k
K
k
k
K
k
k
k
kK
kk
kK
kK
kk
k
K
kk
k
K
k
k
k
K
kK
k
K
kkkK
kk
K
kk
K
kkK
kK
kk
k
K
kkk
K
kK
kk
k
K
K
k
xk
K
NN
e
eee
N
e
eeee
Ne
eN
a
NNNe
eN
a
eNe
NNaee
Nxxx
N
xx
Nxp
k
kkk
k
kkkkk
k
kk
k
k
k
kk
k
1
1
1
1
1)(
1
1)(
log1
log1log)(1
1
11
1log1
logexp)|(
21
1
1
1
1
12
1
12
1
112
2
111
1
1
1
1
1
1
1
11
1
1
1
1
11
1
1
1
1
11
1
111
)( 1log )(1
1
axxhK
kkkk
2 項分布の場合はおなじみの公式
1e1
e
e1
e
)(
e1
e)(
e1loge1
1log1log)(
e1
ee1e1e
1e
)( 1
log )(
1log1
logexp2
1)|(
22
2
NNNηη
ηaxVNN
axE
NNNa
axh
NxN
x
Nxp
ηη
xNx
Exponential family とベイズ統計:共役分布と事後分布
仮想的な観測データ
実際の観測データ
仮想的な観測回数 :1
実際の観測回数
赤枠の中は事後パラメ
ター
aηaKληxuλh
ηaxuηaηaληλh
xpηpxxηp
xxiidKxp
EBηa
ηλλha
aηaληλhηp
λλλ
TK
ii
K
ii
TT
K
iiN
K
T
T
T
21
1
121
11
1
21
21
21
)(exp)(
)(expexp)(
|)|(),,,|(
)|(
)22(d,
exp)(log
exp)()|(
,:ハイパーパラメター
の事後分布はが得られたときのの観測データ個のに沿うさて、
布を定義する によって共役事前分
は既知とする。
は既知ただし
れた場合の尤度個の観測データが得ら
= 事前分布
2200
22
22
222
1
222/21
20
20
20
2
20
021
200
20
220
0121
200
,,
)(
1log
2
1
2
1,exp
2
1),|(
2
1exp
2
1|
)|(:
22expexp),|(|
2
1,,,),|(|:
a
xx
xp
xxp
XpK
λaaλλNp
Np
T
K
iiK
K
ii
T
1 変数正規分布の期待値に適用した例 その1
220
2
122
0
0
22
2
20
2
122
0
0
2
2
2
1
2
11
22
1
T21
11
1
2
1exp
1log
22
1exp)(
12,exp)(
1,
)(expexp)(
|)|(),,,|(
Kx
Kxh
ηKaaλx
xλh
ηaxuηaλλh
xppxxp
K
ii
K
ii
K
i
iK
ii
T
K
ii
K
iiN
1 変数正規分布の期待値に適用した例 その2
前に求めた N10 に一致
Exponential family 別表現とベイズ統計の続き:予測分布
得られる。 で 置き換えればを
でを
においての予測分布は の新規(あるいは未知)
が得られたときのの観測データ個のとハイパーパラメター
で分布は次式のように与えられたときの事後ハイパーパラメターが
ーしたハイパーパラメタ個の観測データも考慮
Kλλλ
xuλλλ
EBx
xxiidK
EBaηaληxuλhxh
aηaληλhaxuxh
λpxpxp
EBKλλEBxuλλ
K
K
ii
K
T
TT
K
ii
222
1111
1
21
21
221
11
ˆ
)(ˆ
)23(
)23(exp d 1)( exp)()(
dexp)()(exp)(
d)|()|()|(
emarginaliz
)22(ˆ)21()(ˆ
ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布難しいので省略する予定
精度行列(分散の逆行列) Λ が既知の d 次元ガウス分布を exponential family で表現
Td
TTT
TTTT
T
Td
xxxu
axh
xxxddxp
xxxxdd
xxdd
xxxp
),..,()(
)( )(
2
1exp||log2log
2
1exp)|(
!:parameter natural
||log2log2
1exp
||log2log2
1exp
2
1exp||2
2
1)|(
1
1
11T1T
112
以下も注意
たがまだ決めていなかっ
とおくと
事前分布のパラメター λ から予測分布 p(x | λ) を求める
||||
2
1||loglog
2
1
22
1||log
2
1exp
2
1exp
222
1exp
2
1expexp)|(
12
12
1
2
1112
2
111
12
12
2
112
2
1
11
2
12121
d
T
TTT
T
TT
TTT
d
da
a
aaap
に対しては、次元の行列
とおくと
として事前分布もガウス分布
)36(
2)()35(
2
)4)(3(
)22(d,
exp)(log
exp)()|(
22
11
222
1
1
21
21
EBda
aEEBa
E
EBEB
EBηa
ηλλha
aηaληλhηp
TT
T
T
ように求まる。の十分統計量が以下のが与えられたときのより
および