クラシックな機械学習の入門 2.ベイズ統計に基づく推論
DESCRIPTION
機械学習の基礎理論のひとつであるベイズ統計と、ベイズ統計を用いた確率分布のパラメタ-推定の話です。データから確率分布を推定するという機械学習のメイントピックの基礎知識になります。TRANSCRIPT
2. Bayes統計に基づく推論
Bayesによる確率分布推定の考え方
多項分布、ディリクレ分布
事前分布としてのディリクレ分布の意味
正規分布と事後分布
多次元正規分布と条件付き分布
指数型分布族
自然共役事前分布の最尤推定
クラシックな機械学習の入門
by 中川裕志(東京大学)
Bayesによる確率分布推定の考え方
事前分布 とはパラメター
(i.e. μ)自体の分布
μ
観測データ
or 教師データ:X p(μ|X)=p(X|μ) p(μ)
観測データを事前分布にBayes
の定理で組み合わせる
μ
Xを観測した後に得たパラメターμの
事後分布
パラメター μは点では
なく、分布として与えられる点に注意!
複数の離散データが独立に出現する場合の確率分布の定番
個々の離散データ間に相関がない場合に使うもので基本的分布。
以下はK種類の離散データ(例えば、語彙数がKでN単語からなるテキストでの単語の出現分布)がある場合
多項分布:Mult
1
cov1varE
..,|,..,,
1
121
21
K
i
k
kjkjkkkkk
K
k
m
k
K
K
NmmNmNm
mmm
NNmmmMult k
ただし、
μ
多項分布では離散事象(たとえば単語)iの出現回数 mi が確率変数だった。
しかし、逆に mi が観測値として既知の場合に、単語 i の出現確率 μi が確率変数となる分
布も考えられる。すなわち、多項分布の事前分布として使えるような分布。
ディリクレ分布: Dir
ディリクレ分布:Dir
• K変数の場合。αはパラメターだが、以下の式
の分布を作るときに使った既知の観測回数のデータと考えてもよいだろう。
K
kk
K
k
k
K
K
k
K
k
k
KK
kDir
αμ
1
1
1
1
1
1
11
E
|
101
4
2
2 4 1 0
Γ 関数
1
ディリクレ分布の例
2
1
01.0
21
21
21
0μ1 μ11
1μ2 μ20
事前分布としてのディリクレ分布の意味
ディリクレ分布Dirを事前分布とみなして、観測データが多項分布Multで与えられたときの事後分布としてのディリクレ分布Dirを考える
こうして見ると、αiは事前分布を得るために想定したiの(仮想的)観測回数と見做せる。
K
i
m
i
KK
K
i
m
i
K
i
i
K
i
iKi
ii
ii
mm
MXDirXDir
DirXMultXDir
MmmmXmi
1
1
11
0
1
1
0
11
1
)|(),|(
)|(|),|(
,),,...,(
:の出現回数観測データ
事前 観測 事後
1変数正規分布:連続する数値データの確率分布の定番
では、ここでMultからDirの事後分布を求めたと同じように、Bayesの定理を用いて、正規分布において、事前分布から事後分布を求めてみよう。
次のページの例は簡単のため、分散は既知とし、事後分布の期待値だけを求めることにする。
分散の事後分布についてはWishart分布という分布が登場するが、難しいのでここでは省略
正規分布(1変数)と事後分布
2
2
2
2
2 var,E,2
exp2
1,|
xx
xxN
K
i iK
K
KK
K
i i
K
i
i
K
i
iK
K
i
i
xKK
K
NXpK
XpN
x
K
xpXpXp
Bayes
xxp
XpK
Np
122
0
2
0022
0
2
22
0
2
2
2
12
0
022
0
2
2
0
2
0
1
2
2
1
2
22/21
2
00
,11
,||:
|)10(
2
1
exp
22
1exp)|(|
2
1exp
2
1|
)|(:
),|(:
後の事後分布個の観測データを得た
だからこの結果より
は正規分布
の定理から
は既知ただし
れた場合の尤度個の観測データが得ら
事前分布
事前分布からの寄与 観測データからの寄与
事前 観測 事後
観測データ数Kと事後分布の例
-1.5 -1 -0.5 0 0.5 1 1.5
K=10の事後分布
K=2の事後分布
K=1の事後分布
事前分布
5.01
01.01.01
0
22
0
xExK
K
i
i
観測データにより事前分布のパラメータμが修正されていく
多次元正規分布:複数種類(つまり複数の確率変数)を持つ数値データの確率分布
多次元正規分布
)()(2
1exp
)2(
||
)()(2
1exp
||
1
)2(
1)|(
:cov
E
2
21
1
21
2
1
2
1
112
11
μxμx
μxΣμxΣμ,x
Σx
μxx
T
D
T
D
DD
D
DD
N
x
x
D
精度行列共分散行列:
次元の正規分布
例題 多次元正規分布の共分散行列を推定する。
1
x
x
1
x
11
1
2
21
1
]))([(
0]))([(
[]x
))(())((
))(()()(2
||log1
0
)()(||log)|(log
)()(2
1exp
)2()|(
T
T
TTT
TT
T
T
T
D
E
E
E
trace
N
N
D
μxμx
μxμx
μxμxμxμx
μxμxμxμx
μxμxμ,x
μxμxμ,x
より
をすると、すなわちに対して期待値をとるここで
項の微分第
項の微分第
とおくで微分してするためにこの対数尤度を最大化
次元の正規分布
条件付正規分布
変数ベクトルzをxとyに分割すると
X=a
y
p(y)
P(y|x=a)
変数ベクトルzをxとyに分割する。
ここで多次元正規分布の指数の肩の項は次式
-(G-10)
yx
T
xy
yyyx
xyxx
T
yxxy
T
yyyx
xyxx
y
x
where
N
とすると精度行列:
多次元正規分布
1
),|(
μ
μμ
y
xz
μz
)()(2
1)()(
2
1
)()(2
1)()(
2
1
)()(2
1 1
yyy
T
yxyx
T
y
yxy
T
xxxx
T
x
T
μyμyμxμy
μyμxμxμx
μzμz
一般に正規分布 の指数の肩は次式で書け、右辺の第1項、第2項の係数の部分に着目すれば期待値、共分散が求まる。
-(G-20)
),( μ|zN
constTTT μzzzμzμz
111
2
1)()(
2
1
条件付正規分布p(x|y)の期待値μx|yと共分散Σx|yをこの方法を(G-10)式に適用して求めよう。ー 問題
一方、(G-10)においてxの1次の項がΣ -1 μ これは次式
)(
)(
)(
1
1
|||
yxyxxx
xxyxyxyxxxyxyx
yxyxxx
T
μyμ
μyμμ
μyμx
より
これにより
次に、これらの結果を共分散行列を用いて書き直す
yxyyxyxxyx
yyyxyxyx
yyxyyxyyxyxxxyyxyyxyxxxx
yyyx
xyxx
yyyx
xyxxMatrix
1
|
1
|
11111
1
1
)(
)()(
)(
μyμμ
を使えばにおいて
yを定数とみなしてxの分布を求めれば、条件付分布になるから(G-10)の第1項のxの2次の項の係数が共分散。すなわち
1
|2
1 xxyxxx
T によりxx
exponential family:指数型分布族
2)))d(exp()(log)(
1d))(exp()(exp
),(,,
1)η)(exp()()|(
EBxxuηxhηa
uηhηa
ηux
EBauηhηp
T
T
T
xxx
x
xxx
また、
は一般にはベクトルただし
正規化項
iidの観測データX={x1, …, xN }に対しては以下の式
N
n
n
TN
n
n ηNaηhηp11
)()(exp)()|( xuxX
事前分布と学習後の事後分布が同一タイプの分布(事前共役)
いくつかの確率密度関数のExponential family表現:ガウス分布
)(
1
log2
,
1log
22
1,exp
2
1
2
2exp
2
1
2exp
2
1),|(
2
2
121
2
22
22
2
22
2
2
2
2
2
ax
xx
xx
xxp
T
いくつかの確率密度関数のExponential family表現:多項分布
)( )(
1log
1
logexp
1loglogexp
,1)|(
family lexponentia)(
1
1
1
11
1
21
1
1
1
1
1
121
11121
axxh
Nxxxx
N
xNxxxx
N
Nxxxx
Nxp
lMultinomia
T
K
k
kk
K
kK
k
k
k
K
K
k
k
K
k
k
K
k
kk
K
K
k
k
K
k
k
K
k
x
k
K
k
を使うと
表現の多項分布
自然共役事前分布の最尤推定
4])([)(
3])([)(
])([1
0)())()(exp()())()(exp()()(
))()(exp()()|(1
parameter natural
))()(exp()()|(
2
2
EBVη
ηa
EBEη
ηa
E
duηauηhdηauηhη
ηa
j
dηauηhdηp
η
ηauηhηp
j
j
j
j
j
j
TT
j
j
T
T
xu
xu
xu
xxxxxxx
xxxxx
xxx
とで微分してゼロとおく成分の第上の式を
の最尤推定をする。における
(EB3)(EB4)の応用例
ガウス分布に応用
1
)(
2
)(
log2
1
2 )( ,
1log
22
1,exp
2
1),|(
2
22
1
1
2
1
2
1
2
1
2
2
1
11
1
2
2
2
121
2
22
22
2
ηη
ηaxV
ηη
ηaxE
ax
xx
xp
ηη
T
(EB3)(EB4)の応用例 多項分布に応用
kkK
k
k
K
k
k
kK
k
k
k
K
k
K
k
K
k
K
k
k
K
k
k
k
kK
k
k
k
K
k
K
k
k
k
K
k
k
k
K
k
k
k
K
k
K
k
K
k
kkK
k
k
K
k
k
K
k
kK
k
K
k
k
k
K
k
kk
K
k
K
k
k
k
K
K
k
x
k
K
NN
e
eee
N
e
eeee
N
e
eN
a
NNN
e
eN
a
eN
e
NNaee
Nxxx
N
xx
Nxp
k
kkk
k
kkkkk
k
k
k
k
k
k
kk
k
1
1
1
1
1)(
1
1)(
log1
log1log)(
1
1
11
1log
1
logexp)|(
21
1
1
1
1
1
2
1
1
2
1
112
2
11
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
111
)( 1log )(1
1
axxhK
k
kkk
2項分布の場合はおなじみの公式
1e1
e
e1
e
)(
e1
e)(
e1loge1
1log1log)(
e1
ee1e1e
1e
)( 1
log )(
1log1
logexp2
1)|(
22
2
NNNηη
ηaxVNN
axE
NNNa
axh
NxN
x
Nxp
ηη
xNx
Exponential familyとベイズ統計: 共役分布と事後分布
仮想的な観測データ
実際の観測データ
仮想的な観測回数:1
実際の観測回数
赤枠の中は事後パラメター
aηaKληxuλh
ηaxuηaηaληλh
xpηpxxηp
xxiidKxp
EBηa
ηλλha
aηaληλhηp
λλλ
TK
i
i
K
i
i
TT
K
i
iN
K
T
T
T
2
1
1
1
21
1
1
1
21
21
21
)(exp)(
)(expexp)(
|)|(),,,|(
)|(
)22(d,
exp)(log
exp)()|(
,:ハイパーパラメター
の事後分布は
が得られたときのの観測データ個のに沿うさて、
布を定義する によって共役事前分
は既知とする。
は既知ただし
れた場合の尤度個の観測データが得ら
= 事前分布
22
00
22
22
22
2
1
2
22/21
2
0
2
0
2
0
2
2
0
021
2
00
2
0
22
0
0121
2
00
,,
)(
1log
2
1
2
1,exp
2
1),|(
2
1exp
2
1|
)|(:
22expexp),|(|
2
1,,,),|(|:
a
xx
xp
xxp
XpK
λaaλλNp
Np
T
K
i
iK
N
i
i
T
1変数正規分布の期待値に適用した例 その1
22
0
2
122
0
0
22
2
2
0
2
122
0
0
2
2
2
1
2
1
1
22
1
T
21
1
1
1
2
1exp
1log
22
1exp)(
12,exp)(
1,
)(expexp)(
|)|(),,,|(
Kx
Nxh
ηNaaλx
xλh
ηaxuηaλλh
xppxxp
K
i
i
K
i
i
K
i
iK
i
i
T
K
i
i
K
i
iN
1変数正規分布の期待値に適用した例 その2
前に求めた N10 に一致
Exponential family別表現とベイズ統計の続き:予測分布
得られる。で 置き換えればを
でを
においての予測分布はの 新規(あるいは未知)
が得られたときのの観測データ個の
とハイパーパラメター
で分布は次式のように与えられたときの事後ハイパーパラメターが
ーしたハイパーパラメタ個の観測データも考慮
Kλλλ
xuλλλ
EBx
xxiidK
EBaηaληxuλhxh
aηaληλhaxuxh
λpxpxp
EBKλλEBxuλλ
K
K
i
i
K
T
TT
K
i
i
222
1
111
1
21
21
22
1
11
ˆ
)(ˆ
)23(
)23(exp d 1)( exp)()(
dexp)()(exp)(
d)|()|()|(
emarginaliz
)22(ˆ)21()(ˆ
ベイズ統計による事前、事後、予測分布の例:多変数ガウス分布
難しいので省略する予定
精度行列(分散の逆行列)Λが既知のd次元ガウス分布をexponential family で表現
T
d
TTT
TTTT
T
Td
xxxu
axh
xxxddxp
xxxxdd
xxdd
xxxp
),..,()(
)( )(
2
1exp||log2log
2
1exp)|(
!:parameter natural
||log2log2
1exp
||log2log2
1exp
2
1exp||2
2
1)|(
1
1
11T1T
112
以下も注意
たがまだ決めていなかっ
とおくと
事前分布のパラメターλから予測分布p(x| λ)を求める
||||
2
1||loglog
2
1
22
1||log
2
1exp
2
1exp
222
1exp
2
1expexp)|(
1
2
1
2
1
2
111
2
2
111
1
2
1
2
2
11
2
2
1
1
1
2
1
2121
d
T
TTT
T
TT
TTT
d
da
a
aaap
に対しては、次元の行列
とおくと
として事前分布もガウス分布
)36(2
)()35(2
)4)(3(
)22(d,
exp)(log
exp)()|(
2
2
11
222
1
1
21
21
EBda
aEEBa
E
EBEB
EBηa
ηλλha
aηaληλhηp
TT
T
T
ように求まる。の十分統計量が以下のが与えられたときのより
および