alg-geo3ohnita/2006/inf_geom/sos... · title: microsoft powerpoint - alg-geo3.ppt author: noda...
TRANSCRIPT
-
7/6/2006
代数幾何と学習理論
1
代数幾何と学習理論
の関係について(3)
東京工業大学
渡辺澄夫
2006年6月大阪市立大学数学研究所
ミニスクール「情報幾何への入門と応用」
-
7/6/2006
代数幾何と学習理論
2
学習理論
F = -log∫exp( -n K
n(w) ) dw
x ∈
RN
w ∈
Rd
p(x|w)
q(x)
f(x,w) =
log
Kn(w) =
Σf(Xi,w)
n i=1
1 n対数尤度比
自由
エネルギー
真
モデル
-
7/6/2006
代数幾何と学習理論
3
復習
= ∑∑
Ckm(φ
) tλ
k-1 (-logt)m-1
∞ k=1
mk
m=1
v(t) = ∫δ(t-K(w))φ(w) dw
= ∑∑
Ckm(w) tλ
k-1(-logt)m-1
∞ k=1
mk
m=1
δ(t-K(w))
超関数の漸近展開
-
7/6/2006
代数幾何と学習理論
4
対数尤度比
nKn(w) = nK(w) + (nK(w))½∑
f(Xi,w) -K(w)
(nK(w))½
n i=1
nKn(w) =Σ
f(Xi,w)
n i=1
対数尤度比
-
7/6/2006
代数幾何と学習理論
5
例:正則なモデル
p(x
,y|a
,b)
= (2π
)-1
exp
( -
½(x
-a)2
Tru
e :
a0
= b
0 =
0
-½
(y-b
)2)
nK
n(a
,b)
= n
(a2+
b2)/
2
-n
½(a
X*+
bY
*)
X*=n-1/2∑Xi, Y*=n-1/2∑Yi
= n
(a2
+b
2)/
2(a
X*+
bY
*)-{n
(a2
+b
2)}
½
(a2+
b2)½
-
7/6/2006
代数幾何と学習理論
6
例:正則なモデル
(aX
*+ b
Y*)
(a2+
b2)½
a=a1b1
b=b1
a=a2
b=a2b2
(a1X
*+ Y
*)
(a1
2+
1)½
(X*+
b2Y
*)
(1+
b2
2)½
ブローアップによりwell-defined になる
R2
BO(R
2)
-
7/6/2006
代数幾何と学習理論
7
一般のモデル
ψn(w
) =
Σ
(f(X
i,w)-
K(w
))1
(nK
(w))
½
n i=1
nK
n(w
) =
n K
(w)
+ (
nK
(w)
)½ψ
n(w
)
問題:
(1)
K(w
)=0
が特異点を含む。
(2)ψ
n(w
) は特異点上で定義されない。
-
7/6/2006
代数幾何と学習理論
8
K(g(u)) = Π
ui2ki
対数尤度
関数の分
解
f(x,g(u)) = a(x,u) Π
uiki
d i=1
d i=1
各局所座標で
|g(u)’|= b(u)Π
|uihi |
d i=1
ヤコビアン
w →
f(x,w)
Ls (q)値解析関数
-
7/6/2006
代数幾何と学習理論
9
経験過程
ψn(g
(u))
=
Σ(a
(Xi,u
)-Π
ui
ki )
1 n½
n i=1
C(U
*): コンパクト集合U
* 上の連続関数全体
||f|| =
max |f(
u)|
u ∈
U*
を距離として完備可分な距離空間
-
7/6/2006
代数幾何と学習理論
10
nK
n(g
(u))→
n Π
ui
2ki+
n½Π
ui
kiψ
(u)
(C
(U*)
, B
, ψ
n)確率空間
ψn→ψ:法則収束
ψ:タイトな正規確
率過程
i.e
. E
[F(ψ
n)]→
E[F
(ψ)]
for F:有界連続
i.e
. ∀
ε>
0, ∃
Kcom
pact ⊆
C(U
*) s
.t. ψ
(K)>
1-ε
.
-
7/6/2006
代数幾何と学習理論
11
法則収束と平均値の収束
ψn→ψ:法則収束とする
(1)
Fが連続なら
F(ψ
n) →
F(ψ
)
(2)
Fが連続かつ
Fn(ψ
) =
F0(ψ
) +
an
F1(ψ
)
(an→
0) なら
Fn(ψ
n) →
F0(ψ
)
(3)
Fが連続かつ
Fn(ψ
) =
F0(ψ
) +
an F
1(ψ
)(a
n→
0)
かつ
Fn(ψ
n)が漸近一様可積分なら
E[
Fn(ψ
n)
]→
E[F
(ψ)]
-
7/6/2006
代数幾何と学習理論
12
法則収束と平均値の収束
ψn→ψ:法則収束
E[F
(ψn)]
<C
,E
[F(ψ
)] <
C’
F(ψ
): C
(U*)
上の連続関数
E[F
(ψn)]→
E[F
(ψ)]
×
limlim
sup
E[ |F
(ψn)|
] =
0|F
(ψn)|
>M
M→∞
n→∞
漸近一様可積分
-
7/6/2006
代数幾何と学習理論
13
最尤法
nK
n(g
(u))
= n
{Π
uik
i -n
-½ψ
(u)/
2 }
2-
|ψ(u
)|2 /4
-(1
/4n
) m
ax |ψ
(u)|
2
K(g
(u))
=0
経験誤差
Kn(g
(u*)
)
K(g
( u*
))=
Πu* i
2ki
汎化誤差
(1/4
n)
ma
x |ψ
(u)|
2
K(g
(u))
=0
-
7/6/2006
代数幾何と学習理論
14
定理
= -
(1/4
n)
max |ψ
(u)|
2
K(g
(u))
=0
= (
1/4
n)
ma
x |ψ
(u)|
2
K(g
(u))
=0
最尤経験誤差
最尤汎化誤差
nO
対称性が成り立つ
-
7/6/2006
代数幾何と学習理論
15
ベイズ推測
F =
-lo
g ∫
exp
( -n
Kn(w
) ) φ
(w)
dw
nK
n(g
(u))
= n
Πu
i2ki+
n½Π
ui
kiψ
(u)
= -
log
Σ∫
exp(
-nK
n(g
(u))
)φ(g
(u))
|g’(u)|
du
-
7/6/2006
代数幾何と学習理論
16
自由エネルギー
Fn
= -
log Σ∫
dt∫
duδ
(t–
nΠ
ui2
ki ) u
ihi
exp(-
t -t
½ψ
n(u
))φ
(g(u
))
λlo
gn
–(m
-1)loglo
gn +
random variable
漸近展開
-
7/6/2006
代数幾何と学習理論
17
自由エネルギーと汎化誤差
Σ∫
dt∫
duδ
(t–
n+
1Π
ui2
ki ) u
ihi
exp(-
t -t
½ψ
n(u
))φ
(g(u
))
Σ∫
dt∫
duδ
(t–
nΠ
ui2
ki ) u
ihi
exp(-
t -t
½ψ
n(u
))φ
(g(u
))
Gn=
-lo
g
G0/n
E[G
0]=λ
-
7/6/2006
代数幾何と学習理論
18
n 例題数
C/n
最尤
λ/nベイズ
d/2
n
正則モデル
汎化
誤差
学習理論の基本的な結果
-
7/6/2006
代数幾何と学習理論
19
n 例題数
汎化
誤差
実際的なケース
-
7/6/2006
代数幾何と学習理論
20
まとめ
q(x
) →サンプル←
p(x
|w) で学習
学習結果が、どれだけ真の分布に近いかを、
ゼータ関数を用いて予言できる
学習には、数学的な法則が存在する
-
7/6/2006
代数幾何と学習理論
21
事後分布をどのようにして実現するか
事後分布
p(w
) =
exp(
-H
(w)
+ F
)
H(w
)= nK
n(w
) -logφ
(w)
F =
-lo
g ∫
exp(-
H(w
)) d
w
確率的な方法など
-
7/6/2006
代数幾何と学習理論
22
平均場近似
事後分布
p(w
) =
exp(
-H
(w)
+ F
)
J(s
) =
∫{
s(w
)log
s(w
) +
s(w
)H(w
) }
dw
補題
J(s
) は
s(w
)=p
(w) のとき最小値
F をとる。
汎関数
F = min
J(s)
s∈確率分布全体
-
7/6/2006
代数幾何と学習理論
23
平均場近似
J(s
) =
∫s(w
)log
dw
+ F
s(w
)
exp(-
H(w
)+F
)
{ s(w
) } として確率分布全体ではなく、制限された集合
Sとしたとき
J(s
) を最小にするもの
s*(
w) を平均場近似という。
F* = min J(s)
s∈
S
平均場自由エネルギー
-
7/6/2006
代数幾何と学習理論
24
平均場近似の例
S=
{ s ; s
(w)
= s
1(w
1)s
2(w
2)・・・s
d(w
d)
}
S=
{ s ; s
(w) は正規分布(共分散行列が
}
平均場近似は自由エネルギー
Fが不明でも計算できるが、
平均場近似の精度を知るには
F が必要である。
-
7/6/2006
代数幾何と学習理論
25
相対エントロピー
∫s(w
)log
dw
s(w
)
p(w
)=「s からp」
p に対して
sは局所化し
s に対して
p は広がる
-
7/6/2006
代数幾何と学習理論
26
例
p(x
,y)=
exp(
-nx
2y
2-(
x2+
y2)/
2+
F)
s(x
,y)=
( 1/(2πσ
2))
exp(
-(x
2+
y2)/
(2σ
2 ))
J(σ
)= nσ
4 +σ
2 -
2lo
g σ
+定数
「sからpまで」=
J(σ
*)+F = loglogn +・・・
最小:σ
* =1/(
2n)1
/4
ps
-
7/6/2006
代数幾何と学習理論
27
ベイズ予測p(x)
ベイズ事後p(w)
平均場事後p*(w)平均場予測p*(x)
-
7/6/2006
代数幾何と学習理論
28
ベイズ予測p(x)
ベイズ事後p(w)
自由エネルギーF
汎化誤差G
ベイズ法では
G(n
) =
F(n
+1)-
F(n
)
-
7/6/2006
代数幾何と学習理論
29
平均場事後p*(w)平均場予測p*(x)
平均場
自由エネルギーF*平均場汎化誤差G*
平均場法では
G*(
n) ≠
F*(
n+
1)-
F*(
n)
-
7/6/2006
代数幾何と学習理論
30
F(n
) =
λlo
g n
G(n
) =
λ/
n
ベイズ
F*(
n)
= λ
*lo
g n
G*(
n)
= λ
**/ n
平均場
一般に
F(n
)≦F
*(n
)
事前分布が真なら
G(n
)≦G
*(n
)
-
7/6/2006
代数幾何と学習理論
31
正則モデルの自由エネルギーを1に正規化
自由エネルギーの係数
ベイズ自由エネルギー
変分自由エネルギー
渡辺一帆
(ALT
04,
NIP
S05)
混合正規分布モデルの大きさ
1
山崎啓介
(Neura
l N
etw
ork
s,
02)
-
7/6/2006
代数幾何と学習理論
32
正則モデルの汎化誤差を1に正規化
汎 化 誤 差 の 係 数
ベイズ汎化誤差
変分
汎化誤差
中島伸一
(IJC
AI0
5,I
CO
NIP
05)
縮小ランク回帰モデルの大きさ
1
青柳美輝
(Neura
l N
etw
ork
s,
05)
最尤推定の汎化誤差福水健次
(ALT
1999)
-
7/6/2006
代数幾何と学習理論
33
まとめ
S を確率分布全体の部分集合とする。関数
H(w
) が与えられたとき
J(H
) =
min∫
{ s(w
)log
s(w
) +
s(w
)H(w
) }
dw
s∈
S
を求めよ。そのために必要な数学的な基礎を作れ。特に
それは、
H(w
)=0 の特異点の何であるか。
(参考
) S
が確率分布全体のときは、
J(H
) はゼータ関数に
よって特徴づけられたのだが・・・・・。
-
7/6/2006
代数幾何と学習理論
34
全体のまとめ
集合
{ p(x
|w)}
が特異点を含む
集合
{ p(x
|w)}
の構造
推測、検定、予測を扱うための適切な方法
数学的な課題