alg-geo3ohnita/2006/inf_geom/sos... · title: microsoft powerpoint - alg-geo3.ppt author: noda...

7/6/2006

代数幾何と学習理論

1


の関係について(３)

東京工業大学

渡辺澄夫

2006年6月大阪市立大学数学研究所

ミニスクール「情報幾何への入門と応用」

7/6/2006


2

学習理論

F = -log∫exp( -n K

n(w) ) dw

x ∈

RN

w ∈

Rd

p(x|w)

q(x)

f(x,w) =

log

Kn(w) ＝

Σf(Xi,w)

n i=1

1 n対数尤度比

自由

エネルギー

真

モデル

7/6/2006


3

復習

= ∑∑

Ckm(φ

) tλ

k-1 (-logt)m-1

∞ k=1

mk

m=1

v(t) = ∫δ(t-K(w))φ(w) dw

= ∑∑

Ckm(w) tλ

k-1(-logt)m-1

∞ k=1

mk

m=1

δ(t-K(w))

超関数の漸近展開

7/6/2006


4

対数尤度比

nKn(w) = nK(w) + (nK(w))½∑

f(Xi,w) -K(w)

(nK(w))½

n i=1

nKn(w) ＝Σ

f(Xi,w)

n i=1

対数尤度比

7/6/2006


5

例：正則なモデル

p(x

,ｙ|a

,b)

= (２π

)-1

exp

( -

½(x

-a)2

Tru

e :

a0

= b

0 =

0

-½

(ｙ-b

)2)

nK

n(a

,b)

= n

(a2+

b2)/

2

-n

½(a

X*+

bY

*)

X*=n-1/2∑Xi, Y*=n-1/2∑Yi

= n

(a2

+b

2)/

2(a

X*+

bY

*)-｛n

(a2

+b

2)｝

½

(a2+

b2)½

7/6/2006


6

例：正則なモデル

(aX

*+ b

Y*)

(a2+

b2)½

a=a1b1

b=b1

a=a２

b=a2b2

(a1X

*+ Y

*)

(a1

2+

1)½

(X*+

b2Y

*)

(1+

b2

2)½

ブローアップによりwell-defined になる

R2

BO(R

2)

7/6/2006


7

一般のモデル

ψn(w

) =

Σ

(f(X

i,w)-

K(w

))1

(nK

(w))

½

n i=1

nK

n(w

) =

n K

(w)

+ (

nK

(w)

)½ψ

n(w

)

問題:

（１）

K(w

)=0

が特異点を含む。

（２）ψ

n(w

) は特異点上で定義されない。

7/6/2006


8

K(g(u)) = Π

ui2ki

対数尤度

関数の分

解

f(ｘ,g(u)) = a(x,u) Π

uiki

d i=1

d i=1

各局所座標で

|g(u)’|= b(u)Π

|uihi |

d i=1

ヤコビアン

w →

f(x,w)

Ls (q)値解析関数

7/6/2006


9

経験過程

ψn(g

(u))

=

Σ(a

(Xi,u

)-Π

ui

ki )

1 n½

n i=1

C(Ｕ

*): コンパクト集合Ｕ

* 上の連続関数全体

||f|| =

max |f(

u)|

u ∈

U*

を距離として完備可分な距離空間

7/6/2006


10

nK

n(g

(u))→

n Π

ui

2ki+

n½Π

ui

kiψ

(u)

（C

(U*)

, B

, ψ

n）確率空間

ψn→ψ：法則収束

ψ:タイトな正規確

率過程

i.e

. E

[Ｆ(ψ

n)]→

E[F

(ψ)]

for Ｆ：有界連続

i.e

. ∀

ε>

0, ∃

Kcom

pact ⊆

C(U

*) s

.t. ψ

(Ｋ)>

1-ε

.

7/6/2006


11

法則収束と平均値の収束

ψn→ψ：法則収束とする

(1)

Fが連続なら

F(ψ

n) →

F(ψ

)

(2)

Fが連続かつ

Fn(ψ

) =

F0(ψ

) +

an

F1(ψ

)

(an→

0) なら

Fn(ψ

n) →

F0(ψ

)

(3)

Fが連続かつ

Fn(ψ

) =

F0(ψ

) +

an F

1(ψ

)(a

n→

0)

かつ

Fn(ψ

n)が漸近一様可積分なら

E[

Fn(ψ

n)

]→

E[F

(ψ)]

7/6/2006


12

法則収束と平均値の収束

ψn→ψ：法則収束

E[Ｆ

(ψn)]

<C

,E

[F(ψ

)] ＜

C’

F(ψ

): C

(U*)

上の連続関数

E[Ｆ

(ψn)]→

E[F

(ψ)]

×

limlim

sup

E[ |Ｆ

(ψn)|

] =

0|Ｆ

(ψn)|

>M

M→∞

n→∞

漸近一様可積分

7/6/2006


13

最尤法

nK

n(g

(u))

= n

{Π

uik

i -n

-½ψ

(u)/

2 }

2-

|ψ(u

)|2 /4

-(1

/4n

) m

ax |ψ

(u)|

2

K(g

(u))

=0

経験誤差

Kn(g

(u*)

)

K(g

( u*

))=

Πu* i

2ki

汎化誤差

(1/4

n)

ma

x |ψ

(u)|

2

K(g

(u))

=0

7/6/2006


14

定理

= -

(1/4

n)

max |ψ

(u)|

2

K(g

(u))

=0

= (

1/4

n)

ma

x |ψ

(u)|

2

K(g

(u))

=0

最尤経験誤差

最尤汎化誤差

nO

対称性が成り立つ

7/6/2006


15

ベイズ推測

F =

-lo

g ∫

exp

( -n

Kn(w

) ) φ

(w)

dw

nK

n(g

(u))

= n

Πu

i2ki+

n½Π

ui

kiψ

(u)

= -

log

Σ∫

exp(

-nK

n(g

(u))

)φ(g

(u))

|g’(u)|

du

7/6/2006


16

自由エネルギー

Fn

= -

log Σ∫

dt∫

duδ

(t–

nΠ

ui2

ki ) u

ihi

exp(-

t -t

½ψ

n(u

))φ

(g(u

))

λlo

gn

–(m

-1)loglo

gn +

random variable

漸近展開

7/6/2006


17

自由エネルギーと汎化誤差

Σ∫

dt∫

duδ

(t–

n+

1Π

ui2

ki ) u

ihi

exp(-

t -t

½ψ

n(u

))φ

(g(u

))

Σ∫

dt∫

duδ

(t–

nΠ

ui2

ki ) u

ihi

exp(-

t -t

½ψ

n(u

))φ

(g(u

))

Gn=

-lo

g

G0/n

E[G

0]=λ

7/6/2006


18

n 例題数

Ｃ/n

最尤

λ/nベイズ

d/2

n

正則モデル

汎化

誤差

学習理論の基本的な結果

7/6/2006


19

n 例題数

汎化

誤差

実際的なケース

7/6/2006


20

まとめ

q(x

) →サンプル←

p(x

|w) で学習

学習結果が、どれだけ真の分布に近いかを、

ゼータ関数を用いて予言できる

学習には、数学的な法則が存在する

7/6/2006


21

事後分布をどのようにして実現するか

事後分布

p(w

) =

exp(

-H

(w)

+ F

)

H(w

)= nK

n(w

) -logφ

(w)

F =

-lo

g ∫

exp(-

H(w

)) d

w

確率的な方法など

7/6/2006


22

平均場近似

事後分布

p(w

) =

exp(

-H

(w)

+ F

)

J(s

) =

∫{

s(w

)log

s(w

) +

s(w

)H(w

) }

dw

補題

J(s

) は

s(w

)=p

(w) のとき最小値

F をとる。

汎関数

F = min

J(s)

s∈確率分布全体

7/6/2006


23

平均場近似

J(s

) =

∫s(w

)log

dw

+ F

s(w

)

exp(-

H(w

)+F

)

{ s(w

) } として確率分布全体ではなく、制限された集合

Sとしたとき

J(s

) を最小にするもの

s*(

w) を平均場近似という。

F* = min J(s)

s∈

S

平均場自由エネルギー

7/6/2006


24

平均場近似の例

S=

{ s ; s

(w)

= s

1(w

1)s

2(w

2)・・・s

d(w

d)

}

S=

{ s ; s

(w) は正規分布（共分散行列が

}

平均場近似は自由エネルギー

Fが不明でも計算できるが、

平均場近似の精度を知るには

F が必要である。

7/6/2006


25

相対エントロピー

∫s(w

)log

dw

s(w

)

p(w

)=「s からp」

p に対して

sは局所化し

s に対して

p は広がる

7/6/2006


26

例

p(x

,y)=

exp(

-nx

2y

2-(

x2+

y2)/

2+

F)

s(x

,y)=

( 1/(２πσ

2))

exp(

-(x

2+

y2)/

(2σ

2 ))

J(σ

)= nσ

4 +σ

2 -

2lo

g σ

+定数

「sからpまで」＝

J(σ

*)+F = loglogn +・・・

最小：σ

* =1/(

2n)1

/4

pｓ

7/6/2006


27

ベイズ予測p(x)

ベイズ事後p(w)

平均場事後p*(w)平均場予測p*(x)

7/6/2006


28

ベイズ予測p(x)

ベイズ事後p(w)

自由エネルギーF

汎化誤差G

ベイズ法では

G(n

) =

F(n

+1)-

F(n

)

7/6/2006


29

平均場事後p*(w)平均場予測p*(x)

平均場

自由エネルギーF*平均場汎化誤差G*

平均場法では

G*(

n) ≠

F*(

n+

1)-

F*(

n)

7/6/2006


30

F(n

) =

λlo

g n

Ｇ(n

) =

λ/

n

ベイズ

F*(

n)

= λ

*lo

g n

G*(

n)

= λ

**/ n

平均場

一般に

F(n

)≦F

*(n

)

事前分布が真なら

G(n

)≦G

*(n

)

7/6/2006


31

正則モデルの自由エネルギーを１に正規化

自由エネルギーの係数

ベイズ自由エネルギー

変分自由エネルギー

渡辺一帆

(ALT

04,

NIP

S05)

混合正規分布モデルの大きさ

１

山崎啓介

(Neura

l N

etw

ork

s,

02)

7/6/2006


32

正則モデルの汎化誤差を１に正規化

汎化誤差の係数

ベイズ汎化誤差

変分

汎化誤差

中島伸一

(IJC

AI0

5,I

CO

NIP

05)

縮小ランク回帰モデルの大きさ

１

青柳美輝

(Neura

l N

etw

ork

s,

05)

最尤推定の汎化誤差福水健次

(ALT

1999)

7/6/2006


33

まとめ

S を確率分布全体の部分集合とする。関数

H(w

) が与えられたとき

J(H

) =

min∫

{ s(w

)log

s(w

) +

s(w

)H(w

) }

dw

s∈

S

を求めよ。そのために必要な数学的な基礎を作れ。特に

それは、

H(w

)=0 の特異点の何であるか。

(参考

) S

が確率分布全体のときは、

J(H

) はゼータ関数に

よって特徴づけられたのだが・・・・・。

7/6/2006


34

全体のまとめ

集合

{ p(x

|w)}

が特異点を含む

集合

{ p(x

|w)}

の構造

推測、検定、予測を扱うための適切な方法

数学的な課題

alg-geo3ohnita/2006/inf_geom/sos... · title: microsoft powerpoint - alg-geo3.ppt author: noda...

Documents