alg-geo3ohnita/2006/inf_geom/sos... · title: microsoft powerpoint - alg-geo3.ppt author: noda...

34
7/6/2006 代数幾何と学習理論 1 代数幾何と学習理論 の関係について() 東京工業大学 渡辺澄夫 20066月大阪市立大学数学研究所 ミニスクール「情報幾何への入門と応用」

Upload: others

Post on 27-Jan-2021

4 views

Category:

Documents


0 download

TRANSCRIPT

  • 7/6/2006

    代数幾何と学習理論

    1

    代数幾何と学習理論

    の関係について(3)

    東京工業大学

    渡辺澄夫

    2006年6月大阪市立大学数学研究所

    ミニスクール「情報幾何への入門と応用」

  • 7/6/2006

    代数幾何と学習理論

    2

    学習理論

    F = -log∫exp( -n K

    n(w) ) dw

    x ∈

    RN

    w ∈

    Rd

    p(x|w)

    q(x)

    f(x,w) =

    log

    Kn(w) =

    Σf(Xi,w)

    n i=1

    1 n対数尤度比

    自由

    エネルギー

    モデル

  • 7/6/2006

    代数幾何と学習理論

    3

    復習

    = ∑∑

    Ckm(φ

    ) tλ

    k-1 (-logt)m-1

    ∞ k=1

    mk

    m=1

    v(t) = ∫δ(t-K(w))φ(w) dw

    = ∑∑

    Ckm(w) tλ

    k-1(-logt)m-1

    ∞ k=1

    mk

    m=1

    δ(t-K(w))

    超関数の漸近展開

  • 7/6/2006

    代数幾何と学習理論

    4

    対数尤度比

    nKn(w) = nK(w) + (nK(w))½∑

    f(Xi,w) -K(w)

    (nK(w))½

    n i=1

    nKn(w) =Σ

    f(Xi,w)

    n i=1

    対数尤度比

  • 7/6/2006

    代数幾何と学習理論

    5

    例:正則なモデル

    p(x

    ,y|a

    ,b)

    = (2π

    )-1

    exp

    ( -

    ½(x

    -a)2

    Tru

    e :

    a0

    = b

    0 =

    0

    (y-b

    )2)

    nK

    n(a

    ,b)

    = n

    (a2+

    b2)/

    2

    -n

    ½(a

    X*+

    bY

    *)

    X*=n-1/2∑Xi, Y*=n-1/2∑Yi

    = n

    (a2

    +b

    2)/

    2(a

    X*+

    bY

    *)-{n

    (a2

    +b

    2)}

    ½

    (a2+

    b2)½

  • 7/6/2006

    代数幾何と学習理論

    6

    例:正則なモデル

    (aX

    *+ b

    Y*)

    (a2+

    b2)½

    a=a1b1

    b=b1

    a=a2

    b=a2b2

    (a1X

    *+ Y

    *)

    (a1

    2+

    1)½

    (X*+

    b2Y

    *)

    (1+

    b2

    2)½

    ブローアップによりwell-defined になる

    R2

    BO(R

    2)

  • 7/6/2006

    代数幾何と学習理論

    7

    一般のモデル

    ψn(w

    ) =

    Σ

    (f(X

    i,w)-

    K(w

    ))1

    (nK

    (w))

    ½

    n i=1

    nK

    n(w

    ) =

    n K

    (w)

    + (

    nK

    (w)

    )½ψ

    n(w

    )

    問題:

    (1)

    K(w

    )=0

    が特異点を含む。

    (2)ψ

    n(w

    ) は特異点上で定義されない。

  • 7/6/2006

    代数幾何と学習理論

    8

    K(g(u)) = Π

    ui2ki

    対数尤度

    関数の分

    f(x,g(u)) = a(x,u) Π

    uiki

    d i=1

    d i=1

    各局所座標で

    |g(u)’|= b(u)Π

    |uihi |

    d i=1

    ヤコビアン

    w →

    f(x,w)

    Ls (q)値解析関数

  • 7/6/2006

    代数幾何と学習理論

    9

    経験過程

    ψn(g

    (u))

    =

    Σ(a

    (Xi,u

    )-Π

    ui

    ki )

    1 n½

    n i=1

    C(U

    *): コンパクト集合U

    * 上の連続関数全体

    ||f|| =

    max |f(

    u)|

    u ∈

    U*

    を距離として完備可分な距離空間

  • 7/6/2006

    代数幾何と学習理論

    10

    nK

    n(g

    (u))→

    n Π

    ui

    2ki+

    n½Π

    ui

    kiψ

    (u)

    (C

    (U*)

    , B

    , ψ

    n)確率空間

    ψn→ψ:法則収束

    ψ:タイトな正規確

    率過程

    i.e

    . E

    [F(ψ

    n)]→

    E[F

    (ψ)]

    for F:有界連続

    i.e

    . ∀

    ε>

    0, ∃

    Kcom

    pact ⊆

    C(U

    *) s

    .t. ψ

    (K)>

    1-ε

    .

  • 7/6/2006

    代数幾何と学習理論

    11

    法則収束と平均値の収束

    ψn→ψ:法則収束とする

    (1)

    Fが連続なら

    F(ψ

    n) →

    F(ψ

    )

    (2)

    Fが連続かつ

    Fn(ψ

    ) =

    F0(ψ

    ) +

    an

    F1(ψ

    )

    (an→

    0) なら

    Fn(ψ

    n) →

    F0(ψ

    )

    (3)

    Fが連続かつ

    Fn(ψ

    ) =

    F0(ψ

    ) +

    an F

    1(ψ

    )(a

    n→

    0)

    かつ

    Fn(ψ

    n)が漸近一様可積分なら

    E[

    Fn(ψ

    n)

    ]→

    E[F

    (ψ)]

  • 7/6/2006

    代数幾何と学習理論

    12

    法則収束と平均値の収束

    ψn→ψ:法則収束

    E[F

    (ψn)]

    <C

    ,E

    [F(ψ

    )] <

    C’

    F(ψ

    ): C

    (U*)

    上の連続関数

    E[F

    (ψn)]→

    E[F

    (ψ)]

    ×

    limlim

    sup

    E[ |F

    (ψn)|

    ] =

    0|F

    (ψn)|

    >M

    M→∞

    n→∞

    漸近一様可積分

  • 7/6/2006

    代数幾何と学習理論

    13

    最尤法

    nK

    n(g

    (u))

    = n

    uik

    i -n

    -½ψ

    (u)/

    2 }

    2-

    |ψ(u

    )|2 /4

    -(1

    /4n

    ) m

    ax |ψ

    (u)|

    2

    K(g

    (u))

    =0

    経験誤差

    Kn(g

    (u*)

    )

    K(g

    ( u*

    ))=

    Πu* i

    2ki

    汎化誤差

    (1/4

    n)

    ma

    x |ψ

    (u)|

    2

    K(g

    (u))

    =0

  • 7/6/2006

    代数幾何と学習理論

    14

    定理

    = -

    (1/4

    n)

    max |ψ

    (u)|

    2

    K(g

    (u))

    =0

    = (

    1/4

    n)

    ma

    x |ψ

    (u)|

    2

    K(g

    (u))

    =0

    最尤経験誤差

    最尤汎化誤差

    nO

    対称性が成り立つ

  • 7/6/2006

    代数幾何と学習理論

    15

    ベイズ推測

    F =

    -lo

    g ∫

    exp

    ( -n

    Kn(w

    ) ) φ

    (w)

    dw

    nK

    n(g

    (u))

    = n

    Πu

    i2ki+

    n½Π

    ui

    kiψ

    (u)

    = -

    log

    Σ∫

    exp(

    -nK

    n(g

    (u))

    )φ(g

    (u))

    |g’(u)|

    du

  • 7/6/2006

    代数幾何と学習理論

    16

    自由エネルギー

    Fn

    = -

    log Σ∫

    dt∫

    duδ

    (t–

    ui2

    ki ) u

    ihi

    exp(-

    t -t

    ½ψ

    n(u

    ))φ

    (g(u

    ))

    λlo

    gn

    –(m

    -1)loglo

    gn +

    random variable

    漸近展開

  • 7/6/2006

    代数幾何と学習理論

    17

    自由エネルギーと汎化誤差

    Σ∫

    dt∫

    duδ

    (t–

    n+

    ui2

    ki ) u

    ihi

    exp(-

    t -t

    ½ψ

    n(u

    ))φ

    (g(u

    ))

    Σ∫

    dt∫

    duδ

    (t–

    ui2

    ki ) u

    ihi

    exp(-

    t -t

    ½ψ

    n(u

    ))φ

    (g(u

    ))

    Gn=

    -lo

    g

    G0/n

    E[G

    0]=λ

  • 7/6/2006

    代数幾何と学習理論

    18

    n 例題数

    C/n

    最尤

    λ/nベイズ

    d/2

    n

    正則モデル

    汎化

    誤差

    学習理論の基本的な結果

  • 7/6/2006

    代数幾何と学習理論

    19

    n 例題数

    汎化

    誤差

    実際的なケース

  • 7/6/2006

    代数幾何と学習理論

    20

    まとめ

    q(x

    ) →サンプル←

    p(x

    |w) で学習

    学習結果が、どれだけ真の分布に近いかを、

    ゼータ関数を用いて予言できる

    学習には、数学的な法則が存在する

  • 7/6/2006

    代数幾何と学習理論

    21

    事後分布をどのようにして実現するか

    事後分布

    p(w

    ) =

    exp(

    -H

    (w)

    + F

    )

    H(w

    )= nK

    n(w

    ) -logφ

    (w)

    F =

    -lo

    g ∫

    exp(-

    H(w

    )) d

    w

    確率的な方法など

  • 7/6/2006

    代数幾何と学習理論

    22

    平均場近似

    事後分布

    p(w

    ) =

    exp(

    -H

    (w)

    + F

    )

    J(s

    ) =

    ∫{

    s(w

    )log

    s(w

    ) +

    s(w

    )H(w

    ) }

    dw

    補題

    J(s

    ) は

    s(w

    )=p

    (w) のとき最小値

    F をとる。

    汎関数

    F = min

    J(s)

    s∈確率分布全体

  • 7/6/2006

    代数幾何と学習理論

    23

    平均場近似

    J(s

    ) =

    ∫s(w

    )log

    dw

    + F

    s(w

    )

    exp(-

    H(w

    )+F

    )

    { s(w

    ) } として確率分布全体ではなく、制限された集合

    Sとしたとき

    J(s

    ) を最小にするもの

    s*(

    w) を平均場近似という。

    F* = min J(s)

    s∈

    S

    平均場自由エネルギー

  • 7/6/2006

    代数幾何と学習理論

    24

    平均場近似の例

    S=

    { s ; s

    (w)

    = s

    1(w

    1)s

    2(w

    2)・・・s

    d(w

    d)

    }

    S=

    { s ; s

    (w) は正規分布(共分散行列が

    }

    平均場近似は自由エネルギー

    Fが不明でも計算できるが、

    平均場近似の精度を知るには

    F が必要である。

  • 7/6/2006

    代数幾何と学習理論

    25

    相対エントロピー

    ∫s(w

    )log

    dw

    s(w

    )

    p(w

    )=「s からp」

    p に対して

    sは局所化し

    s に対して

    p は広がる

  • 7/6/2006

    代数幾何と学習理論

    26

    p(x

    ,y)=

    exp(

    -nx

    2y

    2-(

    x2+

    y2)/

    2+

    F)

    s(x

    ,y)=

    ( 1/(2πσ

    2))

    exp(

    -(x

    2+

    y2)/

    (2σ

    2 ))

    J(σ

    )= nσ

    4 +σ

    2 -

    2lo

    g σ

    +定数

    「sからpまで」=

    J(σ

    *)+F = loglogn +・・・

    最小:σ

    * =1/(

    2n)1

    /4

    ps

  • 7/6/2006

    代数幾何と学習理論

    27

    ベイズ予測p(x)

    ベイズ事後p(w)

    平均場事後p*(w)平均場予測p*(x)

  • 7/6/2006

    代数幾何と学習理論

    28

    ベイズ予測p(x)

    ベイズ事後p(w)

    自由エネルギーF

    汎化誤差G

    ベイズ法では

    G(n

    ) =

    F(n

    +1)-

    F(n

    )

  • 7/6/2006

    代数幾何と学習理論

    29

    平均場事後p*(w)平均場予測p*(x)

    平均場

    自由エネルギーF*平均場汎化誤差G*

    平均場法では

    G*(

    n) ≠

    F*(

    n+

    1)-

    F*(

    n)

  • 7/6/2006

    代数幾何と学習理論

    30

    F(n

    ) =

    λlo

    g n

    G(n

    ) =

    λ/

    n

    ベイズ

    F*(

    n)

    = λ

    *lo

    g n

    G*(

    n)

    = λ

    **/ n

    平均場

    一般に

    F(n

    )≦F

    *(n

    )

    事前分布が真なら

    G(n

    )≦G

    *(n

    )

  • 7/6/2006

    代数幾何と学習理論

    31

    正則モデルの自由エネルギーを1に正規化

    自由エネルギーの係数

    ベイズ自由エネルギー

    変分自由エネルギー

    渡辺一帆

    (ALT

    04,

    NIP

    S05)

    混合正規分布モデルの大きさ

    山崎啓介

    (Neura

    l N

    etw

    ork

    s,

    02)

  • 7/6/2006

    代数幾何と学習理論

    32

    正則モデルの汎化誤差を1に正規化

    汎 化 誤 差 の 係 数

    ベイズ汎化誤差

    変分

    汎化誤差

    中島伸一

    (IJC

    AI0

    5,I

    CO

    NIP

    05)

    縮小ランク回帰モデルの大きさ

    青柳美輝

    (Neura

    l N

    etw

    ork

    s,

    05)

    最尤推定の汎化誤差福水健次

    (ALT

    1999)

  • 7/6/2006

    代数幾何と学習理論

    33

    まとめ

    S を確率分布全体の部分集合とする。関数

    H(w

    ) が与えられたとき

    J(H

    ) =

    min∫

    { s(w

    )log

    s(w

    ) +

    s(w

    )H(w

    ) }

    dw

    s∈

    S

    を求めよ。そのために必要な数学的な基礎を作れ。特に

    それは、

    H(w

    )=0 の特異点の何であるか。

    (参考

    ) S

    が確率分布全体のときは、

    J(H

    ) はゼータ関数に

    よって特徴づけられたのだが・・・・・。

  • 7/6/2006

    代数幾何と学習理論

    34

    全体のまとめ

    集合

    { p(x

    |w)}

    が特異点を含む

    集合

    { p(x

    |w)}

    の構造

    推測、検定、予測を扱うための適切な方法

    数学的な課題