ガウス近似できない事後分布の...

ガウス近似できない事後分布の漸近挙動について

渡辺澄夫

東京工業大学

東京大学数理情報学談話会2019年11月26日（火） 17:00-18:00

この講演では東京大学鈴木大慈先生のお世話になりました。御礼申し上げます。

もくじ

１「学習」の数学

２道に迷う

３代数解析学

４代数幾何学

５実世界へ

１「学習」の数学

数学

「学習理論」とは

…

先生

学習さん

先生と同じになるには

りんご，みかん，ぶどう，でしょう

先生学習さん

{ 学習 } で成り立つ法則を知りたい

学習

「学習」の数学

先生学習さん

y

O

q(y|x)

x

y

O

p(y|x,w)

x

パラメータ w の

りんご

鬼練習：

1000個・・・りんご

根性

・・・

練習：

1000000個・・・

学習の過程

「学習後の状態」は ρ(w)

ϕ(w) p(X1|w) p(X2|w) ・・・ p(Xn|w)ρ(w) ∝

データ X1, X2, ・・・, Xn を学習した後の w の状態を

と定義する（事後分布という。ϕ(w) は事前分布）。

「予測」を ρ(w) の平均で定義した・・・

p(x|w) ρ(w) dwp*(x) =

学習後には予測を

によって行う。

11

「予測がどのくらい正しいか」を測りたい

学習していないもの

りんご!!

汎化誤差我子を谷へ

絶壁登る

真と予測の差を

何で測る？

りんご！

12

カルバック・ライブラ擬距離＝相対エントロピー

K(w) = ∫ q(x) log ( q(x) / p (x|w) ) dx

G = ∫ q(x) log ( q(x) / p*(x) ) dx

真とモデルの差

「真と予測の差＝汎化誤差」を知りたい

13

よみがえる伝説 I 相対エントロピー

Boltzmann

情報の量と同じです。(1950頃）

ShannonFisher

２階微分は推定精度です。(1925頃）

系が平衡状態へ近づく速さを相対エントロピーで測りましょう（19世紀）。

未知の q(x) データ

汎化誤差 G

予測 p*(x)

事後分布

ρ(w)

学習とは

15

学習曲線とは

データの個数 n

E[G]Ｑ「学習曲線を定めている

ものは何だろうか」に答えるための数学を見つけたい。

16

１まとめ

「学習」の数学を求めて旅に出た。

２道に迷う

18

正則ケースでは学習曲線が解明されていた

wx y

正則ケースとは：

(x,y) の組が無限個あるとき

w ∈Rd がひとつ w0 に定まり

K(w)のヘッセ行列が正定値データの数 n

d2n

E[G]

19

正則ケースは事後分布がガウス関数で近似できる

事後分布≒ガウス関数

Rd→ exp( - n (w-w0)2 )

事後分布 ρ(w)

∝ exp( - n K(w) )

しかし現代の学習モデルでは

○ (x,y) の組が増えても

w はひとつに収束しない。

○ 正則ケースは実験と

合わない。

〇「わからない」は論文

になりにくい。

参考文献 [1][2]Ｘ

Ｙ

w

隠れマルコフモデル

混合正規分布

確率文法ベイズネット

階層モデル

X Y

ZW

U

V S T

＝

行列分解

構造を持つ学習モデルはみな同じ

学習モデルとパラメータ集合

参考文献 [3]

パラメータ集合の意味

特異点を含む解析的集合

事後分布はガウス分布にならない

ρ(a,b)=exp( -n b 2 (b-a3)2 )

25

ガウス近似できないときは未解決だった

具体的な計算だからがんばればできるはず・・・

甘い見通し

26

できる場合からやってみた

モデル: Y = a tanh(bＸ) + c tanh(dＸ) 真: Y = 0

X

Ya b

c db = b’ d

c = a b’ { (b’-1) c’ d – 1 }

により E[G] = 2/3n +o(1/n) がわかる。

奇妙な変数変換

27

計算しても計算しても計算しても・・・

「一般化すればいいだけだ」

計算式は果てしなく複雑に・・・

現実の学習モデルは

複雑な特異点を持っているX

Ya c

d f

b

e

28

２まとめ

「学習理論を作ることはできない」

⇒ 研究がなかったのは不可能だから。

⇒ 諦めて帰ろう・・・。

⇒ ・・・さようなら学習理論・・・。

・・・絶望そして長い時間が流れていった・・・。

絶望・・・・・え？

３代数解析学

ベルンシュタイン・佐藤のｂ関数

任意の多項式 f(x)∈R[x1,x2,…,ｘN] に対してある微分作用素 D と１変数多項式 b(z) が存在して任意の z∈Ｃについて

D f(x)z+1 = b(z) f(x)z

佐藤(1970) Bernstein(1971) が独立に発見。参考文献[4][5]

31

b関数は代数的な世界に住んでいます。

存在はＤ加群を用いて証明されます。佐藤先生

Bernstein

よみがえる伝説 II b関数の住むところ

b関数の性質

☆ 最も次数が低く最高次の係数が１の b(z) はユニークである。

☆ 任意の解析関数 f(x) に対しても成立(Bjork) [6]。

☆ b(z) の零点は負の有理数（柏原先生） [7]。

☆ b(z) を見つけるアルゴリズム（大阿久先生） [8]。

：

なぜｂ関数が学習理論なのか

例： K(a,b,c)= (a2+b2+c2) のとき

(∂a2+∂b

2+∂c2) Kz+1 = ４(z+1)(z+3/2) Kz

「KL情報量 ⇒ｂ関数の零点⇒学習曲線」だから。

⇒ 学習曲線は E[G] = 3/2n +o(1/n).

学習理論でもゼータ関数を考えることにした

ゼータ関数を次式で定義

ζ(z) = ∫ K(w)z φ(w) dwRe(z)>0 で解析的である。D の共役作用素を D* とすると

ζ(z) = ∫ K(w)z+1 D*φ(w) dw.1 b(z)

Re(z)>-1 まで解析接続できた。

解析接続 Im(z)

Re(z)-λO

これを繰り返すと ζ(z) は複素平面全体に有理型関数としてユニークに解析接続できる。極は b(z) の零点。

ゼータから事後分布がわかる

Z(n) = ∫ exp(-nK(w)) φ(w) dw.

ゼータを逆メリン変換してからラプラス変換すると

ゼータの原点に最も近い極（－λ）位数 m とすればn→ ∞ で

Z(n) ∝ n –λ (log n)m-1 .

学習曲線は Z(n) から計算できて

学習曲線が解明できた。

E[G] = λ/n +o(1/n). 定数 λ のことを実対数閾値という（双有理不変量）。

参考文献 [9]

未来への問題(1)

多項式列の b 関数列は法則を持ちますか？

無限極限 k →∞ での漸近特性は？

Dk fk (x)z+1 = bk (z) fk (x)z

３まとめ

学習曲線はゼータの最大極で定まる。

双有理不変量

ｂ関数ゼータ関数

D加群可解モデル

特異点解消定理

経験過程

4代数幾何学

41

学習理論は実世界で使えるのか

関数 K(w) は真の分布を

必要としている

実世界では真の分布は不明・・・。

まだまだじゃぐぬぬ

42

実世界を希求する

実世界を知るためには

真の分布が不明でも成り立つ恒等式が必要か・・・。

もっと数学を

よみがえる伝説 III ゼータ関数の解析接続

広中の定理を用いればできます。(1970)

Gel’fand Atiyah

最初に問題を見つけた先生

f(x)zは複素平面全体に

有理型に解析接続できるはず・・・ (1954)

参考文献 [10]

よみがえる伝説 IV ｂ関数の有理性

「b関数の零点はすべて有理数」は広中の定理に基づいて証明できます(1976)。

柏原先生

参考文献 [7]

45

代数幾何学へ

ｂ関数は特異点解消定理とつながっているのか・・・。

行くしかない

R

Rd

各局所座標で正規交差

∃w=g(u)

K(g(u))= u12k1 u2

2k2 ・・ ud2kd

∃多様体 M

∀ K(w) ≧0

パラメータ集合

特異点解消定理（広中の定理1964）

特異点解消の例

x4-x2y+y3=0

y

xO

x=uy=uw

x=sty=t

BO(V)

u3(u-w+w3)=0

s

t3(s4t-s2+1)=0

tO

例外直線

BO(V)

u

w

O

例外直線

V

広中の定理

代数多様体の特異点は、特異点集合に含まれる非特異集合のブローアップの有限回の合成により正規交差にできる。

参考文献 [11]

49

R

学習理論つくりやすい

学習理論つくりにくい

学習理論は双有理同値

双有理写像

u12k1 u2

2k2 ・・ ud2kdK(w)

対数尤度関数の標準形

L(w) = ー Σ log p(Xi|w)

L(w)－L(w0) = nK(g(u)) － nK(g(u)) ξn(u)

n

i=1

対数尤度関数は元空間では扱いにくかった。

特異点解消した空間では well-defined な関数 ξn(u) が存在して

繰り込み可能になった。

⇒ 確率過程 ξ(u) について関数空間上の部分積分を適用する

と次ページの定理が得られる。

L(w)－L(w0) ⇒ nK(g(u)) － nK(g(u)) ξ(u)

確率過程 ξn(u) は正規確率過程 ξ(u) に分布収束する。

⇒ 変数 u の空間では「 n →∞で増大する項」と「揺らぐ項」

を分離できた（繰り込み可能になった）。

汎化と学習の普遍的な関係式

定理. 事後分布がガウス近似できなくても

Ｅ［G] = E[ T ] + E[ V ]

G 汎化損失

T 学習損失

V 事後分布の揺らぎ

参考文献 [12]

数学と実世界がつながった

Ｅ［G] = E[ T ] + E[ V ]

実世界では G を直接に知ることはできないが

T と V は計算できる。

証明に必要となる数学は透明になり結果には現れない。

54

w=g(u)


正規確率過程 ξ(u)正規確率過程 ξ(ｇ-1(w))

w上の正規確率過程 ξ(ｇ-1(w)) は特異点上 well-defined ではないが、ξ(ｇ-1(w)) から特異点の数学的情報が取り出せないだろうか。

４まとめ

特異点解消定理から

学習の恒等式が得られた。

５実世界へ

海を越えて・・・

学習曲線と相転移

X Y

ZW

U

V S T

＝

Special Thanks 学習と相転移の解明（敬称略）

山崎啓介混合正規分布[21]隠れマルコフ[22]トーリック改変[23]

青柳美輝縮小ランク回帰[24]ヴァンデアモンド[25]

永田賢二レプリカ交換率[26]山田耕史擬正則モデル[27]林直輝非負値行列[28]佐藤件一郎混合ポアソン[29]

渡辺一帆変分ベイズ[30]中島伸一変分汎化誤差[31]星野力文脈自由文法[32]西山悠再帰確率伝播[33]梶大介相転移図[34]松田健重みつきBU[35]藤原香織検定統計量[36]中村文士一般ディリクレ[37]幸島匡宏行列分解転移[38]

59

データから実世界に挑む

実世界を解析する困難に挑戦する・・・

実世界のデータ

10 0 20 30 100

学習時に間違えた数

60 100 30 50 80

テスト時に間違えた数

何を見てモデルを決めるのか(A)☆ 汎化 G を最小にするモデルを選ぼう（赤池先生,1974)

61

正則なケース(A)赤池情報量規準(1974 [13]) AIC= T+d/n とおくと

Ｅ［G] = E[ AIC]

データが独立でモデルが正則なら AIC はクロスバリ

デーションと漸近等価である (1977,Stone [14])。

AICは極めて多くのモデリングをサポート。

62

現代のモデルでも(A)広く使える情報量規準(2010 [12]) WAIC=T+V とおくと

Ｅ［G] = E[ WAIC ]

データが独立なら正則でなくても WAIC はクロスバリ

デーションと漸近等価である [15]。

数年前から広く使われるようになってきました。

何を見てモデルを決めるのか(B)

☆ 自由エネルギーの小さいモデルを選ぼう（Good,1950頃)

F= - log ∫ϕ(w) p(X1|w) p(X2|w)・・・ p(Xn|w) dw

自由エネルギー ⇔ n 個分の汎化誤差

64

正則なケース(B)

ベイズ情報量規準(1978, Schwarz [16])

BIC = nT+(d/2) log n とおくと F = BIC + Op(1)

65

現代のモデルでも(B)

特異BIC(2017, Drton他 [17]) sBIC=nT+λ* log n は

F = ｓBIC +Op(log log n)

広く使える WBIC = Ew1/ log n[L(w)] (2013 [18] ) は

F = WBIC +Op((log n)1/2)

66


一般Ｅ［G] = E[ T + V ]

もっと深く広い法則があるのでは？

ガウス近似Ｅ［G] = E[ T ] + d/n

数学実世界

まとめ数学と実世界は透明な法則でつながれている

結論

数学を探す旅を紹介しました。

参考文献

参考文献

[2] Hagiwara, K., Toda, N., & Usui, S. (1993) On the problem of applying AIC to determine the structure of a layered feed-forward neural network. Proc. Of IJCNN Nagoya Japan, 3, 2263–2266.

[1] Hartigan J. A. (1985). A failure of likelihood asymptotics for normal mixtures. In Proc. of the Barkeley Conference in Honor of J. Neyman and J. Kiefer, Vol. 2, pp. 807–810,.

[3] Watanabe,S. (2009), Algebraic geometry and statistical learning theory, Cambridge University Press,

[4] Sato, M., & Shintani, T. (1974). On zeta functions associated with prehomogeneous vector space. Annals of mathematics, 100, 131–170.

[5] Bernstein, I. N. (1972). The analytic continuation of generalized functions with respect to a parameter. Functional Anal. Appl., 6, 26–40.

[6] Bj ¨ork, J. E. (1979). Rings of differential operators. Amsterdam: North-Holland.

[7] Kashiwara, M. (1976). B-functions and holonomic systems. Inventions Math., 38,33–53.

[8] Oaku,T. (1997). Algorithms for the b-function and D-modules associated with a polynomial. Journal of Pure Applied Algebra, 117:495-518.

[9] Watanabe,S. (2001). Algebraic analysis for nonidentifiable learning machines, Neural computation, 13, 899–933.

参考文献

[10] Atiyah, M. F. (1970). Resolution of singularities and division of distributions. Comm. Pure and Appl. Math., 13, 145–150.

[11] Hironaka, H. (1964). Resolution of singularities of an algebraic variety over afield of characteristic zero. Annals of Mathematics, 79, 109–326.

[12] Watanabe,S. (2010) Equations of states in singular statistical estimation. Neural Networks. 23(1):20-34.

[13] Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. on Automatic Control, 19, 716–723.

[14] Stone,H. (1997) An asymptotic equivalence of choice of model by cross-validation and Akaike’s criterion. Journal of the Royal Statistical Society. 39(B):44-47.

[15] Watanabe,S.(2010) Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research, 11:3571–3591.

[16] Schwarz,G. (1978) Estimating the dimension of a model. The Annals of Statistics, 6(2):461–464.

[17] Drton, M. Plummer, M. (2017) A Bayesian information criterion for singular models“. Journal of the Royal Statistical Society Series B. 79: 323-380.

[18] Watanabe,S. (2013) A widely applicable Bayesian information criterion. Journal of Machine Learning Research 14 (2013) 867-897.

参考文献

[21] Yamazaki,K. et.al. (2003) Singularities in mixture models and upper bounds of stochastic complexity. International Journal of Neural Networks, 16 (7), pp.1029-1038.

[22] Yamazaki,K. et.al. (2005) Algebraic geometry and stochastic complexity of hidden Markov models. Neurocomputing, 69,pp.62-84.

[23] Yamazaki,K. Aoyagi,M. et.al.(2010) Asymptotic Analysis of Bayesian Generalization Error with Newton Diagram. Neural Networks, 23 (1), pp.35-43.

[24] Aoyagi, M. et.al. (2005) Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Networks, 18 (7) ,pp.924-933.

[25] Aoyagi,M.(2010) A Bayesian Learning Coefficient of Generalization Error and Vandermonde Matrix-Type Singularities. Communications in Statistics - Theory and Methods, 39 (15), 2667 – 2687.

[26] Nagata.K. et.al. (2008) Exchange Monte Carlo Sampling From Bayesian Posterior for Singular Learning Machines," IEEE Transactions on Neural Networks, Vol.19 (7) pp.1253-1266.

[27] Yamada,K. et.al. (2012) Statistical Learning Theory of Quasi-Regular Cases," IEICE Transactions, Vol.E95-A, No.12, pp.2479-2487.

[28] Hayashi, N. et.al. (2017) Upper Bound of Bayesian Generalization Error in Non-Negative Matrix Factorization. Vol.266, 29 pp.21-28.

[29] Sato,K. et.al. (2017) Real Log Canonical Threshold and Bayesian Generalization Error of Mixture of Poisson Distributions. IEICE Technical Report. 117, IBISML2017-90, pp. 1-6.

参考文献

[30] Watanabe,K..et.al. Stochastic complexities of gaussian mixtures in variational Bayesian approximation. Journal of Machine Learning Research, 7, pp.625-644, 2006.

[31] Nakajima, S. et.al. Variational Bayes Solution of Linear Neural Networks and Its Generalization Performance.’’NeuralComputation, vol.19, no.4, pp.1112-1153, 2007.

[32] Hosino,T. Watanabe, K. et.al. (2006) Free Energy of Stochastic Context Free Grammar on Variational Bayes. Proc. of ICONIP, Vol.1, pp.407-416, 2006. (October 3-6,2006, Honkong, China).

[33] Nishiyama,Y. et.al.(2009) Accuracy of Loopy Belief Propagation in Gaussian Models. Neural Networks, 22 (4) pp.385-394.

[34] 藤原,他 (2008) 特異モデルにおけるベイズ検定と時系列解析への応用. 電子情報通信学会論文誌D, Volume J91-D, (4), pp.889-896, 2008.

[35] Kaji,D. Watanabe, K. et.al. (2010) Phase transition of variational Bayes learning in Bernoulli mixtute. Australian Journal of Intelligent Information Processing Systems, 11(4) ,pp.35-41.

[36] 松田, 他 (2010) 重みつきブローアップの混合多項分布への応用. 電子情報通信学会誌A, Vol.J93-A,,(4),pp.300-308.

[37] 中村，他 (2014) 一般ディリクレ分布を用いた混合正規分布の変分自由エネルギーの漸近挙動について. 電子情報通信学会論文誌D, Vol.J97-D, No.5, pp.1001-1013, 2014.

[38] Kohjima.K. et.al. (2017) Phase Transition Structure of Variational Bayesian Nonnegative Matrix Factorization. Artificial Neural Networks and Machine Learning - ICANN, Vol.2, Lecture Notes in Computer Science, Springer, pp.146-154.

関連リンク

統計学で「主義」が心配なかたに

ベイズ統計の基礎

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes000.pdf

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu6.html

ベイズ統計の数理


著者の関連ページを紹介します。

http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes000.pdf



ガウス近似できない事後分布の...

Documents