ガウス近似できない事後分布の...
TRANSCRIPT
![Page 1: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/1.jpg)
ガウス近似できない事後分布の漸近挙動について
渡辺澄夫
東京工業大学
東京大学 数理情報学 談話会2019年11月26日(火) 17:00-18:00
この講演では東京大学鈴木大慈先生のお世話になりました。御礼申し上げます。
![Page 2: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/2.jpg)
もくじ
1 「学習」の数学
2 道に迷う
3 代数解析学
4 代数幾何学
5 実世界へ
![Page 3: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/3.jpg)
1 「学習」の数学
数学
![Page 4: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/4.jpg)
「学習理論」 とは
…
先生
学習さん
先生と同じになるには
りんご,みかん,ぶどう,でしょう
![Page 5: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/5.jpg)
先生 学習さん
{ 学習 } で成り立つ法則を知りたい
学習
「学習」の数学
![Page 6: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/6.jpg)
先生 学習さん
y
O
q(y|x)
x
y
O
p(y|x,w)
x
パラメータ w の
![Page 7: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/7.jpg)
先生 ← 学習さん
q(y|x) ← p(y|x,w)
q(x) q(y|x) ← q(x) p(y|x,w)
q(x) ← p(x|w)
(x,y) を改めて1個の x と思うことにすると
![Page 8: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/8.jpg)
りんご
鬼練習:
1000個・・・りんご
根性
・・・
練習:
1000000個 ・・・
学習の過程
![Page 9: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/9.jpg)
「学習後の状態」 は ρ(w)
ϕ(w) p(X1|w) p(X2|w) ・・・ p(Xn|w)ρ(w) ∝
データ X1, X2, ・・・, Xn を学習した後の w の状態を
と定義する(事後分布という。ϕ(w) は事前分布)。
![Page 10: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/10.jpg)
「予測」を ρ(w) の平均で定義した・・・
p(x|w) ρ(w) dwp*(x) =
学習後には 予測を
によって行う。
![Page 11: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/11.jpg)
11
「予測がどのくらい正しいか」 を測りたい
学習していないもの
りんご!!
汎化誤差我子を谷へ
絶壁登る
真 と 予測の差を
何で測る?
りんご!
![Page 12: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/12.jpg)
12
カルバック・ライブラ擬距離=相対エントロピー
K(w) = ∫ q(x) log ( q(x) / p (x|w) ) dx
G = ∫ q(x) log ( q(x) / p*(x) ) dx
真 と モデル の差
「真 と 予測 の差=汎化誤差」 を知りたい
![Page 13: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/13.jpg)
13
よみがえる伝説 I 相対エントロピー
Boltzmann
情報の量と同じです。(1950頃)
ShannonFisher
2階微分は推定精度です。(1925頃)
系が平衡状態へ近づく速さを相対エントロピーで測りましょう(19世紀)。
![Page 14: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/14.jpg)
未知の q(x) データ
汎化誤差 G
予測 p*(x)
事後分布
ρ(w)
学習とは
![Page 15: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/15.jpg)
15
学習曲線とは
データの個数 n
E[G]Q 「学習曲線を定めている
ものは何だろうか」に答えるための数学を見つけたい。
![Page 16: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/16.jpg)
16
1 まとめ
「学習」の数学を求めて 旅に出た。
![Page 17: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/17.jpg)
2 道に迷う
![Page 18: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/18.jpg)
18
正則ケースでは学習曲線が解明されていた
wx y
正則ケースとは:
(x,y) の組が無限個あるとき
w ∈Rd がひとつ w0 に定まり
K(w)のヘッセ行列が正定値 データの数 n
d2n
E[G]
![Page 19: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/19.jpg)
19
正則ケースは事後分布がガウス関数で近似できる
事後分布≒ガウス関数
Rd→ exp( - n (w-w0)2 )
事後分布 ρ(w)
∝ exp( - n K(w) )
![Page 20: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/20.jpg)
しかし 現代の学習モデルでは
○ (x,y) の組が増えても
w はひとつに収束しない。
○ 正則ケースは実験と
合わない。
〇 「わからない」は論文
になりにくい。
参考文献 [1][2]X
Y
w
![Page 21: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/21.jpg)
隠れマルコフモデル
混合正規分布
確率文法ベイズネット
階層モデル
X Y
ZW
U
V S T
=
行列分解
構造を持つ学習モデルはみな同じ
![Page 22: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/22.jpg)
学習モデル と パラメータ集合
参考文献 [3]
![Page 23: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/23.jpg)
パラメータ集合の意味
特異点を含む解析的集合
![Page 24: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/24.jpg)
事後分布はガウス分布にならない
ρ(a,b)=exp( -n b 2 (b-a3)2 )
![Page 25: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/25.jpg)
25
ガウス近似できないときは未解決だった
具体的な計算だからがんばれば できるはず・・・
甘い見通し
![Page 26: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/26.jpg)
26
できる場合から やってみた
モデル: Y = a tanh(bX) + c tanh(dX) 真: Y = 0
X
Ya b
c db = b’ d
c = a b’ { (b’-1) c’ d – 1 }
により E[G] = 2/3n +o(1/n) がわかる。
奇妙な変数変換
![Page 27: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/27.jpg)
27
計算しても 計算しても 計算しても・・・
「一般化すれば いいだけだ」
計算式は 果てしなく複雑に・・・
現実の学習モデルは
複雑な 特異点 を持っているX
Ya c
d f
b
e
![Page 28: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/28.jpg)
28
2 まとめ
「学習理論を 作ることはできない」
⇒ 研究がなかったのは 不可能だから。
⇒ 諦めて 帰ろう ・・・。
⇒ ・・・ さようなら 学習理論 ・・・。
・・・ 絶望 そして 長い時間が流れていった ・・・。
![Page 29: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/29.jpg)
絶望・・・・・ え?
3 代数解析学
![Page 30: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/30.jpg)
ベルンシュタイン・佐藤のb関数
任意の多項式 f(x)∈R[x1,x2,…,xN] に対してある微分作用素 D と1変数多項式 b(z) が存在して 任意の z∈C について
D f(x)z+1 = b(z) f(x)z
佐藤(1970) Bernstein(1971) が独立に発見。 参考文献[4][5]
![Page 31: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/31.jpg)
31
b関数は代数的な世界に住んでいます。
存在はD加群を用いて証明されます。 佐藤先生
Bernstein
よみがえる伝説 II b関数の住むところ
![Page 32: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/32.jpg)
b関数の性質
☆ 最も次数が低く最高次の係数が1の b(z) はユニークである。
☆ 任意の解析関数 f(x) に対しても成立(Bjork) [6]。
☆ b(z) の零点は負の有理数(柏原先生) [7]。
☆ b(z) を見つけるアルゴリズム(大阿久先生) [8]。
:
![Page 33: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/33.jpg)
なぜ b関数が 学習理論なのか
例: K(a,b,c)= (a2+b2+c2) のとき
(∂a2+∂b
2+∂c2) Kz+1 = 4(z+1)(z+3/2) Kz
「KL情報量 ⇒b関数の零点⇒学習曲線」 だから。
⇒ 学習曲線は E[G] = 3/2n +o(1/n).
![Page 34: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/34.jpg)
学習理論でもゼータ関数を考えることにした
ゼータ関数を次式で定義
ζ(z) = ∫ K(w)z φ(w) dwRe(z)>0 で解析的である。D の共役作用素を D* とすると
ζ(z) = ∫ K(w)z+1 D*φ(w) dw.1 b(z)
Re(z)>-1 まで解析接続できた。
![Page 35: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/35.jpg)
解析接続 Im(z)
Re(z)-λO
これを繰り返すと ζ(z) は複素平面全体に有理型関数としてユニークに解析接続できる。極は b(z) の零点。
![Page 36: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/36.jpg)
ゼータから事後分布がわかる
Z(n) = ∫ exp(-nK(w)) φ(w) dw.
ゼータを 逆メリン変換してから ラプラス変換すると
ゼータの原点に最も近い極(-λ)位数 m とすればn→ ∞ で
Z(n) ∝ n –λ (log n)m-1 .
![Page 37: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/37.jpg)
学習曲線は Z(n) から計算できて
学習曲線が解明できた。
E[G] = λ/n +o(1/n). 定数 λ のことを 実対数閾値 という(双有理不変量)。
参考文献 [9]
![Page 38: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/38.jpg)
未来への問題(1)
多項式列の b 関数列は法則を持ちますか?
無限極限 k →∞ での漸近特性は?
Dk fk (x)z+1 = bk (z) fk (x)z
![Page 39: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/39.jpg)
3 まとめ
学習曲線はゼータの最大極で定まる。
![Page 40: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/40.jpg)
双有理不変量
b関数 ゼータ関数
D加群 可解モデル
特異点解消定理
経験過程
4代数幾何学
![Page 41: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/41.jpg)
41
学習理論は実世界で使えるのか
関数 K(w) は真の分布を
必要としている
実世界では真の分布は不明・・・。
まだまだじゃ ぐぬぬ
![Page 42: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/42.jpg)
42
実世界を希求する
実世界を知るためには
真の分布が不明でも成り立つ恒等式が必要か・・・。
もっと数学を
![Page 43: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/43.jpg)
よみがえる伝説 III ゼータ関数の解析接続
広中の定理を用いればできます。(1970)
Gel’fand Atiyah
最初に問題を見つけた先生
f(x)zは複素平面全体に
有理型に解析接続できるはず・・・ (1954)
参考文献 [10]
![Page 44: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/44.jpg)
よみがえる伝説 IV b関数の有理性
「b関数の零点はすべて有理数」は広中の定理に基づいて証明できます(1976)。
柏原先生
参考文献 [7]
![Page 45: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/45.jpg)
45
代数幾何学へ
b関数は特異点解消定理とつながっているのか・・・。
行くしかない
![Page 46: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/46.jpg)
R
Rd
各局所座標で正規交差
∃w=g(u)
K(g(u))= u12k1 u2
2k2 ・・ ud2kd
∃多様体 M
∀ K(w) ≧0
パラメータ集合
特異点解消定理(広中の定理1964)
![Page 47: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/47.jpg)
特異点解消の例
x4-x2y+y3=0
y
xO
x=uy=uw
x=sty=t
BO(V)
u3(u-w+w3)=0
s
t3(s4t-s2+1)=0
tO
例外直線
BO(V)
u
w
O
例外直線
V
![Page 48: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/48.jpg)
広中の定理
代数多様体の特異点は、特異点集合に含まれる非特異集合のブローアップの有限回の合成により正規交差にできる。
参考文献 [11]
![Page 49: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/49.jpg)
49
R
学習理論つくりやすい
学習理論つくりにくい
学習理論は双有理同値
双有理写像
u12k1 u2
2k2 ・・ ud2kdK(w)
![Page 50: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/50.jpg)
対数尤度関数の標準形
L(w) = ー Σ log p(Xi|w)
L(w)-L(w0) = nK(g(u)) - nK(g(u)) ξn(u)
n
i=1
対数尤度関数は元空間では扱いにくかった。
特異点解消した空間では well-defined な関数 ξn(u) が存在して
![Page 51: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/51.jpg)
繰り込み可能になった。
⇒ 確率過程 ξ(u) について関数空間上の部分積分を適用する
と次ページの定理が得られる。
L(w)-L(w0) ⇒ nK(g(u)) - nK(g(u)) ξ(u)
確率過程 ξn(u) は正規確率過程 ξ(u) に分布収束する。
⇒ 変数 u の空間では 「 n →∞で増大する項」 と 「揺らぐ項」
を分離できた (繰り込み可能になった)。
![Page 52: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/52.jpg)
汎化と学習の普遍的な関係式
定理. 事後分布がガウス近似できなくても
E[G] = E[ T ] + E[ V ]
G 汎化損失
T 学習損失
V 事後分布の揺らぎ
参考文献 [12]
![Page 53: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/53.jpg)
数学と実世界がつながった
E[G] = E[ T ] + E[ V ]
実世界では G を直接に知ることはできないが
T と V は計算できる。
証明に必要となる 数学は透明になり 結果には現れない。
![Page 54: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/54.jpg)
54
w=g(u)
未来への問題(2)
正規確率過程 ξ(u)正規確率過程 ξ(g-1(w))
w上の正規確率過程 ξ(g-1(w)) は特異点上 well-defined ではないが、ξ(g-1(w)) から特異点の数学的情報が取り出せないだろうか。
![Page 55: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/55.jpg)
4 まとめ
特異点解消定理から
学習の恒等式が得られた。
![Page 56: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/56.jpg)
5 実世界へ
海を越えて・・・
![Page 57: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/57.jpg)
学習曲線と相転移
X Y
ZW
U
V S T
=
![Page 58: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/58.jpg)
Special Thanks 学習と相転移の解明(敬称略)
山崎啓介 混合正規分布[21]隠れマルコフ[22]トーリック改変[23]
青柳美輝 縮小ランク回帰[24]ヴァンデアモンド[25]
永田賢二 レプリカ交換率[26]山田耕史 擬正則モデル[27]林 直輝 非負値行列[28]佐藤件一郎 混合ポアソン[29]
渡辺一帆 変分ベイズ[30]中島伸一 変分汎化誤差[31]星野 力 文脈自由文法[32]西山 悠 再帰確率伝播[33]梶 大介 相転移図[34]松田 健 重みつきBU[35]藤原香織 検定統計量[36]中村文士 一般ディリクレ[37]幸島匡宏 行列分解転移[38]
![Page 59: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/59.jpg)
59
データから 実世界に挑む
実世界を解析する困難に挑戦する・・・
実世界のデータ
![Page 60: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/60.jpg)
10 0 20 30 100
学習時に間違えた数
60 100 30 50 80
テスト時に間違えた数
何を見てモデルを決めるのか(A)☆ 汎化 G を最小にするモデルを選ぼう(赤池先生,1974)
![Page 61: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/61.jpg)
61
正則なケース(A)赤池情報量規準(1974 [13]) AIC= T+d/n とおくと
E[G] = E[ AIC]
データが独立で モデルが正則なら AIC はクロスバリ
デーションと漸近等価である (1977,Stone [14])。
AICは極めて多くのモデリングをサポート。
![Page 62: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/62.jpg)
62
現代のモデルでも(A)広く使える情報量規準(2010 [12]) WAIC=T+V とおくと
E[G] = E[ WAIC ]
データが独立なら 正則でなくても WAIC はクロスバリ
デーションと漸近等価である [15]。
数年前から 広く使われるようになってきました。
![Page 63: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/63.jpg)
何を見てモデルを決めるのか(B)
☆ 自由エネルギーの小さいモデルを選ぼう (Good,1950頃)
F= - log ∫ϕ(w) p(X1|w) p(X2|w)・・・ p(Xn|w) dw
自由エネルギー ⇔ n 個分の汎化誤差
![Page 64: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/64.jpg)
64
正則なケース(B)
ベイズ情報量規準(1978, Schwarz [16])
BIC = nT+(d/2) log n とおくと F = BIC + Op(1)
![Page 65: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/65.jpg)
65
現代のモデルでも(B)
特異BIC(2017, Drton他 [17]) sBIC=nT+λ* log n は
F = sBIC +Op(log log n)
広く使える WBIC = Ew1/ log n[L(w)] (2013 [18] ) は
F = WBIC +Op((log n)1/2)
![Page 66: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/66.jpg)
66
未来への問題(3)
一般 E[G] = E[ T + V ]
もっと深く広い法則があるのでは?
ガウス近似 E[G] = E[ T ] + d/n
![Page 67: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/67.jpg)
数学 実世界
まとめ数学と実世界は透明な法則でつながれている
![Page 68: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/68.jpg)
結論
数学を探す旅を紹介しました。
![Page 69: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/69.jpg)
参考文献
![Page 70: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/70.jpg)
参考文献
[2] Hagiwara, K., Toda, N., & Usui, S. (1993) On the problem of applying AIC to determine the structure of a layered feed-forward neural network. Proc. Of IJCNN Nagoya Japan, 3, 2263–2266.
[1] Hartigan J. A. (1985). A failure of likelihood asymptotics for normal mixtures. In Proc. of the Barkeley Conference in Honor of J. Neyman and J. Kiefer, Vol. 2, pp. 807–810,.
[3] Watanabe,S. (2009), Algebraic geometry and statistical learning theory, Cambridge University Press,
[4] Sato, M., & Shintani, T. (1974). On zeta functions associated with prehomogeneous vector space. Annals of mathematics, 100, 131–170.
[5] Bernstein, I. N. (1972). The analytic continuation of generalized functions with respect to a parameter. Functional Anal. Appl., 6, 26–40.
[6] Bj ¨ork, J. E. (1979). Rings of differential operators. Amsterdam: North-Holland.
[7] Kashiwara, M. (1976). B-functions and holonomic systems. Inventions Math., 38,33–53.
[8] Oaku,T. (1997). Algorithms for the b-function and D-modules associated with a polynomial. Journal of Pure Applied Algebra, 117:495-518.
[9] Watanabe,S. (2001). Algebraic analysis for nonidentifiable learning machines, Neural computation, 13, 899–933.
![Page 71: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/71.jpg)
参考文献
[10] Atiyah, M. F. (1970). Resolution of singularities and division of distributions. Comm. Pure and Appl. Math., 13, 145–150.
[11] Hironaka, H. (1964). Resolution of singularities of an algebraic variety over afield of characteristic zero. Annals of Mathematics, 79, 109–326.
[12] Watanabe,S. (2010) Equations of states in singular statistical estimation. Neural Networks. 23(1):20-34.
[13] Akaike, H. (1974). A new look at the statistical model identification. IEEE Trans. on Automatic Control, 19, 716–723.
[14] Stone,H. (1997) An asymptotic equivalence of choice of model by cross-validation and Akaike’s criterion. Journal of the Royal Statistical Society. 39(B):44-47.
[15] Watanabe,S.(2010) Asymptotic equivalence of Bayes cross validation and widely applicable information criterion in singular learning theory. Journal of Machine Learning Research, 11:3571–3591.
[16] Schwarz,G. (1978) Estimating the dimension of a model. The Annals of Statistics, 6(2):461–464.
[17] Drton, M. Plummer, M. (2017) A Bayesian information criterion for singular models“. Journal of the Royal Statistical Society Series B. 79: 323-380.
[18] Watanabe,S. (2013) A widely applicable Bayesian information criterion. Journal of Machine Learning Research 14 (2013) 867-897.
![Page 72: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/72.jpg)
参考文献
[21] Yamazaki,K. et.al. (2003) Singularities in mixture models and upper bounds of stochastic complexity. International Journal of Neural Networks, 16 (7), pp.1029-1038.
[22] Yamazaki,K. et.al. (2005) Algebraic geometry and stochastic complexity of hidden Markov models. Neurocomputing, 69,pp.62-84.
[23] Yamazaki,K. Aoyagi,M. et.al.(2010) Asymptotic Analysis of Bayesian Generalization Error with Newton Diagram. Neural Networks, 23 (1), pp.35-43.
[24] Aoyagi, M. et.al. (2005) Stochastic complexities of reduced rank regression in Bayesian estimation. Neural Networks, 18 (7) ,pp.924-933.
[25] Aoyagi,M.(2010) A Bayesian Learning Coefficient of Generalization Error and Vandermonde Matrix-Type Singularities. Communications in Statistics - Theory and Methods, 39 (15), 2667 – 2687.
[26] Nagata.K. et.al. (2008) Exchange Monte Carlo Sampling From Bayesian Posterior for Singular Learning Machines," IEEE Transactions on Neural Networks, Vol.19 (7) pp.1253-1266.
[27] Yamada,K. et.al. (2012) Statistical Learning Theory of Quasi-Regular Cases," IEICE Transactions, Vol.E95-A, No.12, pp.2479-2487.
[28] Hayashi, N. et.al. (2017) Upper Bound of Bayesian Generalization Error in Non-Negative Matrix Factorization. Vol.266, 29 pp.21-28.
[29] Sato,K. et.al. (2017) Real Log Canonical Threshold and Bayesian Generalization Error of Mixture of Poisson Distributions. IEICE Technical Report. 117, IBISML2017-90, pp. 1-6.
![Page 73: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/73.jpg)
参考文献
[30] Watanabe,K..et.al. Stochastic complexities of gaussian mixtures in variational Bayesian approximation. Journal of Machine Learning Research, 7, pp.625-644, 2006.
[31] Nakajima, S. et.al. Variational Bayes Solution of Linear Neural Networks and Its Generalization Performance.’’NeuralComputation, vol.19, no.4, pp.1112-1153, 2007.
[32] Hosino,T. Watanabe, K. et.al. (2006) Free Energy of Stochastic Context Free Grammar on Variational Bayes. Proc. of ICONIP, Vol.1, pp.407-416, 2006. (October 3-6,2006, Honkong, China).
[33] Nishiyama,Y. et.al.(2009) Accuracy of Loopy Belief Propagation in Gaussian Models. Neural Networks, 22 (4) pp.385-394.
[34] 藤原,他 (2008) 特異モデルにおけるベイズ検定と時系列解析への応用. 電子情報通信学会論文誌D, Volume J91-D, (4), pp.889-896, 2008.
[35] Kaji,D. Watanabe, K. et.al. (2010) Phase transition of variational Bayes learning in Bernoulli mixtute. Australian Journal of Intelligent Information Processing Systems, 11(4) ,pp.35-41.
[36] 松田, 他 (2010) 重みつきブローアップの混合多項分布への応用. 電子情報通信学会誌A, Vol.J93-A,,(4),pp.300-308.
[37] 中村,他 (2014) 一般ディリクレ分布を用いた混合正規分布の変分自由エネルギーの漸近挙動について. 電子情報通信学会論文誌D, Vol.J97-D, No.5, pp.1001-1013, 2014.
[38] Kohjima.K. et.al. (2017) Phase Transition Structure of Variational Bayesian Nonnegative Matrix Factorization. Artificial Neural Networks and Machine Learning - ICANN, Vol.2, Lecture Notes in Computer Science, Springer, pp.146-154.
![Page 74: ガウス近似できない事後分布の 漸近挙動についてwatanabe-...ガウス近似できない事後分布の 漸近挙動について 渡辺澄夫 東京工業大学 東京大学数理情報学談話会](https://reader033.vdocuments.net/reader033/viewer/2022042000/5e6d413e256c3f73fe52c305/html5/thumbnails/74.jpg)
関連リンク
統計学で「主義」が心配なかたに
ベイズ統計の基礎
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/bayes000.pdf
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu6.html
ベイズ統計の数理
http://watanabe-www.math.dis.titech.ac.jp/users/swatanab/joho-gakushu7.html
著者の関連ページを紹介します。