pure and applied mathematicswatanabe- · 1純粋数学と応用数学の遠い関係....
TRANSCRIPT
8
人間は【関数】を持っている
人間さん
りんご・・・みかん・・・ぶどう・・・
y = f(x)
集合 {x},{y}は明確には定義されないこともあります。
それよりも {x} の次元が極めて大きいことが問題です。
10
実行できるけど 説明できない ・・・
【実行できるけど説明できないこと】 = 人間 だった。
◎ 歩く 走る 泳ぐ 自転車に乗る
◎ 漫画を読む 友達を見つける 定義を感じとる
◎ 会話をする 夢を見る 証明を思いつく
説明できない → 教えられなかった
人間さん人工知能さん
教えられない!
13
生体の神経回路をまねて作ったモデル
画像 x
結合荷重 w
神経回路の答 f(x,w) 神経回路網の答えと正しい答えの誤差は
(y-f(x,w))2
誤差が小さくなるようにw を変えていく
正しい答 y 誤差
14
知らないものも予測できる どのくらい ?
◎ たくさんの例を学習すると神経回路網は少しずつ知らないものについても正しく答えられるようになってくる。
2 りんご!
テスト:
未知のもの りんご!!
差が汎化誤差勝負じゃ
人間には負けないぞ。
◎ 多項式やフーリエ級数でも学習はできますが なぜか神経回路網のほうが高精度です(数学的には未解決)。
1 りんご!
学習データ りんご!!
差が学習誤差一徹くん
根性
18
きっかけ1: ベルンシュタイン・佐藤のb関数
任意の解析関数 f(w) に対して、ある微分作用素 Dw と多項式 b(z) が存在して、任意の z∈Cについて
Dw f(w)z+1=b(z) f(w)z
この定理がとても重要なことを述べていることは普通の人でも感じ取れます。
統計学や機械学習の論文を読んでも答えはありませんでした。
まったくの偶然で下記の定理に出会いました。
19
R
代数幾何の本には、このように具体的な記載は書かれていませんがこのように書いてあれば普通の人でも理解できます。
Rd
各局所座標で
∃w=g(u)
K(g(u))= u12k1 u2
2k2 ・・ ud2kd
∃多様体 M
∀K(w) ≧0
パラメータ集合
きっかけ2: 特異点解消定理 (M.F.Atiyah, 柏原)
統計的学習
データ (X,Y) ~ q(x)q(y|x)
パラメータ w
(1) {Xi,Yi ; i=1,2,…n} 独立
(2) 予測モデル p(y|x,w)
(3) 事前分布 ϕ(w)
※ 神経回路では p(y|x,w) ∝exp( -C(y-f(x,w))2 )
統計的学習の例
Ew[ ] =( ) Π p(Yi|Xi,w) ϕ(w) dw
Π p(Yi|Xi,w) ϕ(w) dw
n
i=1
n
i=1
p*(y|x) = Ew[ p(y|x,w) ] 予測
事後分布による平均
25
汎化損失と学習損失
Gn = ー E(X,Y) [ log p*(Y|X) ]汎化損失
新しい(X,Y)に対する予測の誤差
Tn = ー(1/n) Σ log p*(Yi |Xi) 学習損失n
i=1
学習した(Xi,Yi )に対する予測の誤差
27
実対数閾値 λ
関数 ζ(z) を
ζ(z) = ∫ K(w) z φ(w) dw
この関数は Re(z)>0 で解析的であるが、複素平面
全体に有理型関数として一意に解析接続できる。その極はすべて負の実数である。最も原点に近い極を (-λ) とするとき λ を実対数閾値という。
K(w) : 真 q(y|x) とモデル p(y|x,w) のKL情報量
28
特異揺らぎ ν
事後分布による分散を Vw[ ] と書く。
V= Σi Vw[ log p(Yi |Xi,w) ]
2ν = lim n→∞ E[ V ]
λ と ν は双有理変換によらない。
○ 確率的な現象に対して「n →∞」の漸近展開の係数を考えると幾何学的な量が現れることが多い。
29
統計学と数学
学習損失から汎化損失を平均的に推測できる。
E[Gn] = E[ Tn + V/n ]
E[Gn] = E[Tn] + d/n
統計学でよく知られていた情報量規準 AIC の一般化である。
※ AIC とは、{ ∂wj f(x,w) } が線形独立であれば
→ 統計学や機械学習のモデル設計に役立ちそうである。