infomation geometry by r
DESCRIPTION
TRANSCRIPT
R で情報幾
何@toddler2009
自己紹介• Twitter id: @toddler2009• はじめまして 遠路はるばるご苦労様です• 今回は会場係です
何でもお申し付けください• ひとりだけおっさんですみません _o_• あこがれの Tsukuba.R で発表できて光栄です• プログラミングは素人同然ですが許してくだ
さい
職業• 主夫(兼業)
ときどきけんきゅう
←これはやってません
本とか
絶版寸前?!
翻訳とか恐ろしいほどの売り上げ!
ネ申@shima__shima
ぷるむる!
R によるトイプロブレム研究• 単純モデル• 人工データ• 少数サンプルに基づく機械学習
R によるトイプロブレム研究
結論:お勧めしません
長所• 軽い計算• 低能プログラマでも OK• 理論がすごいと勘違い ------------------------短所• 多すぎるので省略
• 単純モデル• 人工データ• 少数サンプルに基づく機械学習
情報幾何
Q. ジョーホーキカって何ですか?
A.情報処理を絵で理解することです.
情報処理を絵で理解する ( 違
世の中
情報処理を絵で理解する
↓こういうことです
モデル
データ
情報処理
結果
スタート:世の中は確率分布です
• すべてのもの ( 例 :y_benjo) は確率分布である
• 確率分布はパラメータ θ で表される → 座標で表しましょう
y_benjo
θ1
θ2
近い点と遠い点
等距離ですか?
y_benjo
θ1
θ2
mickey24 shima__shima
toddler2009
R で実験してみましょうアルゴリズム
• Step1: パラメータ θ を固定
• Step2: サンプル X 生成
• Step3: X からパラメータ推定 θ
• Step4: 推定値のばらつきをみる
^
離散分布の場合• 3 値•
独立な変数 2 個• 場所によって散
らばり方が違う
1210 qqq
正規分布の場合• 平均と標準偏差• 平均による違い
はない• 標準偏差が大き
いところのばらつきが大きい
トイプログラミングの理想と現実
• 理想
S4 オブジェクト指向・パッケージ化 いろいろな分布のクラスを定義 どんな分布のシミュレーションも OK
• 現実
スパゲティプログラミングでその場しのぎ
泥縄 R コード
infogeodemo <- function(p=c(0,1), N=1000, K=100, randfn=rnorm, aEstfn=mean, bEstfn=sd, xlab="mean", ylab="sdev") { plot(range(p[,1]), range(p[,2]), type="n", xlab=xlab, ylab=ylab) for (idx in 1:nrow(p)) { p1 <- p[idx, 1] p2 <- p[idx, 2] r <- replicate(K, { xsample <- randfn(N, p1, p2) c(aEstfn(xsample), bEstfn(xsample)) }) points(t(r), pch='.', cex=2) } points(p, pch='+', col="red")}
パラメータ サンプル数実験回数
乱数生成関数
パラメータ推定関数
今日のデモは全部これでやります
乱数生成 +パラメータ推定
場所によって距離が違う
そもそもこいつは定義域外だったりする( 負の標準偏差とか )
y_benjo
θ1
θ2
mickey24 shima__shima
toddler2009
推定量の散らばり→距離• クラメールラオの不等式
• 推定量の散らばり具合で距離を決めよう (散らばりの大きいところは距離が小さい)
• Gθ って何?
dGd T
11]ˆ[ GN
Var θ
統計界のヨーダ
フィッシャー情報行列• 分布のパラメータに対する敏感さ
・離散分布 θ=(q1, q2) ・正規分布 θ= (μ, σ)
統計界の巨人
]),(log),(logE[ TxpxpG
200
010
111
111
qqq
qqqG
20
0112
G
確率分布は丸かった• 曲がった空間らしいということがわかっ
た
• なんかめんどくさいですね....
• 私もういいです... ユークリッド空間で... by @ 地球平面協会
わかりましたなんとかしましょう
↑ この辺の神々のおかげ
世の中は指数分布族である• 指数分布族とは...
の形に書ける分布モデル• 離散分布も... θ=(q1, q2)
)()()(exp);(1
xCxFxpn
ii
i
)()(exp);(2
1
rixrxpi
i
0loglog qqr ii 0log)( qr 0)( xC
正規分布も
xxF )(1
2
2
2
2log2
1
2
)(exp),;(
x
xp
)()()(exp);(1
xCxFxpn
ii
i
21
22 )( xxF 2
2
21
22
2
2log2
1
2)(
0)( xC
θ でプロットしてみる ・離散分布 ・正規分布
あまり変わった気がしない
とりあえず θ 座標系については平らということにします
平らとは?まっすぐな線が一次式で表される
距離の取り方は場所によって違ってもいい
なぜ平らとしていいかは微分幾何の知識が必要なので省略
部分空間への射影• 世の中=指数分布族の θ 座標• モデル= θ 座標の線形部分空間
• θ だけだと直交射影が一意的じゃない
世の中
モデル
データ
情報処理
結果
これだけでは
だめ
ライバル座標系登場• 座標系の取り方はいろいろ
θ だけ特別扱いはずるい• η でも平らってことにしよう
• 離散分布では確率値そのもの
• 正規分布ではモーメント
)(E xFii
ii qixE )]([
2222 E x xE1
二人合わせてピタゴラスの定理@情報幾何バージョン
ダイバージェンス
指数分布族の空間
q
)||()||()||( rqDqpDrpD
p
r
η での直線
θ での直線
dxxg
xfxfgfD
)(
)(log)()||(
射影定理• 部分空間が θ なら射影は η
部分空間が η なら射影は θ とすると一意的
指数分布族
q
p
部分空間 M
座標系を混ぜればまっすぐに見える))2/(1,/(),( 22
21 ),/(),( 22221
むりやりまとめ• η 座標で射影を下ろしたのは最尤推定• 情報幾何はまがったものをまっすぐ見る
ための技術
指数分布族
モデル
データ
最尤推定
結果
おまけQ : 混合分布や隠れマルコフモデルは指数
分布族ではないのでは ?A : 隠れている部分を潜在変数として入れ
ると指数分布になります
Q : ベイズとの関係A : 私もよくわからないので教えてくださ
い