【dbda勉強会2013】doing bayesian data analysis chapter 9: bernoulli likelihood with...
TRANSCRIPT
Doing Bayesian Data Analysis 輪読会Chapter 9
Gunosy Inc.Coffee Yoshida
2013/08/24
9 章 Bernoulli Likelihood with Hierarchical Prior
• 目次– 9.1 A Single Coin from a Single Mint– 9.2 Multiple Coins from a Single Mint– 9.3 Multiple Coins from Multiple Mints– 9.4 Summary– 9.5 R Code– 9.6 Exercises
– ( mint = 造幣局)
2013/08/24
8 章の内容と 9 章の内容
• 8 章では、独立な 2 個のパラメータを推定する問題について考えた– Ex) コインの表裏の確率に関するパラメータは、コイ
ン間で影響し合わない
• 9 章では、従属な 2 個以上のパラメータを推定する問題について考える– Ex) あるコインの表裏の確率に関するパラメータは、
コイン工場のパラメータを通して、別のコインの表裏の確率に関するパラメータに影響を与える
2013/08/24
パラメータとハイパーパラメータ
• 2 種類のパラメータ– パラメータ : データに直接的に影響を与えるパラ
メータ• Ex) コインのパラメータ
– ハイパーパラメータ:別のパラメータに影響をあたえることで、間接的にデータに影響を与えるパラメータ• Ex) コイン工場のパラメータ
2013/08/24
ハイパーパラメータの利点
• パラメータ間の従属関係を考えることの 2 つの利点– 1. 同時事後確率を考えるときに、モデルの構造を変
更しないで良い– 2. 従属関係は、その事後分布から、比較的効率的な
モテカルロサンプリングをモチベートする
2013/08/24
9.1 A SINGLE COIN FROM A SINGLE MINT
• コインが 1 個の場合の尤度と事前確認を復習する
• コインの表裏の確率は、ベルヌーイ分布を用いて、以下の式で表せる
p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y
( 表 : y = 1 、裏 : y = 0 )( θ : コインの表が出る確率に関するパラメータ )
2013/08/24
パラメータの独立性
• 試行(コイン投げ)ごとに、表裏が出るパラメータは独立と仮定した
• N 回の試行中、 z 回表が出る同じ確率は、以下の式で表せる p ( y1, y1, …, | θ1, θ2, …, ) = Π p ( yi |θi )
= θz ( 1 - θ )N-z
– N = 1 の場合は、前ページの以下の式と同じ p ( y | θ ) = bern ( y | θ ) = θy ( 1 – θ ) 1- y
2013/08/24
パラメータ θ の事前確率
• パラメータ θ の事前確率 p(θ) について考える• コイン投げの例では、 p(θ) として、ベータ分布を
仮定していた• ベータ分布
beta ( θ | a, b ) = θa-1 ( 1 - θ )b-1 / B(a, b)
– a, b は、ベータ分布のパラメータ、 B(*, *) はベータ関数– 平均 μ 、サンプルサイズ Z を用いて、 a, b は以下のよう
に表せるa = μ Kb = (1-μ) K
2013/08/24
パラメータ θ の事前確率
• サンプルサイズ K は、 confidence に影響を与える
• ここでは、 K は定数だと考え、事前分布は以下の式で表す
p( θ | μ) = beta ( θ | μK, ( 1–μ)K )
2013/08/24
hierachical models
• μ を定数ではなく、 0 ~ 1 の値をとる確率変数と考える hierachical models の領域に入っていく…
– μ を定数ではなく、 0 ~ 1 の値をとる確率変数と考える→ コイン工場のコイン作りに対する信念の不確かさを表す
p ( μ ) = beta( μ | Aμ, Bμ ) ( Aμ, Bμ は定数)
Ex) 大きい μ → 表が出やすいコイン作りばかりする工場 小さい μ → 裏が出やすいコイン作りばかりする工
場
2013/08/24
hierachical models• 変数間の関係を表した hierachial
models の図
– i 番目のコイン投げの表裏 yi は、パラメータ θ のベルヌーイ分布から生成される
– θ は、パラメータ a, b のベータ分布から生成される
– a, b は、それぞれ μK, (1-μ)K に等しい– μ は、パラメータ Aμ, Bμ のベータ分布
から生成される
2013/08/24
hierachical models へのベイズルールの適用
• ベイズルールを適用する
p ( θ, μ | y ) = p ( y | θ, μ ) p ( θ, μ ) / p ( y ) = p ( y | θ ) p ( θ | μ )
p (μ) / p ( y )
2013/08/24
9.1.1 Posterior via Grid Approximation
• 事後分布を Grid Approximation する– θ と μ の値域は、 [0, 1] で有限なので、 Grid
Approximation は tractable で、グラフも簡単に作れる
2013/08/24
Posterior via Grid Approximation 事前分布• 事前分布の図– p ( μ ) = beta( μ | 2, 2 )– p( θ | μ ) = beta( θ | μ100, (1-μ)100)
2013/08/24
Posterior via Grid Approximation 事前分布• μ は、 0.5 付近をとる確率が大きいが、 uncertainty は大
きい(右上の図)• θ は、 μ と同じくらいの値を取りやすい(真ん中上と右
下の図)
2013/08/24
Posterior via Grid Approximation 尤度• 尤度の図– データ D : 表 9 回、裏 3 回– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3
2013/08/24
Posterior via Grid Approximation 事後確率• 事後確率の図
2013/08/24
Posterior via Grid Approximation 事後確率
• 事後確率 = 尤度 × 事前確率
= ×
2013/08/24
certainty の大きな μ の場合の事前分布• μ の certainty を 0.5 周辺で大きくする– p ( μ ) = beta( μ | 20, 20 )– p ( θ | μ ) = beta( θ | μ6, (1-μ)6 )
2013/08/24
certainty の大きな μ の場合の尤度
• さっきと同じデータ– データ D : 表 9 回、裏 3 回– 尤度 : p ( D | θ ) = θ9 ( 1 – θ )3
2013/08/24
certainty の大きな μ の場合の事後分布• 事後確率の図– μ は、 certainty 高かったので、あまり変わらず、 θ
だけとんがる
2013/08/24
certainty の大きな μ の場合の事後分布
• 事後確率 = 尤度 × 事前確率
= ×
2013/08/24
9.2 MULTIPLE COINS FROM A SINGLE MINT
• 9.1– コインは 1 個で、複数回の試行でパラメータ θ は同じも
のだった• 9.2
– コインは複数個で、それぞれ異なるパラメータ θj を持つ– コインは複数個あるけど、同じ mint (工場)で作られて
るとする– 同じ mint で作られてるので、パラメータ μ は複数個の
コインで同一とする– コインは独立に作られてるので、 θj は μ に関して条件付
き独立とする
2013/08/24
9.2 MULTIPLE COINS FROM A SINGLE MINT
9.1 では θ, yi → 9.2 では θj, yij
2013/08/24
9.1.2 Posterior via Grid Approximation
• 9.1.1 の内容を、コインが 2 個( θ1, θ2 )の場合で行う
2013/08/24
Posterior via Grid Approximation 事前確率
• 事前確率
2013/08/24
Posterior via Grid Approximation 尤度
• 尤度– データ D1 : 表 3 回、裏 13 回– データ D2 : 表 4 回、裏 1 回– 尤度 : p ( D1 | θ1 ) = θ1
3 ( 1 – θ1 )13
– 尤度 : p ( D1 | θ2 ) = θ24 ( 1 – θ2 )1
2013/08/24
Posterior via Grid Approximation 事後確率
• 事後確率– データ数の大きかった 1 の方がデータの平均値に事
後確率も集まりやすい
2013/08/24
Posterior via Grid Approximation 事前確率μ と θ の依存関係が強い場合
• 事前確率– μ と θ の依存関係が強い場合
2013/08/24
Posterior via Grid Approximation 事前確率μ と θ の依存関係が強い場合
• 尤度、データはさっきと同じ– データ D1 : 表 3 回、裏 13 回– データ D2 : 表 4 回、裏 1 回– 尤度 : p ( D1 | θ1 ) = θ1
3 ( 1 – θ1 )13
– 尤度 : p ( D1 | θ2 ) = θ24 ( 1 – θ2 )1
2013/08/24
Posterior via Grid Approximation 事後確率μ と θ の依存関係が強い場合
• 事後確率– さっきよりも θ2 が θ1 の方によってる– μ と θ の依存関係が強いので、 μ を通して、データ
の影響が別のパラメータ θ への影響も強くなる
2013/08/24
9.2.2 Posterior via Monte Carlo Sampling
• モデルをより現実的なものにするために、パラメータ K も導入する– サンプルサイズ K は、 9.2.1 まで定数だった– K が大 → θj は μ に近くなりやすい– K が小 → θj は μ からはなれて広がりやすい
– 実際には、 K の値を事前に知ることはできず、「異なるコインの試行結果が似かよってたら、 K は大きいだろう」、「異なるコインの試行結果があんまり似てなかったら、 K は小さいだろう」みたいにという証拠になる
2013/08/24
9.2.2 Posterior via Monte Carlo Sampling
• パラメータ K (図中ではκ )は、定数ではなくて、事前分布から生じる(ここではガンマ分布を使用)
• パラメータは全部で J + 2 個– θ1 〜 θJ, μ, κ
2013/08/24
ガンマ分布
– s: shape parameter, 分布のなだらかさを表す
– r: rate parameter, (=1/scale)– m: s / r– sd: √s / r
2013/08/24
κ の事前分布にガンマ分布を用いた場合
• さっきは K=5 で固定してたのを、ガンマ分布の平均を5.0 、標準偏差を 0.01 にして同じような結果を出してみる
2013/08/24
κ の事前分布にガンマ分布を用いた場合
2013/08/24
• ガンマ分布のサンプルサイズ κ を 75.0 に変えてみる• μ と θ1, θ2 の依存関係が強くなる
κ の事前分布にガンマ分布を用いた場合• コイン 3 個の試行で、 3 個とも似たような結果だった場
合• コイン工場のパラメータ μ の推定の確かさは高い• κ の平均値が大きくなる
2013/08/24
κ の事前分布にガンマ分布を用いた場合
2013/08/24
• コイン 3 個の試行で、 3 個ともバラバラな結果だった場合
• コイン工場のパラメータ μ の推定の確かさは低い• κ の平均値は小さくなる
9.2.3 Outliers and Shrinkage of Individual Estimates
• 多くのコインが似たような結果を出すと、 κ は大きくなり、 θ と μ の依存関係も強くなる– 異なるコインの θ が同じような分布になる
2013/08/24
Outliers and Shrinkage
• コイン 5 個投げて、 1 個変なコインがいた( Outliers )– κ が小さい時は、 θ5 は実際の分布に近づくが、 κ が
大きい時は、他のコインの θ の分布に近づく( Shrinkage )
2013/08/24
9.2.5 Number of Coins and Flips per Coin
• データ増やすと、より certain にモデル推定が可能になる
• データの増やし方– コインごとの投げ数を増やす– コインの数を増やす
• ハイパーパラメータの推定が目的の場合はこっち• 個々のコインのバイアスではなくて、コイン工場のパラメー
タを推定したい時とか
2013/08/24
9.3 MULTIPLE COINS FROM MULTIPLE MINTS
• コイン工場に関するパラメータ μ, κ が工場ごとにことなる場合
• 工場ごとのパラメータが独立な場合と従属な場合の 2 つを考える
2013/08/24
9.3.1 Independent Mints• μc, κc は、コイン毎に異なるが、同じガンマ分布
から生成されるμ, κ が同じの場合 μc, κc
がバラバラの場合
2013/08/24
9.3.2 Dependent Mints
• μc, κc が、コイン毎に異なり、異なるガンマ分布から生成される– ガンマ分布のパラメータ sc, rc は、
平均 μγ, 標準偏差 σγ で表される– μγ と σγ は一様分布から生じる
2013/08/24