統計学的思考とは何か？cse.naro.affrc.go.jp/.../introductorystatistics2013.pdf統計学的思考とは何か？...

統計学的思考とは何か？̶ データに基づくアブダクション ̶

三中信宏MINAKA Nobuhiro

独立行政法人農業環境技術研究所生態系計測研究領域上席研究員

東京大学大学院農学生命科学研究科生物・環境工学専攻教授［生態系計測学］

東京農業大学大学院農学研究科客員教授［応用昆虫学］

mailto:[email protected]

http://twitter.com/leeswijzer

http://cse.niaes.affrc.go.jp/minaka/

http://d.hatena.ne.jp/leeswijzer/

2008 年度・東京農業大学生物応用化学科（毎週月曜第４限）三中信宏〈実験データ解析概論〉：2008年 4月～ 2008 年 7月

東京農業大学世田谷キャンパス 112番教室

データ解析の“心”とは？↓

・目に見えること・じっと眺めること・視点を変えること

どのように「視覚化」するか

実験前実験後【図 1】

実験前実験後【図 2】



データをモデルで説明する

基質量

生成物量

基質量

生成物量

データモデル



データをモデルで説明するモデル（予測）

データ（実測）

モデルはデータから「ずれる」ものである



データ＝モデル＋ずれ

実測値＝予測値＋誤差



パラメトリック統計学の出発点

モデル（予測）

データ（実測）

・正規分布・ガンマ分布・二項分布・ポアソン分布　　etc...

線形統計モデル（LM）への入り口モデルの構造とパラメータ

パラメータ推定問題

モデルの「構造」を固定

したとしても，パラメー

タ群の値は可変である．

どのような基準で最適な

パラメータ値を決定する

のか．

パラメータ群・手足の長さ・関節の位置・屈曲の角度

計算すればなんとかなる

線形統計モデル（LM）への入り口モデルの構造とパラメータ

モデル選択問題

モデルの基本となる「構

造」そのものをどのよう

な基準で決定すればいい

のか．モデル構造・ボディプラン・手足の本数やや難しいかも・・

・

進化認知科学・連続セミナー・第４回（27 October 2004，東京大学）

三中信宏「シンプルって美しい：認知最節約化のための図像と概念」

Curve-fitting problem (1)

第 3回最先端育種セミナー（17～ 19 November 2005，神戸）〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏：生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

線形モデルを鍛えあげる

線形モデル（LM）

データ総平均

処理効果誤差項誤差は正規分布をする

通常の「線形モデル」の仮定　・処理効果はある実数（「パラメータ値」）である．　・誤差項は独立かつ同一の正規分布にしたがう．　　　（「正規性」と「等分散性」）


一般化線形モデル（GLM）

データ総平均


何が一般化されたのか？　・誤差項が正規分布でなくてもよい．　・データのある関数変換（「リンク関数」）が　　　線形モデルで記述できればよい


一般化加法モデル（GAM）

データ総平均


さらなる一般化とは？　・予測関数は単一の式で表示される関数である必要　　すらなく，スプライン関数によって区分的に構築　　された任意に関数（ただし加法性はある）でもか　　まわない．


混合効果モデル（mixed-effect model）

処理効果

要因の「処理効果」は，ある実数の「パラメータ値」という定数として「固定効果」（fixed effect）をもつと仮定してきた．しかし，その処理効果が別の確率分布にしたがう“変量”とみなして，「ランダム効果」（random effect）をもつと仮定すれば，より細かい変動や個体差をもモデリングできるだろう．


LM

GLM

GAM

非正規誤差リンク関数

経験的予測関数

LMM

GLMM

GAMM

＋混合効果線形モデル

一般化線形モデル

一般化加法モデル

混合効果モデル

＋混合効果

＋混合効果

母集団からのサンプリング

リンゴ園（母集団）

リンゴ 10 個（標本）

サンプリング

推定・検定

統計量（サイズ，糖度，...）

標本から計算された「統計量」はどれくらいのバラツキを伴っているのか？

統計量に伴う「誤差」を標本データから推定すればよい

母集団からのサンプリング

サンプリング

推定・検定

母集団が正規分布するならば，標本平均もまた正規分布をする

標本平均の分散推定値は標本データそれ自体から計算できる

標本

母集団

母集団からのサンプリングなぜ苦しまねばならないのか？

統計量の誤差の推定値は，正規分布に従う母集団のもと

での単純な統計量の場合を除いては，一般に解析的に求

めることはできない．したがって，そのような制約を緩

める数値的方法が必要になる．

リサンプリング統計手法（resampling methods）1) ブーツストラップ（bootstrap）2) ジャックナイフ（jackknihe）3) モンテカルロ（Monte Carlo）

標本

無作為反復

リサンプリング

やれるかも

擬似標本 1

擬似標本 2

擬似標本 3

擬似標本 N

統計量

分散推定値

データからの“らくらく”リサンプリング標本を仮想的母集団とみなしてしまおう

ブーツストラップ重複を許して無作為同数リサンプリングを反復する

データ =仮想母集団

＝ (元 )1

2

N

各反復から計算さ

れた統計量の集合分散のブーツストラップ推定値

同数の標本抽出

ジャックナイフ重複を許さず無作為削除リサンプリングを反復する


＝ (元 )1

2

N


れた統計量の集合分散のジャックナイフ推定値

一つ削って標本抽出

v

v

v

モンテ・カルロパラメータ推定値に基づくデータ生成シミュレーション


＝ (元 )


れた統計量の集合分散のシミュレーション推定値

母集団が従う統計モデル（確率分布

や線形モデル）を仮定し，そのパラ

メータを元データから推定する．そ

のパラメータ推定値をもつモデルか

ら擬似データの生成シミュレーショ

ンを反復試行し，その結果から統計

量の分散を推定する．

^ ^

^ ^

推定値

モデル

擬似データ生成

パラメトリック・ブーツストラップ

ベイズの定理Thomas Bayes曰く「事後確率∝尤度×事前確率」（1763）

全事象条件付き事象の確率

事象 B 事象 A

事象 R

事象 A

事象 B

R

R積事象の確率 ��

�

��

�

��

�

��

�


条件付き確率の定義より：

��

�

��

�

��

�

��

�

� ��

�

� ��

�

右辺の分母について：

} 事後確率事前確率尤度

ベイズの定理

全事象＝ 1となる

（∵Aと Bは排反事象）

基準化定数


一般に，全事象が互いに排反な n事象H1～Hnに分割されるとき：

��

�

事後確率事前確率尤度

ベイズの定理（一般）全事象

H1 Hn

事象 R

H2

Rをデータ，H1～Hnを対立仮説とすると，ベイズの定理から，データによって各仮説が支持される程度を事後確率の値で示すことができる．仮説の事後確率は仮説の事前確率と尤度に比例する．

基準化定数

ベイズ法をめぐる論争あれこれ主観的確率と計算複雑性

【哲学的問題】

伝統的にベイズ主義者は，「主観的確率概念」を信奉する統計学者が多

く，「頻度的確率概念」を支持する他の統計学者との間で，激しい論争

が長年にわたって続いている．現在もなお進行中（かな）．

【実践的問題】

事前確率をどのように与えるのか，また，事後確率の算出にともなう計

算量の増大にどのように対処すればいいのかという問題が未解決だっ

たので，つい最近までベイズ法は実践的な統計ツールではなかった．

ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

��

�

事後確率事前確率尤度

ベイズの定理をパラメトリック確率分布にあてはめる：

��

�

事後分布事前分布尤度

データ xに関する確率密度関数のパラメータθがある事前確

率分布πに従うと仮定する．xの尤度をfとするとき，パラメー

タθの事後確率分布はベイズの定理により与えられる．

説明仮説はデータに関す

る統計モデルのパラメー

タによって決定される．

基準化定数


［例］ベータ事前分布をもつ二項分布パラメータの事後分布

��

�

�

��

�

��

� ��

��

�

二項分布

ベータ分布

二項分布を決めるパラメータ pがベータ分布に従う事前分布をすると考える．そのココロは，pに関する事前情報（または背景仮定）を推定に組み込もうとするベイズ主義の精神の発露である．

例）オモテの出る確率が pであるコインを n回投げたときに，オモテの x回出る確率は，この二項分布に従う．

ベータ分布の二つのパラメータ aと bを変えると，二項分布のパラメータ pの分布が変化する．a=b=1 のとき一様分布（無情報事前分布）となる．



��

��

�

�

��

��

��

�

� ��

�

��

�

��

��

��

�

事後分布

尤度（二項分布）事前分布（ベータ分布）

基準化定数



事前分布事前分布

事後分布事後分布

事前分布が a=b=1 のとき事前分布が a=b=2 のとき


データ「n=10, x=6」から，最尤法でパラメータ pを推定してみる．

��

��

��

�

��

� ��

�

��

��

�

�

1) 尤度関数をパラメータ pで微分する．

2)尤度方程式を解く．

3) 最尤推定値が得られる．

0 13/5p

p̂最尤推定値

��

��

��

��

��

��

�

その標本分散は近似的に：標本誤差3/125


［例］正規事前分布をもつ正規分布の平均パラメータの事後分布

��

��

��

�

��

�

��

�

正規分布

μの正規事前分布

��

�

� � ��

�

��

��

��

�

��

��

��

�

ある正規分布に従う母集団から n個の独立な標本を取ると仮定する．

その正規分布の平均μは別のある正規分布を事前分布としてもつと仮定する。

得られた標本データのもとで，μの事後分布はどうなるか？



��

��

��

��

��

�

��

�

��

��

��

�

��

��

��

�

��

��

��

�

��

��

��

�

� � ��

�

��

��

��

��

��

�

μの事後分布

事後分布の確率密度関数

事前分布尤度

ただし∴

μの事後分布もまた正規分布となることがわかる．



μの事前分布N(0,10)

平均パラメータμ

標本平均 5.132

μの事後分布N(5.08, 0.099)

μの事前分布N(0,10)

平均パラメータμ

標本データ＝｛4.348, 5,461, 4.609, 4,351, 4.347, 5.754, 6.088, 5.998, 5.572, 4.792｝

標本データ

ベイズ事後分布を求めるモデルが複雑になると計算量が膨大になる

［例］分子系統樹のベイズ推定

v1

v2

v3v4

v5 v6

パラメータ群　樹形：τ　枝長：v　置換遷移確率：θ　サイト間変異：α

��

��

�

��

��

�

�

�

�

��

�

樹形の事後分布

推定対象

対象外（撹乱母数）

撹乱母数は期待値計算で消去

樹形の尤度

樹形の事前分布

配列データ X

多重積分の重荷

組合せ論的爆発

ベイズ事後分布を求めるマルコフ連鎖モンテカルロ法（MCMC）という最終兵器

��

��

�

事後確率分布

事後確率

パラメータ 1

パラメータ2

パラメータ初期値を無作為に与え，マルコフ過程を用いて事後確率分布を系統的にサンプリングし，定常状態になるまで探索させる．

マルコフ連鎖モンテカルロ法（Markov chain Monte Carlo: MCMC）

初期値

定常状態

酔歩状態

慣らし過程（burn-in）

事後確率分布計算

ベイズ事後分布を求めるマルコフ連鎖モンテカルロ法（MCMC）という最終兵器

100ステップ 1,000 ステップ 10,000 ステップ

Text1: 【補講日時】2009年1月28日（水）第3限〜第4限，511号室　　「かたちの計測と統計学：幾何学的形態測定学について」Text2:

統計学的思考とは何か？cse.naro.affrc.go.jp/.../introductorystatistics2013.pdf統計学的思考とは何か？...

Documents