統計学的思考とは何か?cse.naro.affrc.go.jp/.../introductorystatistics2013.pdf統計学的思考とは何か?...

47
統計学的思考とは何か? データに基づくアブダクション 三中 信宏 MINAKA Nobuhiro 独立行政法人 農業環境技術研究所 生態系計測研究領域 上席研究員 東京大学大学院 農学生命科学研究科 生物・環境工学専攻 教授[生態系計測学] 東京農業大学大学院 農学研究科 客員教授[応用昆虫学] mailto:[email protected] http://twitter.com/leeswijzer http://cse.niaes.affrc.go.jp/minaka/ http://d.hatena.ne.jp/leeswijzer/

Upload: others

Post on 03-Feb-2021

1 views

Category:

Documents


0 download

TRANSCRIPT

  • 統計学的思考とは何か?̶ データに基づくアブダクション ̶

    三中 信宏MINAKA Nobuhiro

    独立行政法人 農業環境技術研究所 生態系計測研究領域 上席研究員

    東京大学大学院 農学生命科学研究科 生物・環境工学専攻 教授[生態系計測学]

    東京農業大学大学院 農学研究科 客員教授[応用昆虫学]

    mailto:[email protected]

    http://twitter.com/leeswijzer

    http://cse.niaes.affrc.go.jp/minaka/

    http://d.hatena.ne.jp/leeswijzer/

  • 2008 年度・東京農業大学生物応用化学科(毎週月曜第4限)三中信宏〈実験データ解析概論〉:2008年 4月~ 2008 年 7月

    東京農業大学世田谷キャンパス 112番教室

    データ解析の“心”とは?↓

    ・目に見えること・じっと眺めること・視点を変えること

    どのように「視覚化」するか

  • 実験前 実験後【図 1】

  • 実験前 実験後【図 2】

  • 2008 年度・東京農業大学生物応用化学科(毎週月曜第4限)三中信宏〈実験データ解析概論〉:2008年 4月~ 2008 年 7月

    東京農業大学世田谷キャンパス 112番教室

    データをモデルで説明する

    基質量

    生成物量

    基質量

    生成物量

    データ モデル

  • 2008 年度・東京農業大学生物応用化学科(毎週月曜第4限)三中信宏〈実験データ解析概論〉:2008年 4月~ 2008 年 7月

    東京農業大学世田谷キャンパス 112番教室

    データをモデルで説明するモデル(予測)

    データ(実測)

    モデルはデータから「ずれる」ものである

  • 2008 年度・東京農業大学生物応用化学科(毎週月曜第4限)三中信宏〈実験データ解析概論〉:2008年 4月~ 2008 年 7月

    東京農業大学世田谷キャンパス 112番教室

    データ=モデル+ずれ

    実測値=予測値+誤差

  • 2008 年度・東京農業大学生物応用化学科(毎週月曜第4限)三中信宏〈実験データ解析概論〉:2008年 4月~ 2008 年 7月

    東京農業大学世田谷キャンパス 112番教室

    パラメトリック統計学の出発点

    モデル(予測)

    データ(実測)

    ・正規分布・ガンマ分布・二項分布・ポアソン分布  etc...

  • 線形統計モデル(LM)への入り口モデルの構造とパラメータ

    パラメータ推定問題

    モデルの「構造」を固定

    したとしても,パラメー

    タ群の値は可変である.

    どのような基準で最適な

    パラメータ値を決定する

    のか.

    パラメータ群 ・手足の長さ ・関節の位置 ・屈曲の角度

    計算すればなんとかなる

  • 線形統計モデル(LM)への入り口モデルの構造とパラメータ

    モデル選択問題

    モデルの基本となる「構

    造」そのものをどのよう

    な基準で決定すればいい

    のか.モデル構造 ・ボディプラン ・手足の本数 やや難しいかも・・

  • 進化認知科学・連続セミナー・第4回(27 October 2004,東京大学)

    三中信宏「シンプルって美しい:認知最節約化のための図像と概念」

    Curve-fitting problem (1)

  • 進化認知科学・連続セミナー・第4回(27 October 2004,東京大学)

    三中信宏「シンプルって美しい:認知最節約化のための図像と概念」

    Curve-fitting problem (2)

  • 進化認知科学・連続セミナー・第4回(27 October 2004,東京大学)

    三中信宏「シンプルって美しい:認知最節約化のための図像と概念」

    Curve-fitting problem (3)

  • 第 3回最先端育種セミナー(17~ 19 November 2005,神戸)〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏:生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

  • 第 3回最先端育種セミナー(17~ 19 November 2005,神戸)〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏:生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

  • 第 3回最先端育種セミナー(17~ 19 November 2005,神戸)〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏:生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

  • 第 3回最先端育種セミナー(17~ 19 November 2005,神戸)〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏:生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

  • 第 3回最先端育種セミナー(17~ 19 November 2005,神戸)〈家畜・水産動物における遺伝的多様性研究―その目的と新しい方法論―〉三中信宏:生物進化の歴史を推定する̶分子系統樹を構築する理論と方法

  • 線形モデルを鍛えあげる

    線形モデル(LM)

    データ 総平均

    処理効果 誤差項 誤差は正規分布をする

    通常の「線形モデル」の仮定 ・処理効果はある実数(「パラメータ値」)である. ・誤差項は独立かつ同一の正規分布にしたがう.   (「正規性」と「等分散性」)

  • 線形モデルを鍛えあげる

    一般化線形モデル(GLM)

    データ 総平均

    処理効果 誤差項 誤差は正規分布をする

    何が一般化されたのか? ・誤差項が正規分布でなくてもよい. ・データのある関数変換(「リンク関数」)が   線形モデルで記述できればよい

  • 線形モデルを鍛えあげる

    一般化加法モデル(GAM)

    データ 総平均

    処理効果 誤差項 誤差は正規分布をする

    さらなる一般化とは? ・予測関数は単一の式で表示される関数である必要  すらなく,スプライン関数によって区分的に構築  された任意に関数(ただし加法性はある)でもか  まわない.

  • 線形モデルを鍛えあげる

    混合効果モデル(mixed-effect model)

    処理効果

    要因の「処理効果」は,ある実数の「パラメータ値」という定数として「固定効果」(fixed effect)をもつと仮定してきた.しかし,その処理効果が別の確率分布にしたがう“変量”とみなして,「ランダム効果」(random effect)をもつと仮定すれば,より細かい変動や個体差をもモデリングできるだろう.

  • 線形モデルを鍛えあげる

    LM

    GLM

    GAM

    非正規誤差リンク関数

    経験的予測関数

    LMM

    GLMM

    GAMM

    +混合効果線形モデル

    一般化線形モデル

    一般化加法モデル

    混合効果モデル

    +混合効果

    +混合効果

  • 母集団からのサンプリング

    リンゴ園(母集団)

    リンゴ 10 個(標本)

    サンプリング

    推定・検定

    統計量(サイズ,糖度,...)

    標本から計算された「統計量」はどれくらいのバラツキを伴っているのか?

    統計量に伴う「誤差」を標本データから推定すればよい

  • 母集団からのサンプリング

    サンプリング

    推定・検定

    母集団が正規分布するならば,標本平均もまた正規分布をする

    標本平均の分散推定値は標本データそれ自体から計算できる

    標本

    母集団

  • 母集団からのサンプリングなぜ苦しまねばならないのか?

    統計量の誤差の推定値は,正規分布に従う母集団のもと

    での単純な統計量の場合を除いては,一般に解析的に求

    めることはできない.したがって,そのような制約を緩

    める数値的方法が必要になる.

    リサンプリング統計手法(resampling methods)1) ブーツストラップ(bootstrap)2) ジャックナイフ(jackknihe)3) モンテカルロ(Monte Carlo)

  • 標本

    無作為反復

    リサンプリング

    やれるかも

    擬似標本 1

    擬似標本 2

    擬似標本 3

    擬似標本 N

    統計量

    分散推定値

    データからの“らくらく”リサンプリング標本を仮想的母集団とみなしてしまおう

  • ブーツストラップ重複を許して無作為同数リサンプリングを反復する

    データ =仮想母集団

    = (元 )1

    2

    N

    各反復から計算さ

    れた統計量の集合分散のブーツストラップ推定値

    同数の標本抽出

  • ジャックナイフ重複を許さず無作為削除リサンプリングを反復する

    データ =仮想母集団

    = (元 )1

    2

    N

    各反復から計算さ

    れた統計量の集合分散のジャックナイフ推定値

    一つ削って標本抽出

    v

    v

    v

  • モンテ・カルロパラメータ推定値に基づくデータ生成シミュレーション

    データ =仮想母集団

    = (元 )

    各反復から計算さ

    れた統計量の集合分散のシミュレーション推定値

    母集団が従う統計モデル(確率分布

    や線形モデル)を仮定し,そのパラ

    メータを元データから推定する.そ

    のパラメータ推定値をもつモデルか

    ら擬似データの生成シミュレーショ

    ンを反復試行し,その結果から統計

    量の分散を推定する.

    ^ ^

    ^ ^

    推定値

    モデル

    擬似データ生成

    パラメトリック・ブーツストラップ

  • ベイズの定理Thomas Bayes曰く「事後確率∝尤度×事前確率」(1763)

    全事象条件付き事象の確率

    事象 B 事象 A

    事象 R

    事象 A

    事象 B

    R

    R積事象の確率 ���� � ��

    ���� � ��

    ������� � ���� � �������

    ������� � ���� � �������

  • ベイズの定理Thomas Bayes曰く「事後確率∝尤度×事前確率」(1763)

    条件付き確率の定義より:

    ���� � �� � ������������

    ���� � �� � ������������

    ������� � �����������������

    ����� � ������ � �� � ���� � �� � ������� � ��

    � ���� � �� � ���� � ��

    � ������������ � ������������

    右辺の分母について:

    } 事後確率事前確率尤度

    ベイズの定理

    全事象 = 1となる

    (∵Aと Bは排反事象)

    基準化定数

  • ベイズの定理Thomas Bayes曰く「事後確率∝尤度×事前確率」(1763)

    一般に,全事象が互いに排反な n事象H1~Hnに分割されるとき:

    �������� �������������������� ��������������

    事後確率事前確率尤度

    ベイズの定理(一般)全事象

    H1 Hn

    事象 R

    H2

    Rをデータ,H1~Hnを対立仮説とすると,ベイズの定理から,データによって各仮説が支持される程度を事後確率の値で示すことができる.仮説の事後確率は仮説の事前確率と尤度に比例する.

    基準化定数

  • ベイズ法をめぐる論争あれこれ主観的確率と計算複雑性

    【哲学的問題】

    伝統的にベイズ主義者は,「主観的確率概念」を信奉する統計学者が多

    く,「頻度的確率概念」を支持する他の統計学者との間で,激しい論争

    が長年にわたって続いている.現在もなお進行中(かな).

    【実践的問題】

    事前確率をどのように与えるのか,また,事後確率の算出にともなう計

    算量の増大にどのように対処すればいいのかという問題が未解決だっ

    たので,つい最近までベイズ法は実践的な統計ツールではなかった.

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    �������� �������������������� ��������������

    事後確率事前確率尤度

    ベイズの定理をパラメトリック確率分布にあてはめる:

    ������ � ��������������� ����������

    事後分布事前分布尤度

    データ xに関する確率密度関数のパラメータθがある事前確

    率分布πに従うと仮定する.xの尤度をfとするとき,パラメー

    タθの事後確率分布はベイズの定理により与えられる.

    説明仮説はデータに関す

    る統計モデルのパラメー

    タによって決定される.

    基準化定数

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]ベータ事前分布をもつ二項分布パラメータの事後分布

    ������ ��

    ����� � �����

    ���� �� �� ������� � �����

    � ��

    ������ � �������

    二項分布

    ベータ分布

    二項分布を決めるパラメータ pがベータ分布に従う事前分布をすると考える.そのココロは,pに関する事前情報(または背景仮定)を推定に組み込もうとするベイズ主義の精神の発露である.

    例)オモテの出る確率が pであるコインを n回投げたときに,オモテの x回出る確率は,この二項分布に従う.

    ベータ分布の二つのパラメータ aと bを変えると,二項分布のパラメータ pの分布が変化する.a=b=1 のとき一様分布(無情報事前分布)となる.

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]ベータ事前分布をもつ二項分布パラメータの事後分布

    ������ � ��

    ��

    ����� � ����� � �

    ����� � ������ ��

    ������ � �������

    � �� �

    ��

    ����� � ����� � �

    ����� � ������ ��

    ������ � ���������

    事後分布

    尤度(二項分布) 事前分布(ベータ分布)

    基準化定数

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]ベータ事前分布をもつ二項分布パラメータの事後分布

    事前分布 事前分布

    事後分布 事後分布

    事前分布が a=b=1 のとき 事前分布が a=b=2 のとき

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    データ「n=10, x=6」から,最尤法でパラメータ pを推定してみる.

    ������ ��

    ���

    ����� � ���

    ���������

    � ������� � ����� � ��� � �

    �� �����

    ���

    1) 尤度関数 をパラメータ pで微分する.

    2)尤度方程式 を解く.

    3) 最尤推定値 が得られる.

    0 13/5p

    p̂最尤推定値

    ������������

    ��������

    �����

    ��

    �� � ���� ��

    ���

    その標本分散は近似的に:標本誤差3/125

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]正規事前分布をもつ正規分布の平均パラメータの事後分布

    ������� ��� ������

    ���

    ���

    ��� � �

    ���

    正規分布

    μの正規事前分布

    ��� ��� � � � � �� � ���� ���

    � � ����� ����

    ���� ���

    �������

    ���

    �� � ��

    ��

    ���

    ある正規分布に従う母集団から n個の独立な標本を取ると仮定する.

    その正規分布の平均μは別のある正規分布を事前分布としてもつと仮定する。

    得られた標本データのもとで,μの事後分布はどうなるか?

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]正規事前分布をもつ正規分布の平均パラメータの事後分布

    ������ ���

    ���

    �����

    ���

    ���

    ��� � �

    ���� ��

    �������

    ���

    �� � ��

    ��

    ���

    ������ � ������

    ���

    ���

    �� � ��

    ��

    ���

    � � ����� ����

    ���� � � � ���� � �� � �

    ���

    ��

    ���

    �� � ���� ���

    μの事後分布

    事後分布の確率密度関数

    事前分布尤度

    ただし∴

    μの事後分布もまた正規分布となることがわかる.

  • ベイズ事後分布を求める確率分布のパラメータが事前分布をもつと考える

    [例]正規事前分布をもつ正規分布の平均パラメータの事後分布

    μの事前分布N(0,10)

    平均パラメータμ

    標本平均 5.132

    μの事後分布N(5.08, 0.099)

    μの事前分布N(0,10)

    平均パラメータμ

    標本データ={4.348, 5,461, 4.609, 4,351, 4.347, 5.754, 6.088, 5.998, 5.572, 4.792}

    標本データ

  • ベイズ事後分布を求めるモデルが複雑になると計算量が膨大になる

    [例]分子系統樹のベイズ推定

    v1

    v2

    v3v4

    v5 v6

    パラメータ群 樹形:τ 枝長:v 置換遷移確率:θ サイト間変異:α

    ������� ���������������

    ��� ������������

    ������� ��

    ��

    ������������ ����������������������

    樹形の事後分布

    推定対象

    対象外(撹乱母数)

    撹乱母数は期待値計算で消去

    樹形の尤度

    樹形の事前分布

    配列データ X

    多重積分の重荷

    組合せ論的爆発

  • ベイズ事後分布を求めるマルコフ連鎖モンテカルロ法(MCMC)という最終兵器

    ������� ���������������

    ��� ������������

    事後確率分布

    事後確率

    パラメータ 1

    パラメータ2

    パラメータ初期値を無作為に与え,マルコフ過程を用いて事後確率分布を系統的にサンプリングし,定常状態になるまで探索させる.

    マルコフ連鎖モンテカルロ法(Markov chain Monte Carlo: MCMC)

    初期値

    定常状態

    酔歩状態

    慣らし過程(burn-in)

    事後確率分布計算

  • ベイズ事後分布を求めるマルコフ連鎖モンテカルロ法(MCMC)という最終兵器

    100ステップ 1,000 ステップ 10,000 ステップ

    Text1: 【補講日時】2009年1月28日(水)第3限〜第4限,511号室  「かたちの計測と統計学:幾何学的形態測定学について」Text2: