書籍『シグナル&ノイズ』解説
DESCRIPTION
アメリカ大統領選挙の予測で注目を集めた統計学者ネイトシルバー氏の著作「シグナル&ノイズ」の内容について、勉強会で解説した時に使った資料TRANSCRIPT
M a k e t h e W o r l d “ H o t t o ”
書籍『シグナル&ノイズ』解説
0
ホットリンク 浅野 弘輔
Copyright© Hottolink, Inc.
▶TOPICS
1
書籍『シグナル&ノイズ』とは何か
• 米大統領選挙の結果を100%的中させたネイト・シルバー初の書籍
– 2008年の米大統領選挙で49/50州の投票結果を的中
– 2009年Time誌「世界で最も影響力のある100人」
– 2012年の米大統領選挙で50/50州の投票結果を的中
• 米Amazonの2012年ノンフィクション部門ベストセラー
– 統計関連の書籍なのに
– 500ページ以上もあるのに
ビッグデータ時代で最も注目される データサイエンティスト
・・・ただし、本人はビッグデータブームに懐疑的
Copyright© Hottolink, Inc.
▶TOPICS
2
我々が読む価値があるのか
• データ分析において大切なことが書いてある
– 『数字自体は何も語らない。語るのは私たちだ。』
• 具体的なエピソードが満載
– 気象、金融、スポーツ、政治と様々な分野で行われる「予測」。
その成功ケース、失敗ケースを具体的に取り上げて、その要
因やそこから学ぶべき教訓などを取り上げている。
Copyright© Hottolink, Inc.
▶TOPICS
3
結局、何が書いてある本なのか
• 基本的にデータによる『予測』がテーマの本
• 『シグナル』と『ノイズ』
• 予測の精度を下げている要因
– 対象分野の向き不向き
– 非現実的な前提条件の元での分析
– 人間の認識と錯覚
– 予測の精度向上を妨げるインセンティブ
• より良い予測をするために
– 人間のバイアスや錯覚をあるものとして取り入れる
– 確率と不確実性を取り入れたベイズの定理の考え方
Copyright© Hottolink, Inc.
▶TOPICS
4
結局、何が書いてある本なのか
• 『予測』とは
– 将来に対する洞察
– 主観的事実と客観的事実を繋ぐもの
• 『シグナル』とは
– 予測したい未来に繋がる『真実』
• 『ノイズ』とは
– 『真実から目を逸らさせるもの』
Copyright© Hottolink, Inc.
▶TOPICS
5
結局、何が書いてある本なのか
• 人間の脳は「パターン認識」という優れた機能がある。
– 過去の体験という大量の情報をパターン認識により一般化し、
機会や危険に瞬時に対応する。
• その副作用として、「錯覚」をする。
– たまたま起こった(因果関係の無い)事を結果と結びつける。
– ランダムな「ノイズ」にパターンを見出して意味付けしてしまう。
• その結果として、わるい予測をしてしまう。
人間には錯覚はつきものであり、それを自覚して 制御することが、正しい予測に対する姿勢である。
Copyright© Hottolink, Inc.
▶TOPICS
6
結局、何が書いてある本なのか
• 人間は、自分に都合がよい情報を受け入れ、物事の本質から遠ざかるクセがある
• 情報やデータが増える、ということはシグナル(真実)も増えるが、ノイズ(真実でないもの)も増える。
• 採用できるデータが増えることで、自分に都合の良いノイズを拾い易くなる。
「ビッグデータ」への期待と落とし穴
膨大なデータさえあれば(統計の論理や科学的方法論 がなくても)、予測ができるわけではない。
Copyright© Hottolink, Inc.
▶TOPICS
7
本で取り上げているエピソード
• 1.【失敗】政治に関する予測
– なぜ「専門家の予想」は外れるのか
• 2.【成功】ベーズボールの予測
– マネー・ボールは何を語ったのか
• 3.【成功】天気予報
– 予測がうまく機能している数少ない分野
• 4.【失敗】巨大地震予測
– 過剰適合 -もっとも深刻な問題
• 5.【失敗】経済予測
– 因果関係のない相関関係
• 6.【失敗】インフルエンザ予測
– 「外挿法」の危険
Copyright© Hottolink, Inc.
▶TOPICS
8
本で取り上げているエピソード
• 7.ギャンブルとベイズ統計
– ベイズの定義。頻度主義とベイジアン
• 8.機械との闘い
– チェス、予測、ヒューリスティック
• 9.ポーカー・バブル
– なぜ平常心を失うのか
• 10.金融市場と予測可能性
– 効率的市場仮説と根拠なき熱狂
• 11.地球温暖化をめぐる「懐疑心」
– 科学と政治の違い
• 12.テロリズムの統計学
– 「なじみのないこと」と「起こりそうもないこと」
Copyright© Hottolink, Inc.
▶TOPICS
9
1.【失敗】政治に関する予測
• 「政治の専門家」の予測はよく外れる
– 政治的信条によって自分に都合の良い情報を拾い易くなる。
– 情報や知識が増えるほど、自分に都合の良いノイズも増える。
– 大胆な(トラマチックな)予想をする方がTVに呼ばれる。
– 情報が詳細であるほど「物語」を作って、自身もそれを信じるようになる。
• 確率論的に考えよう
– 結果は0か1でも、現実は不確実性がある。確率論的に考えるというのは、
不確実性を受け入れる姿勢を持つということ。
• 新しい事実が出たら、予測を更新しよう
• 複数の視点から考え、コンセンサスを探そう
– 「独創的で大胆な予想をしよう」とは考えない方がいい
Copyright© Hottolink, Inc.
▶TOPICS
10
2.【成功】ベーズボールの予測
• ベースボールは世界で最も豊富なデータセット – ベースボールは、短期的には「運」の占める割合が大きいが、長期的には「実力」が
結果を左右する。
– メジャーリーグでは、過去140年間の球場で起こったことが、正確に記録されている。
• スカウト(勘と経験)と統計オタク(データ分析)の共存 – スカウトはデータに落ちてない情報が見れるが、主観によるバイアスが掛かる。
– 統計オタクは主観によるバイアスに強いがデータに落ちてない情報を無視しがち。
– お互いの仕事に敬意払い、相互に補完する。
• ツールや習慣を常に改善して活用するスキルを磨く – 「マネーボール」の時代は、「マネーボール」が普通になることで終わる。
Copyright© Hottolink, Inc.
▶TOPICS
11
3.【成功】天気予報
• 気象現象はカオス(動的なシステム) – ある時点の状態が、次の状態振る舞いに影響を与える際に連鎖的に反応するの
で、初期条件の少しの違いが、結果に大きく影響する(ランダムではない)。
• コンピューターの進歩により精度向上 – カオスな気象現象をスーパーコンピューターでシミュレートすることで予測。
– 予測が当たったか外れたか、都度判断してフィードバックすることができる。
– 長期的(1週間より先)の予測は過去データによる統計的なアプローチの方が良い
• 「良い予測」とは? – 正確性(予測が当たる事、プロセスが一貫していること)は重要。
– 予測の経済的価値は、正確性に優先するか。
– (ハリケーン)予測で人々は避難しない。行政官(リーダー)の決断を見ている。
– 真実よりも政治、栄誉、利益を優先するのは予測にとっての原罪である。
Copyright© Hottolink, Inc.
▶TOPICS
12
4.【失敗】巨大地震予測
• スーパーコンピュータの時代になっても、予測の正確性はナマズでの予測からそれほど進歩してない。
• 地震は予測できない。でも予想はできる。
– 予測(prediction):6月28日に東京で大きな地震がおこる。
– 予想(forcast):30年以内で東京で大地震が起こる可能性は60%。
– 地中15Kmで起こるメカニズムは気象現象ほどには精緻な観測が難しい。
• 過剰適合 -もっとも深刻な問題
– 観測可能な数十年のデータで、数百年単位の巨大地震の予
測をしてしまう。
– 余震のノイズに当てはまりの良いモデルを選んでしまう。
Copyright© Hottolink, Inc.
▶TOPICS
13
5.【失敗】経済予測
• 経済予測は当たらない – 米GDP成長率予想は、信頼区間90%で18年中6回外している(期待値は2回)
– その規準ではGDP成長率予想の2.5%の信頼区間は-0.7~5.7%になる。
• 経済予測はなぜ当たらないか
– 経済統計だけから因果関係を見つけるのは困難(過剰適合)。
• 民間企業の経済統計が400万もあれば、スーパーボウルの勝敗で景気が分かると言うやつも出てくる(偶然そうなる確率は470万分の1)。
– 経済は常に動いている。
• ある景気循環で有用だった説明も、パラダイムが変わると有用ではなくなる。
• 有用な経済指標が見つかっても、それを上げる政策をしたら無意味になる。
• 同様にカオスな気象現象ほどには、経済や人間の行動は明解でない。
– エコノミストが使用するデータがそれほど有用ではない。
• 経済予測以前にそもそも経済指標の信頼性が低い(速報値から改訂など)。
Copyright© Hottolink, Inc.
▶TOPICS
14
6.【失敗】インフルエンザ予測
• インフルエンザの予測が上手くいかない要因 – 人口や病気など数量が急激に伸びるものに、既知のデータを基にして、その外側
(未来)を予想する(外挿法)のは難しい。
• 予想そのものが対象に影響を与えてしまう。 – 自己成就予言:認知されることによって、顕在化する(選挙予想など)
– 自己破滅予言:認知されることによって、回避的行動を取られる(渋滞予測など)
• 精巧さを欠いたシンプルさ – モデルをシンプルにするための前提が、現実性を欠いている
– 特殊な環境で発生した感染状況を全体に適用してしまう
• 予測が難しいときはどうすればいいか – 正確に予測できないのに出来るふりをしない。
– 予測を「洞察のための手段」として捉える
Copyright© Hottolink, Inc.
▶TOPICS
15
7.ギャンブルとベイズ統計
• 決定的な切り札はない。大事なのは思考プロセス
– 絶対に勝てる賭け、疑う余地のない理論、寸分の狂いもない測定といった
観点から考えるのは、自信過剰警報
– データがあればパターン(法則っぽいもの)を見出すのは簡単。そのパター
ンがシグナルなのかノイズなのか見極めること。
• ベイズの定理の考え方
– 認識論的な不確実性:何も分からない状態(無知)と分かった状態(知識)
の間を確率で表現して、世の中を確率的に捉える。
– 新しい事実が分かったら、それをフィードバックして予測を修正して良いも
のにしていく。
Copyright© Hottolink, Inc.
▶TOPICS
16
7.ギャンブルとベイズ統計
• 通常の統計学(頻度主義)とベイズ統計学派の違い
– 頻度主義派:確率モデルを作る際に観測データのみを用いて、情報の不
確実性はランダム性で表現。予測の科学的な客観性を重視。
– ベイズ派:確率モデルを作る際に、観測データを重視するが、情報の不確
実性は主観確率を用いる。予測の実践的な精度を重視。
• 予測に対してのベイズ的アプローチ
– 不確実性がランダムでない(複雑な)状況で、ランダムとしてモデルを考え
るのは誤りを生む。
– 客観的に正しい結論を求めるより、自分の信念に基づいた予測を試して、
フィードバックにより間違いを減らしていくアプローチが現実的。
Copyright© Hottolink, Inc.
▶TOPICS
17
7.ギャンブルとベイズ統計
• 偽陽性(ノイズをシグナルと捉えてしまう)
乳がんの検査マンモグラムでの乳がん検知の例
マンモグラムの診断と乳がんに罹患率 乳がんの女性 乳がんでない女性 マンモグラムの診断結果
マンモグラム診断で陽性 11 99 110
マンモグラム診断で陰性 3 887 890
合計 17 986
40代女性で乳がんにかかる確率 1.4%
乳がんの女性がマンモグラムで診断した時の陽性反応率(真陽性): 75% 乳がんでない女性をマンモグラムで診断した時の陽性反応率(偽陽性) 10%
マンモグラムで陽性と診断された人が実際に乳がんである確率(11/110): 10%
Copyright© Hottolink, Inc.
▶TOPICS
18
7.ギャンブルとベイズ統計
• 偽陽性(ノイズをシグナルと捉えてしまう)
乳がんの検査マンモグラムでの乳がん検知の例
マンモグラムの診断と乳がんに罹患率 乳がんの女性 乳がんでない女性 マンモグラムの診断結果
マンモグラム診断で陽性 11 99 110
マンモグラム診断で陰性 3 887 890
合計 17 986
40代女性で乳がんにかかる確率 1.4%
乳がんの女性がマンモグラムで診断した時の陽性反応率(真陽性): 75% 乳がんでない女性をマンモグラムで診断した時の陽性反応率(偽陽性) 10%
マンモグラムで陽性と診断された人が実際に乳がんである確率(11/110): 10%
人間の印象 (錯覚)
実際のリスク
Copyright© Hottolink, Inc.
▶TOPICS
19
7.ギャンブルとベイズ統計
• ベイズの定理による条件付き確率
事前確率
テロ攻撃で、マンハッタンの高層ビルに飛行機が激突する確率の初期見積もり x 0.005%
新たな事象が起こる - 1機目の飛行機がWTCに衝突
テロリストが高層ビルを攻撃しているという条件下で飛行機が衝突する確率 y 100%
偶然の事故で、WTCに飛行機が衝突する確率 z 0.008%
事後確率
1機目の飛行機がWTCに衝突した時、それがテロ攻撃である確率の修正見積もり
𝑥 ∗ 𝑦
(𝑥 ∗ 𝑦)+𝑧 ∗(1−𝑥) 38%
9.11 NY同時多発テロの例
Copyright© Hottolink, Inc.
▶TOPICS
20
7.ギャンブルとベイズ統計
• ベイズの定理による条件付き確率
事前確率
テロ攻撃で、マンハッタンの高層ビルに飛行機が激突する確率の初期見積もり x 0.005%
新たな事象が起こる - 1機目の飛行機がWTCに衝突
テロリストが高層ビルを攻撃しているという条件下で飛行機が衝突する確率 y 100%
偶然の事故で、WTCに飛行機が衝突する確率 z 0.008%
事後確率
1機目の飛行機がWTCに衝突した時、それがテロ攻撃である確率の修正見積もり
𝑥 ∗ 𝑦
(𝑥 ∗ 𝑦)+𝑧 ∗(1−𝑥) 38%
事前確率
1機目の飛行機がWTCに衝突した時、それがテロ攻撃である確率の修正見積もり x 38%
新たな事象が起こる - 2機目の飛行機がWTCに衝突
テロリストが高層ビルを攻撃しているという条件下で飛行機が衝突する確率 y 100%
偶然の事故で、WTCに飛行機が衝突する確率 z 0.008%
事後確率
2機目の飛行機がWTCに衝突した時、それがテロ攻撃である確率の修正見積もり
𝑥 ∗ 𝑦
(𝑥 ∗ 𝑦)+𝑧 ∗(1−𝑥) 99.99%
9.11 NY同時多発テロの例
Copyright© Hottolink, Inc.
▶TOPICS
21
8.機械との闘い
• コンピュータが予測に向いていること – 大量の過去のデータを分析して結果を出すことができる。
– 疲れや感情により判断を誤ることがない。
– 無数のパターンを試して、結果をフィードバックすることができる。
• コンピュータが予測に向いてない状況 – 対象の根本的な原理(メカニズム)の理解があいまい。
– データにノイズが多い。
• コンピュータに向き合う態度 – コンピュータが生き物のように、意思のあるように見えても、人間がノイズ(ランダム
な判断やバグ)からパターンを見出しているだけかもしれない
– 作った人間のバイアスや盲点は、プログラムに反映される
– コンピュータはあくまで便利な道具で、祀り上げてもいけないし、恐れてもいけない。
Copyright© Hottolink, Inc.
▶TOPICS
22
9.ポーカー・バブル
• 「最初の30分でカモを見つけられなきゃ自分がカモだ」
勝てるという思い込み – 確率的な勝算 = カモる(られる)余地
– 規制などでプレイする敷居が上がるとカモがいなくなる。結果勝てなくなる。カモが
居たから勝ててたものを自分の実力と勘違いする。
– 上手にプレイして金を稼ぐより、下手にプレーして金を失う方が容易い。
• なぜ平常心を失うのか – 実力でないもの(運や環境)を実力と勘違いする。“自分が勝って当然”という意識。
– 「俺の読みが相手の運で負けて悔しい」「本来なら勝っていた」
• 結果優先の思考を乗り越える – 結果が運に左右される分野では、結果よりもプロセスを重視する。
– 判断を下すプロセスはコントロールできるが、来るカードはコントロールできない。
– 良いプレーをして負けることは、悪いプレーをして勝つことよりも価値がある。
Copyright© Hottolink, Inc.
▶TOPICS
23
10.金融市場と予測可能性
• みんなのベイズ的な予測をすり合わせるところ=市場
– 相手の予測が正しいと思えば自分の予測を書き換え、自分が正しいと思
えば自分が正しい方に賭ける。それをみんなでやる。
– 金融以外(例えば政治)にも適用するのが予測市場
• 効率的市場仮説というものがある
– 短期的に勝てる人はいるが、一貫して勝ち続けられる投資家はいない
– 理想と乖離した株価は取引によって正しい値に修正される。
– 予測できないものを予測できるとした投資戦略は、実際に話がうますぎる。
Copyright© Hottolink, Inc.
▶TOPICS
24
10.金融市場と予測可能性
• バブルと集団行動
– バブルの始まりと終わりが分かっていれば、逆張りで大儲けする奴がいる
はずだが、いない。バブルがいつ終わるかは分からない。
– みんなが株価が上がると思いこんでいれば上がるので逆張りが怖い
• 「対象となるものを良く知らないときは多数派に付いた方がいい」
• 90%はその通りになるが、10%でみんながコケるときに、10%に張り続けていれば損をする。
– トレーダーが短期的な成績で評価される限り、株価が長期的な価値から逸
脱するバブルは避けられない。
– 「自信たっぷりに行動するやつは、何か俺の知らない情報を持っているに
違いない。」
– 現代では多くの情報を共有しているため、独自性が失われてしまう。
Copyright© Hottolink, Inc.
▶TOPICS
25
10.金融市場と予測可能性
• バブルを防ぐことは出来るのか
– 効率的市場仮説は、「情報の格差に付け入って儲けることが
できない」という点ではAgreeだが、株価が(企業の本来的な
価値と言う意味で)「正しい」というのは疑わしい。
– バブルを察知することは出来るが、防ぐことはできない。
– 「市場は絶対確実で価格は正しい」という前提からスタートす
ればバブルは見つけられない
Copyright© Hottolink, Inc.
▶TOPICS
26
11.地球温暖化をめぐる「懐疑心」
• 地球温暖化に関する議論を難しくしている要因
– 3種類の懐疑論。
• 利害から生まれる懐疑論、化学的な結論にはとりあえず反対する立場の人達の懐疑論。正当な化学的な懐疑論。
– 周期的な「地球寒冷化」の影響。
– 不確実性を見積もらなければいけないが、不確実性を認めることが「主張
に自信がない」と取られてしまう。
– 科学の問題でなく、誰かを説得すれば解決する政治の問題と捉えられて
いる。
• 科学の問題か、政治の問題か
– 科学の世界では、怪しげな予測が注目を集めても、やがて真実が勝つ。
– 真実が重要視されない政治の世界では結末は誰にもわからない。
Copyright© Hottolink, Inc.
▶TOPICS
27
12.テロリズムの統計学
• 事が起こった後でシグナルを探せば、それは見つかる。
– それとはっきり認識できた後ならば、パターンは見つかる
– 「政府は知っていたのに、戦争を起こすために見逃した」という陰謀論。
– 事が起こる前に様々なノイズに隠れたシグナルを区別するのはむずかしい。
• 「なじみのないこと」と「起こりそうにないこと」
– 認識できなかったものは、検討されない。
– データの中から欲しいものを見つけるのは簡単
• テロリストのシグナルをどう読むか
– 事前に攻撃を見抜けない一番の原因は想像力の欠如
– 好奇心と懐疑心のバランスを取り、不確実性に対して謙虚になれば、知ら
ないことを知ることで、予測の精度を上げることができる。
Copyright© Hottolink, Inc.
▶TOPICS
28
まとめ
• 現在、情報は急増しているが、ノイズに対するシグナルの比率は低下している。ノイズを掴みやすい状況にある。
• 世界に対する主観的な認識は、真実に対する推定である。
• 不確実性を見積もり、新しい情報に接するたびに修正しよう。
• 説得力は正確性を担保しない。単純なメッセージ、魅力的なストーリーの方が普遍的で力強いが予測の正確性とは関係ない。
• バイアスを減らす努力は必要だが、バイアスを持たないということは出来ない。自身のバイアスに対して誠実になること。
• たくさんの予測を試し、トライアンドエラーを繰り返そう。
以上