計量経済学と 機械学習の交差点入り口 (公開用)

51
計量経済学と 機械学習の交差点入り口 (公開用) Shota Yasui Tokyo Web Mining 2016/10/29 51 pages in total 1

Upload: shota-yasui

Post on 16-Apr-2017

6.973 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: 計量経済学と 機械学習の交差点入り口 (公開用)

計量経済学と機械学習の交差点入り口(公開用)

Shota YasuiTokyo Web Mining 2016/10/29

51 pages in total

1

Page 2: 計量経済学と 機械学習の交差点入り口 (公開用)

2

Shota Yasui (29)twitter: @housecat442

Work at CyberAgent AILabas Data Analyst2013/10 - present

サーモンの経済学(修士)↓広告代理店↓DMP↓DSP↓SSP

良くTokyo.Rに出没してます。

Page 3: 計量経済学と 機械学習の交差点入り口 (公開用)

おことわり

● 今日の発表内容はWork in Progressな話が多いです。

● 具体的な分析手法に関しては数年後にはすでに時代遅れの発想になっている可

能性もありますのでご承知下さい。

● 内容は基本的に発表者の理解を元に作られていますので、間違いや抜け漏れが

ある場合があります。

● ですので興味を持った方はこの内容が全てと思わずに、色々と調べていただけた

らと思います。

3

Page 4: 計量経済学と 機械学習の交差点入り口 (公開用)

発表の流れ

1. 計量経済学の話

a. どういう分野か?

b. Treatment Effectとその推定について

2. 機械学習との交差点

a. 全体感

b. Varian’s Idea

c. Athey’s Causal Tree

d. Policy Prediction Problem

3. まとめと疑問

4. その他のアプローチ(時間があれば)4

Page 5: 計量経済学と 機械学習の交差点入り口 (公開用)

①そもそもの計量経済学の話

5

Page 6: 計量経済学と 機械学習の交差点入り口 (公開用)

計量経済学

● 経済学のモデルが現実社会の現象を説明しうるか?を検証す

る分野。

○ ある事象が、”こうなってるであろう”というモデルを建てる

○ 手に入り得るデータの中で、想定しているモデルがどの変数にどう

やって影響するかを考えて分析モデルを推定する

○ 因果推論を中心に扱ってきた

○ 政策の意思決定でよく使われる

6

Page 7: 計量経済学と 機械学習の交差点入り口 (公開用)

Treatment Effectのはなし

7

Time

サプリ(介入)

or

● ある対象に介入した時に、どのような結果になるかを知りたい。● 実際にはorではなく連続的。

Page 8: 計量経済学と 機械学習の交差点入り口 (公開用)

8

Time

サプリ(介入)

or

その他の要因

● 実際には他の要因も影響してくる● 状態の変化が、介入かその他の要因かによるものかが区別できない。● よって単純に前後比ではダメ。

Page 9: 計量経済学と 機械学習の交差点入り口 (公開用)

こういう比較をしたい

9

● 同一人物に対してこの状況を作って結果を比較する。● その他の要因は全部一緒なので差分が介入の効果。● いわゆるパラレルワールド

Time

サプリ(介入)

or

その他の要因

Time

サプリ(介入)

or

その他の要因

結果を比較

Page 10: 計量経済学と 機械学習の交差点入り口 (公開用)

理想としては

10

効果

介入をした結果Y|W = 1

介入をしなかった結果Y|W = 0

Page 11: 計量経済学と 機械学習の交差点入り口 (公開用)

どちらかしか観測できない

11

効果

介入をした結果Y|W = 1

介入をしなかった結果Y|W = 0

効果

介入をした結果Y|W = 1

介入をしなかった結果Y|W = 0

Page 12: 計量経済学と 機械学習の交差点入り口 (公開用)

12

効果

効果

効果

効果

効果

効果

やりたい事と観測データ

● 介入したグループとしてないグループのその他の特徴が平均的に同じであれば、結果の平均の差分が効果の平均の推定量になる。

● ただ、その他の要因が同じにならないケースが多々ある。

● 基本的にはこの状態をモデルで再現したいという話になる。

E(効果)E E

Page 13: 計量経済学と 機械学習の交差点入り口 (公開用)

②機械学習との交差点

13

Page 14: 計量経済学と 機械学習の交差点入り口 (公開用)

利用パターン

1. 機械学習で計量経済学の手法を改良する。

a. 傾向スコアの算出

b. 操作変数法の一段階目の推定

2. 機械学習を計量経済学の手法へと改良する。

a. Varian’s Idea

b. Athey’s Causal Tree

3. 機械学習を計量経済学の実用時のプロセスに追加する。

a. Prediction Policy Problem

4. 機械学習で用いられるデータ構造の考え方を計量経済学のモデルの変数

として扱う。14

Page 15: 計量経済学と 機械学習の交差点入り口 (公開用)

今日話すパート

1. 機械学習で計量経済学の手法を改良する。

a. 傾向スコアの算出

b. 操作変数法の一段階目の推定

2. 機械学習を計量経済学の手法へと改良する。

a. Varian’s Idea

b. Athey’s Causal Tree

3. 機械学習を計量経済学の実用時のプロセスに追加する。

a. Prediction Policy Problem

4. 機械学習で用いられるデータ構造の考え方を計量経済学のモデルの変

数として扱う。15

Page 16: 計量経済学と 機械学習の交差点入り口 (公開用)

Vaian’s Idea

16

介入した対象に対して、「介入しなかったらどうだったのか?」を予測してその差分を効果と考える。

機械学習を計量経済学の手法へと改良する。

Page 17: 計量経済学と 機械学習の交差点入り口 (公開用)

予測モデルを使って因果推論しよう

● Big data: New tricks for econometrics.

● この中で、ある介入や施策の効果を測るためのアイデアを提

示。

● Difference in Difference Estimatorの応用。

● 時系列と変数選択で可能にしたのがCausal Impact。

17Vaian’s Idea

Page 18: 計量経済学と 機械学習の交差点入り口 (公開用)

Causal Impactでやりたい事。

● 赤が時系列で観測しているデータ。● t = 50の時点から介入をしている。● 介入がなかった時の結果を緑として予測して、その差分を効果だと言いたい。

18Vaian’s Idea

Page 19: 計量経済学と 機械学習の交差点入り口 (公開用)

感覚としては・・・

● 青が変数選択の結果残った時系列データ。● t = 50の時点から赤のみに介入をしている。● 青→赤で赤の予測モデルを作る。● 介入後に青のデータから緑を予測する。

19Vaian’s Idea

Page 20: 計量経済学と 機械学習の交差点入り口 (公開用)

利用例:Auction Mechanism Test● ネット広告の一部分では、ユーザーのアクセス単位に広告を出す権利をオークショ

ンに掛けている。(RTB: Real Time Bidding)

● RTBで広告を売る側のSupply Side Platform(SSP)は売る為の価格設定やルール

を調整する事で収益を改善する。

● よって、調整した結果の効果がどうだったのか?を知りたい。

● しかし、SSP側ではA/Bテストによる効果の推定が困難。

20Vaian’s Idea

Page 21: 計量経済学と 機械学習の交差点入り口 (公開用)

SSPでのオークションA/Bテスト

SSP

auction(A)

auction(B)

アクセス

A/BテストDSP

adcall(A or Bの情報は含まれない)

bid for A

bid for B

media

21Vaian’s Idea

Page 22: 計量経済学と 機械学習の交差点入り口 (公開用)

SSPauction(c)DSP

DSPからの視点

● オークションの仕組みが見えないので、来た adcallがAなのかBなのかわからない。

● よって、それらが混じった状態に対してベストな入札をしようとする。

bid for C!

adcall(A or Bの情報は含まれない)

アクセス

media

22Vaian’s Idea

Page 23: 計量経済学と 機械学習の交差点入り口 (公開用)

SSPauction(c)DSP

adcall

分析になると。。。

● オークションの結果を貯め込んでそれを分析する。● 単純にAとBで平均CPMを集計して比較● しかし、それらはDSPがCという仕組みに対して入札した結果に過ぎない。● DSPが仕組みAに対して入札した時に平均 CPMがどの位になるか?という問いには答えられない。

bid for C!

DWH

storage auction resultsA: CPM = 10

B: CPM = 15

アクセス

media

23Vaian’s Idea

Page 24: 計量経済学と 機械学習の交差点入り口 (公開用)

causal impactを使うと

24

● 時系列でロジックを入れ替えてテスト

● 一番上がKPIを基準化した時系列データ

● 真ん中がモデルとの誤差の時系列

● 一番下が介入期間での誤差の積み上げ

ちなみに。

● A/B Testing of Auctions

● 普通に計量経済学の発想で推定する方法も

模索されている。

Vaian’s Idea

Page 25: 計量経済学と 機械学習の交差点入り口 (公開用)

機械学習でのアプローチ

● Demand Estimation with Machine Learning and Model Combination

● Causal Impactがある対象の時系列データから介入の効果を推定したいという話。

● こっちは、大量の個体からデータが取れている時に介入の効果を推定したいという

話。(Cross Section or Panel Data)

● 古典的な手法だと上手く推定出来ないケースも出てくるが、提案のアプローチでは

同じデータに対してもちゃんと推定できる。

25Vaian’s Idea

Page 26: 計量経済学と 機械学習の交差点入り口 (公開用)

推定のプロセス

● 介入が無いデータで学習しているので、予測の結果はW=1のデータが仮にW=0だった場合の値になる。

● よってW=1のラベルと予測値の差分が介入の効果。

26

N

K

Vaian’s Idea

Page 27: 計量経済学と 機械学習の交差点入り口 (公開用)

27

利用例)Rossmann Store Sales

Vaian’s Idea

Page 28: 計量経済学と 機械学習の交差点入り口 (公開用)

28Vaian’s Idea

Page 29: 計量経済学と 機械学習の交差点入り口 (公開用)

Rossman Store

29

● 横軸が売上の予測値

● 縦軸が実際の売上

● グリッドの色がサンプル数

● W=1, W=0で左右に分かれている。

● 差分に対してモデルを適応すれば、

どんな要因がPromotionの効果を妨

げたりするかを説明できる。

Vaian’s Idea

Page 30: 計量経済学と 機械学習の交差点入り口 (公開用)

さらに不均一な効果を推定● 差分は個体毎に観測ができているので、差分に対して個

体の特徴で説明をするモデルを作ってみる。

● 霧・雨・雷雨だと広告の効果が下がっている。(雪は 12月

に引っ張られてる?)

● 近くに競合店舗が無い方が効果が高い。( nocomp)

● このステップはドメイン知識ドリブンでモデルを建てない

と×

● そもそもこれパネルデータとして扱わないと(汗

30

Page 31: 計量経済学と 機械学習の交差点入り口 (公開用)

機械学習の方法を借りて、”平均的な効果”ではなく、不均一な効果を推定する。(身長が高いほど薬の効果が弱いのか?等がわかる)

Causal Tree

31

機械学習を計量経済学の手法へと改良する。

Page 32: 計量経済学と 機械学習の交差点入り口 (公開用)

機械学習のコスト関数を弄る

● Recursive Partitioning for Heterogeneous Causal Effects

● 決定木を改良して、Conditional Average Treatment Effect(CATE)の推定を可能

にする。

● 薬の効果が身長や体重などの条件によって違う事を汲み取って推定する。

● 観測されなかった方を予測するのではなく、差分(効果)をそのままコスト関数に置

いて予測する。

32Causal Tree

Page 33: 計量経済学と 機械学習の交差点入り口 (公開用)

普通の決定木(adaptive)

S_tr

S_te

ℓ ℓ ℓ

トレーニングデータ (S_tr)で木(π)の学習to min MSE

トレーニングデータ(S_tr)で各葉の出力の決定 .⇒葉に割り振られたサンプルのYの平均を取るだけ。

評価

テストデータで評価

dataset

33Causal Tree

Page 34: 計量経済学と 機械学習の交差点入り口 (公開用)

提案手法(honest)

S_tr

S_te

ℓ ℓ ℓ

トレーニングデータ (S_tr)で木(π)の学習to min modified MSE

推定データ(S_est)で各葉の出力の決定

評価

テストデータで評価

S_est

dataset

34Causal Tree

Page 35: 計量経済学と 機械学習の交差点入り口 (公開用)

● ある枝の学習結果Πにおける葉の中で介入されたグループの平均と、介入されなかったグループの平均を求めて差を取る。

コスト関数について

35

● 差の二乗から分散に重みをつけた物を差し引く。● これが最大になるように枝を学習する。● 葉の中の差はなるべく大きく、結果の分散はなるべく小さくなる様になっている

E(効果)E E

Causal Tree

Page 36: 計量経済学と 機械学習の交差点入り口 (公開用)

シミュレーションデータでの結果(誤差)

36

データの分割もコスト関数も改良せず、デフォルトの決定木で学習して、葉の中で介入の有無で差分を出した時の誤差。

● 論文内のtable1より一部抜粋● CT-H(提案手法)の介入効果の誤差を1とした時の他の手法の誤差の値が示されている。● 誤差算出はテストデータで行われている。

提案手法でデータ分割の改良をした場合としない場合の誤差の比。

Causal Tree

Page 37: 計量経済学と 機械学習の交差点入り口 (公開用)

37

利用例)Rossmann Store Sales天気で広告の効果はどの位違うのか?Y = SalesT = Promotion 右はじの12月は効果が強い

⇒投下量が多い?

雨・雪だと弱まる。

Page 38: 計量経済学と 機械学習の交差点入り口 (公開用)

Propensity Tree

S_tr

S_te

ℓ ℓ ℓ

トレーニングデータ (S_tr)で、介入の割り当てWの学習をする。to min modified MSE

推定データ(S_est)で各葉の出力の決定⇒出力は先程と同様のW別の平均値。

評価

テストデータで評価

S_est

dataset

38Causal Tree

Page 39: 計量経済学と 機械学習の交差点入り口 (公開用)

Prediction Policy Problems

39

機械学習を計量経済学の実用時のプロセスに追加する。

Page 40: 計量経済学と 機械学習の交差点入り口 (公開用)

政策への応用

● Prediction Policy Problems

● 政策を考える上で予測の問題が大きな意味を持つ事もあるから、実証系の経済学

者はもっと機械学習やろうよという話。

● 政策における補助金の設計は経済学が応用される。

● 購入の意思決定を分析して、価格をX円変えた時に購買がY変化するという価格と

購買の因果関係を分析。

● 変化させたい購買量が分かっていれば、それに応じて補助金を出す。(問題になる

のはここ)40Prediction Policy Problems

Page 41: 計量経済学と 機械学習の交差点入り口 (公開用)

人工関節

41

手術リハビリ期間 恩恵を受ける期間

改善

● 手術とリハビリにコストを投じて、改善後に恩恵を受ける。

● 恩恵を受ける期間が短ければ、手術のリターンは少ない。

● 補助金を出してコストを下げればより多くの人が手術を受ける。

● が、明らかに恩恵を受ける期間が短い人も手術を受ける決断をし易くなる。Prediction Policy Problems

Page 42: 計量経済学と 機械学習の交差点入り口 (公開用)

やるべき事

42

予測

恩恵を受ける期間 < c

恩恵を受ける期間 > c 手術

● そもそも手術から大きな恩恵を受けない人に余分なコストを払わせなくて済む。

● 補助金も節約出来て別の使い道へと回すことが出来る。

● 恩恵を受ける期間の予測問題を機械学習で解けば出来る。

● 1年以内の死亡確率を予測して、トップ 1%の人への補助金を止めると 3000万ドルの節約になる。Prediction Policy Problems

Page 43: 計量経済学と 機械学習の交差点入り口 (公開用)

③まとめと疑問

43

Page 44: 計量経済学と 機械学習の交差点入り口 (公開用)

まとめ

● 機械学習を計量経済学の手法へと改良する。

○ 大量データでの因果推論ができる様になった

○ 平均ではなく、不均一な介入の効果を推定できる様になった

● 機械学習を計量経済学のプロセスへと追加する。

○ 今まで平均的に考えていて無視されていたコストがとりのぞける様になる

44

Page 45: 計量経済学と 機械学習の交差点入り口 (公開用)

疑問

● unconfoundednessへの対応は?

○ 操作変数(IV)の一段階目や傾向スコアの算出が純粋な予測問題なのであれば、この対応も機械

学習でやれてしまいそう。

○ IVの一段階目をやったデータセットに対して Causal Treeとかって出来る気がするけど。。。

● 因果推論のモデルをどうやったらサービスインできる様になるのだろう?

○ 現状はレポートで利用する事がメイン。

○ ただ「ある状況において一つの要因だけを変えた時にどうなるか?」という意思決定へのレコメンド

は自然とあると思う。

○ Causal Treeは割とこれに適しているかも。

45

Page 46: 計量経済学と 機械学習の交差点入り口 (公開用)

時間があれば。。。

46

Page 47: 計量経済学と 機械学習の交差点入り口 (公開用)

(おまけ)4の話

● ネットワークの構造を入れるケースはちょっと前にあった。

○ Impact of social network structure on content propagation: A study using YouTube data

○ どんなYoutuberにバイラル広告の依頼をすると効率が良いのか?

● David M. BleiはSusan Atheyと買い物の行動をトピックモデルとして考えて、大量

データの中で消費者の効用分析をしようとしてる。(スライド)

● どちらのケースも、今までの人の行動や特徴の捉え方が雑であることを認識して、

他の分野からデータの構造を輸入している。

● 今現在でapplied econometricsをやっている人が機械学習を学ぶモチベーション

はココが強そう。

47

Page 48: 計量経済学と 機械学習の交差点入り口 (公開用)

(おまけ)機械学習の評価を因果推論の考え方で

● 機械学習の評価を因果推論で行う流れもある・・・かも。

● 例1)レコメンドが実際に売り上げをどの位増やしているか?○ Estimating the causal impact of recommendation systems from observational data ○ MicrosoftがBing toolbarのデータを使ってAmazonでのレコメンドの評価を行っている。

○ 単純に集計で出す評価よりも、操作変数を使ってモデルで評価した時の方が低くなった。

○ ココの議論は非常に面白い。

48

Page 49: 計量経済学と 機械学習の交差点入り口 (公開用)

例2)Uber Surge Price● Dynamic Pricing in a Labor Market: Surge Pricing and Flexible Work on the

Uber Platform● タクシードライバーの労働意思決定のモデル。

● 一日の中で一定の金額を稼いだらそこで辞めるか否か。○ Yesの場合は、賃金が上がれば労働時間は短くなる。

○ Noの場合は、賃金が上がると労働時間が長くなる。

● 運賃が労働時間に対して与える影響をモデルにしてパラメーターをみれば良い。

● 結論:Uberでは賃金が上がると労働時間が長くなる。

● 価格変動の評価に利用しているとの事。

49

Page 50: 計量経済学と 機械学習の交差点入り口 (公開用)

50

Learning Representations for Counterfactual Inference

http://icml.cc/2016/reviews/1348.txt

In short, they optimize an objective function over A. [a] hypotheses (i.e., a class of outcome

prediction functions, e.g., linear regressions or neural nets) and

B. [b] representations of the input (i.e., feature selection and re-weighting OR a non-linear mapping via neural net)

with three terms: 1. (1) prediction error for actual observed

outcomes 2. (2) discrepancy distance between empirical

distributions over "factual" (observed) data and "counterfactual" data (i.e., factual examples with opposite outcomes implicitly matched within the learned representation space)

3. (3) "counterfactual" prediction error: i.e., error between the prediction for observed X_i with treatment opposite of what they got (1-T_i) and the outcome for the nearest X_j within the learned representation space

(おまけ)Deeplearningで!

Page 51: 計量経済学と 機械学習の交差点入り口 (公開用)

参考資料

● Big Data: New Tricks for Econometrics● INFERRING CAUSAL IMPACT USING BAYESIAN STRUCTURAL TIME-SERIES MODELS

● Demand Estimation with Machine Learning and Model Combination

● Recursive Partitioning for Heterogeneous Causal Effects

● Estimation and Inference of Heterogeneous Treatment Effects using Random Forests

● Prediction Policy Problem

● Causal Inference for Policy Evaluation - ICML

● Video) Susan Athey, "Machine Learning and Causal Inference for Policy Evaluation"

● The State of Applied Econometrics - Causality and Policy Evaluation

51