"approximate residual balancing: de-biased inference of average treatment effects in high...

58
⾼次元データにおける un-biased Average Treatment Effects の推定 Sugio Tatsuki ®

Upload: tatsuki-sugio

Post on 09-Feb-2017

364 views

Category:

Data & Analytics


0 download

TRANSCRIPT

Page 1: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

⾼次元データにおけるun-biased Average Treatment Effects の推定

Sugio Tatsuki

®

Page 2: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

for TokyoR®

Page 3: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Profile®

๏ Sugio Tatsuki

๏ 位置情報を軸に研究

๏ プローブデータ

๏ スポーツデータ

๏ “機械学習”よりも”モデリング”思考

๏ サイバー系企業のAI系部署

๏ DMP → 代理店

Page 4: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Approximate Residual Balancing: De-Biased Inference of Average Treatment effects

in High Dimensions

Susan Atley Guido W. Imbens Stefan Wager

今⽇の元ネタ ↓

Page 5: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Index

1. 因果効果の推定(causal inference)に関して

1. Average Treatment Effect とは

2. Propensity score とは

2. High-Dimensions での問題点

3. “Approximate Residual Balancing”に関して

4. Simulation

5. play R

参考⽂献

前提

Page 6: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

前提

Page 7: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

前提

• 昨今では、データが⽐較的容易に⼿に⼊る。

• ⾼次元なデータセットを扱うことが、エコノミストでも多くなってきた。

• トラフィックデータ

• センシングデータ

• 購買データ etc

• しかし、そのようなデータセットに対して、従来の⽅法は適していないケースが多い。

• ⾼次元なデータセットを扱うために開発された「機械学習」アルゴリズムを活⽤または改造し、prediction, inference and causationを果たす。

【論⽂の冒頭によく飾られている内容】

Page 8: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

前提

• 参考

• American Economic Association (2017) で公開された「Approximate Residual Balancing: De-Biased Inference of Average Treatment Effects in High Dimensions」について話します。

• 上記の論⽂に関して、間違った箇所もあるかもしれません。そのような場合は、”やさしーく”教えていただけるとありがたいです。

• 提案アプローチの理論的証明は、時間の関係上省きます。

• 発表

• まず、因果効果の推定における基礎的な説明を少し話します。

• 次に、⾼次元なデータで従来の⼿法が機能しないという事実を記し、そのために提案された各⼿法を”ザッと”話します。(それに関するアルゴリズムの説明は時間の関係上、省いてる箇所もあります。)

• 本提案アプローチのアルゴリズムとそのシミュレーション結果、およびRのコードを紹介。

【本⽇の議題の進め⽅】

Page 9: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

今⽇の話の流れInference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

Page 10: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

前提

• 回帰調整と回帰残差の重み付けの”ハイブリッド”。

“Approximate Residual Balancing”とは何か…

• 回帰調整(Regression Adjustment) • RAは標本平均を⽤いてTreatment Effectを推定する

という考え⽅に基づくもの。回帰モデルによってpotantial outcomeを予測するという拡張もある。

• 回帰残差の重み付け • 残差に重みを加えることで、バイアスを取り除く。

Page 11: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

今⽇の話の流れInference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

Page 12: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

1. 因果効果の推定(causal inference)に関して

Page 13: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

因果

いろいろな因果関係…

タバコ

職業訓練

投薬

Page 14: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

因果

モビルスーツにおける「脚」の効果って…

Page 15: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

脚の因果効果 =

脚のあるジオングの性能 ー 脚のないジオングの性能

「実証分析⼊⾨」より引⽤

1. 因果効果の推定(causal inference)に関して

Page 16: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

個体 i に処理 t = 0 を与えた場合の outcome

個体 i に処理 t = 1 を与えた場合の outcome=

=

因果効果

「実証分析⼊⾨」より引⽤

1. 因果効果の推定(causal inference)に関して

Page 17: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

脚の因果効果 =

脚のあるバルバトスの性能 ー 脚のないバルバトスの性能

1. 因果効果の推定(causal inference)に関して

Page 18: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

脚の因果効果 =

脚のあるバルバトスの性能 ー 脚のないバルバトスの性能難しい…

1. 因果効果の推定(causal inference)に関して

Page 19: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

カウンターファクチュアル(counterfactual)

= 反事実

Page 20: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 21: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Control group Treatment group

control effect

treatment effect⽋損値(反事実的)

⽋損値(反事実的)control 群 の観測データ

treatment 群 の観測データ

Average Treatment Effect =因果効果の推定は、 ⽋損値の補完(imputation)との闘い

因果効果における反事実的問題

以下、Average Treatment Effect = ATE 「林岳彦 (2012)」より引⽤

共変量

1. 因果効果の推定(causal inference)に関して

Page 22: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

因果効果

ただし、バルバトスは同一世界にただ一つであり、 異なる処理を同時に与える(観測する)ことは不可能 反事実的

因果効果の推定における根本的な問題

「林岳彦 (2012)」より引⽤

個体 i に処理 t = 0 を与えた場合の outcome

個体 i に処理 t = 1 を与えた場合の outcome=

=

1. 因果効果の推定(causal inference)に関して

Page 23: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 24: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Confoundedness (交絡性!?)

• 交絡とは何か… • 交絡とは、⽬的変数と説明変数の両⽅に相関する外部変数が存在すること。

そのような外部変数を交絡変数(confounding variable)という。(from Wiki)

⽬的変数 説明変数

交絡変数

⾒たい影響

影響影響

1. 因果効果の推定(causal inference)に関して

Page 25: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Confoundedness

Page 26: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 27: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Propensity Score(傾向スコア)

• 共変量を調整し、交絡性を取り除く • 潜在的な交絡要因となる様々な共変量を傾向スコアという⼀つの合成変数に縮約(⼀次元化)し、

その傾向スコアを基準としてマッチングや層別化、またはWeightted Estimationを⾏う。

⽬的変数 説明変数

傾向スコア

⾒たい影響

適応適応

共変量

モデリング

層別化 マッチング 重み付け

1. 因果効果の推定(causal inference)に関して

Page 28: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 29: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

2. High-Dimensions での問題点

Page 30: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

counterfactual confoundedness

Exact Causal Effect の算出

High-Dimensionsな場合…

• Lassoなどの正則化回帰などを⽤いて、上記の問題を解決しようとする。 • A. Belloni, V. Chernozhukov, and C. Hansen. (2014, 2016)

2. High-Dimensions での問題点

Page 31: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

しかしながら…

• バイアスが発⽣ • Lassoの場合、正確な予測にのみ焦点を当てているため、Treatmentの割り当て、

つまり傾向スコアに⼊る共変量を調整することを犠牲にしている。

• Average Treatment Effect の予測に限らず、Coefficientも統計的に正しくない。(⼀致性・不偏性を⽋く)

2. High-Dimensions での問題点

Page 32: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• un-biasedとは何か… • ⾒⽅によって変わる⾯もあるが、

• 推定量が「⼀致性」または「不偏性」を有しており、良好な「漸近性」が満たされた状態。

• OLSは、⼀定の条件下では、数ある推定⼿法の中で最も効率的であり、かつ、不偏性を持つ。

• OLSはBLUE(Best Linear Unbiased Estimator)。

• ⼀致性(consistency) • 標本サイズnを⼤きくしていくと、推定値の平均が次第に⺟集団の真の値と⼀致する性質。

• 不偏性(unbiasedness) • 標本抽出を繰り返した場合に、推定値の平均が⺟集団の真の値と⼀致する性質。

2. High-Dimensions での問題点

Page 33: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 34: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• 変数選択のスキームを拡張 • “Inference on treatment effects after selection among high-dimensional controls.”, Belloni, 2014.

• ”doubly robust”なアプローチを⽤いて、Lassoのバイアスを補償する⽅法

• “Robust inference on average treatment effects with possibly more covariates than observations.” Farrell, 2015.

• “Double machine learning for treatment and causal parameters.”, Chernozhukov, 2016.

• 傾向スコアを考慮したATEを推定するための従来の⽅法と機械学習技術の組み合わせ • ブースティングを使⽤してPropensity Score・Inverse Propensity score Weighting(IPW)を応⽤。McCarey (2004)

• SVM、Neural Network、CARTの活⽤。Westreich (2010)

現状提案されている提案⼿法

Belloni ChernozhukovFarrell

2. High-Dimensions での問題点

Page 35: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Inference of Causal Effect

Counterfactual Confoundedness

Rubin Approach Propensity Score

low-dimensions

high-dimensionscase of high-dimensions

Approach 1. Approach 2. Approach 3. Approach 4.

Approximate Residual Balancing

今⽇の話の流れ

Page 36: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

3. “Approximate Residual Balancing” に関して

Page 37: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

3. “Approximate Residual Balancing” に関して

⽬標• 純粋な推定とATEの推定の関係を調整し、

⾼次元なデータでun-biasedなATEを推定すること。(de-bias する)

1. 2つのgroupに対して、個別にFeatureを与えた場合の結果をregularized linear modelに適合する。(like ”doubly robust”)

2. 全ての特徴量をほぼ均衡させる重みを使⽤して、第1段階の残差を再度重み付けする。

2段階の近似残差平衡アルゴリズム

傾向スコアをより適合させていくのではなく、重みによって付与される(暗黙の)バランスと分散に焦点を当てる!?。Zubizarreta (2015)

Page 38: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• Control groupのデータを、Treatment groupの共変量分布に似せるため、 を使⽤し、重み付けをする。

Weighted Estimation

High-Dimensions では良好な漸近特性を有さない。

• 重み は、スタンダードな⽅法では、Propensity Scoreを⽤いる。(IPW)

• IPWは、望ましい漸近特性を有する(Hirano, 2003)。(⼀致性 or 不偏性)

• しかし、「共変量の分布の重なり」、「共変量の数」、「 の値」といった制限もある。

3. “Approximate Residual Balancing” に関して

Page 39: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• 線形モデルにおけるバイアスは、               に依存。

• 重み の算出⽅法の改善!! • Deville &Sarndal (1992) , Chan (2015), Graham (2012, 2016) ,

Hainmueller (2012), Hellerstein & Imbens (1999), Imai & Ratkovic (2014), Zhao (2016), Zubizarreta (2015).

Weighted Estimation

3. “Approximate Residual Balancing” に関して

Page 40: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• ⼀般的に正確なbalancing weightは存在しない。

• そのため、balancing weightを近似し、結果の推定値の精度とバイアスとのトレードオフを考慮したアプローチが存在する。

• “Stable weights that balance covariates for estimation with incomplete outcome data”, Zubizarreta, 2015.

• (それでも、バイアスは残るらしい…)

しかしながら、High-Dimensionsの場合では…

3. “Approximate Residual Balancing” に関して

Page 41: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• ここでの命題は、control groupにおける  で  を予測し、  を        として推定すること。

Regression Adjustments

•      の低次元データで、かつ、OLSを使⽤できる場合では、  は、  の不偏推定量になる。

3. “Approximate Residual Balancing” に関して

Page 42: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• OLSがフルランクモデルになるようなケースでは、正則化が必要であるケースが多い。

• 単純なLassoの場合、2つの群間の平均値に⼤きな差がある特徴量は、これらの係数が⼩さい場合でも⼤きなバイアスを⽣み出す。

• そもそも、outcome modelの適合度を最適化するように調整された正則化された回帰は、潜在的な交絡因⼦の制御ができない。treatment effect estimatorのバイアスが懸念されるときは適切ではない。

しかしながら、High-Dimensionsの場合では…

3. “Approximate Residual Balancing” に関して

Page 43: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• ”double-selection”

• Lassoにより共変量を変数選択。Belloni (2014)

• treatmentの割り当てをLasso(Logistic Regression)で実⾏する。Belloni (2014)

• 変数選択された変数に対して、OLSによって推定される  を伴う回帰調整        で  を推定することと、変数選択された特徴量のバランスをとるために重み  を⽤いて、(6)を解くことと等価。

現状提案されている提案⼿法

• しかしながら、Propensityがスパースではない場合、このような”double-selection”の性能はしばしば貧弱である!?。

3. “Approximate Residual Balancing” に関して

Page 44: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• これまで上げてきた⼿法とその問題点を解決できるかたちで⽣み出された”ハイブリッド”。

• 強い影響を捕捉するには、回帰調整が効果的。

• 重み付けは⼩さな効果を捕捉するのに効果的。

Approximate Residual Balancing

1. treatment effectの最初のpilot推定値を得るために、Lassoまたはelastic netを使⽤。

2. treatment effectを推定するために“回帰残差のapproximate balancing”を⾏う。

• すなわち、Treatment groupとControl groupとの間の共変量分布の近似的なバランスを達成する重みを⽤いて、残差に重み付けをする。

3. “Approximate Residual Balancing” に関して

Page 45: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Procedure 1.   Approximate Residual Balancing with Elastic net

3. “Approximate Residual Balancing” に関して

Page 46: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Procedure 1.   Approximate Residual Balancing with Elastic net

重みの算出

elastic netでβの推定

ATE(τ)の算出

3. “Approximate Residual Balancing” に関して

Page 47: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

理論的保証

: our proposal approach

: intrinsic noise

: only the weighting

: only the regression adjustment

Setting and Notation

3. “Approximate Residual Balancing” に関して

Page 48: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

•   と  との間に⼤きな相違がある場合に役⽴つ。

• 回帰は、推定誤差       が   に対して⼩さい場合が実質的なバイアスの減少。

• 調整を⾏わずに、単に  の⾒積もりとしてのControl groupの平均結果を使⽤するだけで、  の⾒積りと実際の値の間の差異は、

理論的保証

• 重み付けはこれを            にさらに減らします。

回帰調整と重み付けの相補的性質を⽰している。

3. “Approximate Residual Balancing” に関して

Page 49: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

4. Application & Simulation

Page 50: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

4. Application & Simulation

Application: The Efficacy of Welfare-to-Work Programs• カリフォルニア州の実施した政策のデータ。

(福利厚⽣への依存を減らし、恵まれない世帯間の仕事を促進する。)

• 各個⼈の多種多様なデモグラフィックな属性データ(共変量; p = 93)が存在する。

• 上記のデータのランダムサンプリングして作成されたデータセットを使⽤。(n = 19,170)

• ATEを推定するための異なる⽅法の挙動を⽐較する。

Page 51: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

Simulation Design

• replication : 1000

• four different simulation

• Two Cluster Layout

• n = 300, p = 800

• Many Cluster Layout

• 20 cluster

• n = 300, p = 800

• Misspecified simulation

• dataset from “LaLonde (1986 )”

• Two Stage simulation

• an experiment of “Belloni (2014)”

より詳細な設定は論⽂を参照

4. Application & Simulation

Page 52: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

4. Application & Simulation

Page 53: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

4. Application & Simulation

Page 54: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

• RMSEで評価 • 基本的には、⼀番良い性能 • ENもSparseなデータセットにおいては、予測性能に関しては良い性能。

4. Application & Simulation

Page 55: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

5. Play R

Page 56: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

5. Play R

https://github.com/swager/balanceHD

• [balanceHD] • Estimation of average treatment effects in high dimensions

via approximate residual balancing, as proposed by Athey et al. (2016).

R package の紹介

Page 57: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介
Page 58: "Approximate Residual Balancing: De-Biased Inference of Average Treatment effects in High Dimensions"のご紹介

参考⽂献

• 「Approximate Residual Balancing: De-Biased Inference of Average Treatment Effects in High Dimensions」, Susan Athey, Guido W. Imbens, Stefan Wager, American Economic Association, 2017.

• 「実証分析⼊⾨ データから「因果関係」を読み解く作法」、森⽥、2014/06. • 「調査観察データの統計科学―因果推論・選択バイアス・データ融合」, 星野, 2009. • 「岩波データサイエンス Vol.3」, 2016/06.

書籍・論⽂

Slide・URL

• 「傾向スコア:その概念とRによる実装」、林岳彦、2012/04