医学統計セミナー第4回傾向スコア分析 ·...

医学統計セミナー：傾向スコア

2019.2.5

医学統計セミナー第4回- 傾向スコア分析 -

下川敏雄和歌山県立医科大学


2019.2.5傾向スコア分析の動機

□ 治療法の評価＝ある医学的介入による影響(因果効果)の検証

治療法(例：処理 vs. 対照群)

Outcome(例：全生存期間)

因果効果

共変量(媒介変数，交絡変数)の影響(例：全身状態)

共変量が厄介な理由：コントロールできないものが多い

検証的な側面から共変量の影響を最小限にして因果効果を評価する

－無作為化比較試験(RCT:Randomized Controlled Trial)

観察的な側面(観察研究)において(治療選択に対する)共変量の影響を最小限にして因果効果を評価する

－統計学的な調整法 (共変量とOutcomeの線形性などの制約)－傾向スコア(Propensity score) の利用


2019.2.5傾向スコア分析の論文数の推移

2018年は12月末現在

6 7 6 11 13 25 40 46 66 88 142 169 231 325 369

539 655

897 1,108

1,458

1,925

2,343

2,964

3,949

0

500

1,000

1,500

2,000

2,500

3,000

3,500

4,000

4,500

1995

1996

1997

1998

1999

2000

2001

2002

2003

2004

2005

2006

2007

2008

2009

2010

2011

2012

2013

2014

2015

2016

2017

2018

論文検索数

PubMed検索結果：”propensity score”


2019.2.5統計的方法による共変量の調整の方法とその限界

観察研究における共変量を考慮した研究及び解析(星野・岡田，2006)

(1) 均衡化：共変量の値が同じになるペアを作ることで2つの群の被験者を構成

(2) 恒常化・限定：共変量のある被験者のみに限定して解析を行う

(3) 統計的調整(多変量解析等)

研究デザイン

統計

― 完全に一致するペアを作ることは事実上不可能― 多数の共変量を含めることができない― ペアは観測者が決めるため，主観的で恣意性を排除できない．

― 一部の被験者に限定するため，研究の一般可能性が低くなる．― 多数の共変量を含めることができない

― 誤った統計的モデルを用いると誤った結果を導く可能性がある．

複数の共変量を一つの変数(ものさし)におきかえ，そのもとで均衡化や層別化などを行い，誤った統計モデルを用いても「頑健」な結果をえることができる方法

傾向スコア分析(propensity score)

星野崇宏・岡田謙介：傾向スコアを用いた共変量調整による因果効果の推定と臨床医学・疫学・薬学・公衆衛生学分野での応用について，保健医療科学，55(3), 230-243, 2006.


2019.2.5傾向スコア分析を「世に知らしめた」論文の一つ

Lindenauer P.K. et al., NEJM, 2005, 353, 49-61.

心臓以外の大手術において，β遮断

薬を術前投与することの有用性について傾向スコア分析に基づいて評価している．

そこでは，β遮断薬投与群と非投与群に分けて，術前β遮断薬投与に

よって死亡リスクが提言するか否かを評価している．


2019.2.5傾向スコア分析を「世に知らしめた」論文の一つ

Revised Cardiac Risk Index（RCRI）心機能低下の評価指標として用いられている指標

(1) 高リスク手術(2) 冠動脈疾患の既往(3) 心不全所見(4) 脳血管障害の既往(5) インスリン依存性糖尿病(6) 腎不全

を用いて得点化している．

リスク因子が少ない患者に対するβブロッカーの投与は院内死亡を増加させる恐れがある．

一方で，高リスクな患者に対しては，βブロッカーの投与が院内死亡を減少させることに繋がる．


2019.2.5因果関係に関する模式図(Leite, 2017)

治療予測子(Treatment Predictor)

治療(Treatment)

アウトカム(Outcome)

ｱｳﾄｶﾑ予測子(Outcome Predictor)

交絡因子(True Confounder)

媒介因子(Mediator)

傾向スコアに基づく分析

それぞれの因子の意味(Brookhart et al., 2006)交絡因子：因果効果の偏りとバラツキの削減に繋がる．

アウトカム予測子：因果効果のバラツキの削減に繋がる(偏りは関係ない)．

傾向スコア分析

多変量解析

多変量解析

Leite, W: Practical Propensity Score Methods using R, SAGE, 2017.Brookhat, M.A. et al.: Variable selection for propensity score models, American Journal of Epidemiology, 163(12), 1149-1156.


2019.2.5傾向スコアで期待されること

処理群 z=1

対照群 z=0


全被験者

1| | ]1E[ ziy =

|1E[ ]iy≒ 0| | 0]E[ iy z =

≒

|0E[ ]iy

その他共変量

共変量

PS

共変量による投与群の選択性を揃えることで，処理の割付については偶発性のみに依存するようにする．これにより，群間の被験者層を揃えることができる．

傾向スコアの計算に用いた共変量は事後の調整因子等に用いない．

傾向スコアを用いることで複数の共変量から1つの変数に集約できる (傾向スコアモデルに関する適切性の評価をc統計量，疑似決定係数で評価すること(評価していない論文が多いことが指摘されている)

すなわち，傾向スコアとは，観察研究でのインバランスな群間のバランシングを行う「ものさし」となる．


2019.2.5傾向スコア解析の手順(Leite, 2017)

Step 目標手順の例

1. 準備解析可能な「完全な」データ集合を得る

・共変量選択・欠測値に対する処理

2. 傾向スコアの推定処理群と対照群に対して傾向スコアを推定する．

・ロジスティック回帰・Random Forests・一般化ブースティング樹木

3. 傾向スコア手順の実施

処理群と対照群の共変量の分布のバランスをとるための戦略を実施する．

・傾向スコア・マッチング・傾向スコア層化・IPW(傾向スコア重み付け)

4. 共変量のバランスの評価

処理群と対照群のあいだの共分散の分布のバランスが達成された程度を評価する．

・標準化された平均距離の計算・分散比の計算

5. 処置効果推定処置効果とその標準誤差を推定する．

・重み付け平均距離・一般化線形モデル

6. 感度分析除外された共変量が処置効果の有意性検定をどの程度変化させるかについて評価する．

・Rosenbaum(2002)の方法・Carnegie et al.(2016)の方法


2019.2.5傾向スコアの定義

Pr( 1| )i i ie z= = x

被験者i

ix共変量

処理

対照

投与される確率：

投与される確率：1 ie−

このとき，処理が投与される確率eiは傾向スコア(Propensity score)と呼ばれる．

・条件付き独立性：傾向スコアでの割付がアウトカムに影響しない

・バランシング：同じ傾向スコアの値に対応した共変量の分布は，それぞれの群で等しい．

ただし，傾向スコアを計算するのに用いた共変量の範囲でのことであり，観測されていない(あるいは，傾向スコアの計算に用いていない)共変量があり，それが交絡因子で

ある場合には，その限りではない）したがって，傾向スコアを計算するうえで，もちいる共変量は十分に吟味しなければならない．

傾向スコアの特徴

傾向スコアの推定方法として一般的に用いられる方法：ロジスティック回帰分析


2019.2.5論文における記載例

Annals of Surgery, 257(4), 640-646.

To estimate the propensity score, we fitted a logistic regression model for the receipt of laparoscopicgastrectomy as a function of patient demographic and hospital factors including age, sex, Charlsoncomorbidity index, body mass index, smoking index, cancer stage (I or II), hospital volumecategory, and type of hospital (teaching or nonteaching). The C-statistic for evaluating thegoodness of fit was calculated. Each patient who received laparoscopic gastrectomy wasmatched witha patient who received open gastrectomy with the closest estimated propensity on the logit scale withina specified range (≤0.6 of the pooled standard deviation of estimated logits) to reduce differencesbetween treatment groups by at least 90%. (後略)

早期胃がん患者に対する開腹切除術 vs. 腹腔鏡切除術の検討をしている

ロジスティック回帰を用いて傾向スコアを計算している

共変量年齢，性別，hospital volume(1年あたりの症例の手術件数)のカテゴリ，BMI，喫煙指数，ステイジ(I/II)，病院の種類(Teaching hospital or Nonteaching hospital)


2019.2.5先ほどの事例における傾向スコアの解釈

← 腹

腔鏡

切除

術←

開腹

切除

術

腹腔鏡手術が選ばれるべくして選ばれた患者

開腹手術が選ばれるべくして選ばれた患者


2019.2.5傾向スコアの留意点

傾向スコア(propensity score)

処理群

対照群処理・対照が完全に分離しているため，比較可能性が担保できない(いいかえれば，患者の違い明確であり，アウトカムを比較する状況にないことを示している)


処理群

対照群傾向スコアが重複している部分については，処理・対照のいずれも候補になり得る．このような状況においては，比較可能性が担保されている．

傾向スコアとは，処理が投与される確率で表される(つまり，傾向スコアは0～1の範囲をとる)．


2019.2.5傾向スコア推定における留意点

傾向スコア計算のための共変量xは，アウトカムへの影響を与える要因として考えるのではなく，治療選択zの根拠となるものを選択しなければならない(治療選択に交絡がない状況(条件付独立性)が担保されなければならない)．

治療選択の根拠となる共変量を選ぶ

共変量は治療選択前のものを選ぶ

傾向スコアは，「処理投与(あるいは一方の治療法の選択)の確率」である．したがって，傾向スコアの計算には，治療選択前のものを選ぶ．

傾向スコア推定の精度評価

傾向スコア推定の制度は，処理群と対照群での共変量の分布が同じであるかどうかで行うものであって，両群がうまく分離されているかどうかは評価指標にならない．

マッチング後の個々の共変量の要約統計量の評価，効果量，検定(批判的な論文もある)による評価

マッチング後の分布の比較(例えば，ヴァイオリンプロット)

● マッチングを用いた場合

―

―


2019.2.5傾向スコアの利用法

● マッチング

傾向スコアの一致した(あるいは極めて近い)個体同士を選択する．

● 層別

傾向スコアを用いて層別(5層程度)したうえで層別解析を行う．

● 逆確率重み付け(IPWE: Inverse Probability Weighting Estimator)傾向スコアを用いて層別(5層程度)したうえで層別解析を行う．

● 共分散分析

傾向スコアを共変量にとった共分散分析を実施する．

実際の応用分野では，マッチングあるいは逆確率重み付けを用いることが多いようである．

これらの手法はいずれかを使うということではなく，組み合わせて用いることもできる．例えば，マッチング後に共分散分析を行うことが考えられる．


2019.2.5マッチング

項目説明

マッチングのアルゴリズム

・最近傍マッチング(nearest neighbor matching)処理群の任意の個体に対して，傾向スコアが最も近い対照群の個体を逐次に探索する方法(マッチグの順番の影響を受ける)

・最適マッチング(optimal matching)マッチング後の傾向スコアの距離の合計値が最小になるようにマッチングを行う．

マッチング後の対照群の個体の取扱い

・復元マッチング

処理群の異なる個体に対して同じ対照群の個体を対応させることを許容する．

・非復元マッチング

処理群の異なる個体に対して同じ対照群の個体を対応させることを許容しない．

マッチングの比率・ 1：1マッチング1名の治療群と1名の対照群をマッチングを行う．

・固定比マッチング(1：kマッチング)1名の治療群とk名の対照群をマッチングを行う．

・変動比マッチング1名の治療群と複数(個体毎に変動，上限のみ設定)の非暴露群でマッチングを行う．

キャリパー(マッチングさせる許容領域)の設定

キャリパーとは，マッチングさせる許容領域を表しており，マッチングされたペアの傾向スコアの距離がキャリパー以上であればマッチングしない．


2019.2.5マッチング後の対照群の個体の取扱い

処理群

既存薬群

STEP.1処理群

既存薬群

STEP.2復元マッチング

・・・

処理群

既存薬群

STEP.1処理群

既存薬群

STEP.2非復元マッチング

・・・

復元マッチングでは，処理群の異なる個体に対して同じ対照群の個体を対応させることを許容し，非復元マッチングでは許容しない．

そのため，バイアス低減の点では，非復元マッチングのほうが優れているが，復元マッチングは殆ど用いられていない．

非復元マッチングでは選択する個体の順番の影響を受ける (強欲マッチング以外を利用した場合)．

マッチング数(例数)が少ない場合には，復元マッチングが推奨される(Rosenbaum,1989)．

一方で，マッチング数が多くなるにつれて，二つの差はほとんどなくなる．

岩崎(2015)では，非復元マッチングが推奨されている．


2019.2.5マッチングの比率

■ 1:1マッチング[one-to-one matching]1名の処理群と1名の対照群でマッチングする方法である．― 例数の減少が最も顕著であるが，群間の例数の不均衡が起こらない．したがって，

検出力の低下が最も少ない(Cohen, 1988)．

■ 固定比(1:k) マッチング[fixed rate matching, one-to-k matching]1名の処理群とk名の対照群でマッチングする方法である．― 最も推奨されないマッチング法である(Leite, 2017)．

■ 変動比マッチング[variable rate matching, one-to-many matching]1名の処理群と複数(個体ごとに変動，上限のみ設定)の対照群でマッチングする方法― 処理群の例数が対照群の例数よりもかなり少ない場合には有効(Leite, 2017)．― 変動比マッチングは1:1マッチングに比べてバイアス除去に優れている(Cepeda et al,

2003; Gu & Rosenbaum, 1993; Ming & Rosenbaum, 2000)

処理群

対照群

1:1マッチング

処理群

対照群

処理群

対照群

固定比マッチング(ここではk=2)

変動比マッチング


2019.2.5キャリパー(マッチングさせる許容領域)の設定

処理群

対照群

許容される範囲(キャリパー)

処理群

対照群

最近傍法キャリパーを伴う最近傍法

■ 最近傍マッチング [Nearest neighbor]処理群に一番近い傾向スコアを持つ対照群をマッチングする方法である．

■ キャリパーを伴う最近傍マッチング[Nearest neighbor within caliper]マッチングさせる許容領域(キャリパー)を設定した最近傍マッチング(キャリパーを大きくするほどマッチングされる個体は増加する)．― Rosenbaum & Rubin(1985)は0.25×SDをキャリパーに設定することを推奨している

(0.20を推奨する報告もあるため，0.25～020を推奨している)．

キャリパーを設定することが一般的である．


2019.2.5最適(Optimal)マッチング

ID PST1 0.46T2 0.92T3 0.89T4 0.63T5 0.72T6 0.32T7 0.28

ID PSC1 0.28C2 0.12C3 0.68C5 0.26C5 0.51C6 0.31C7 0.48

ID PS ID PS 距離T7 0.28 C2 0.12 0.16T6 0.32 C5 0.26 0.06T1 0.46 C1 0.28 0.18T4 0.63 C6 0.31 0.32T5 0.72 C7 0.48 0.24T3 0.89 C5 0.51 0.38T2 0.92 C3 0.68 0.24

最適マッチング

合計=1.58

最適マッチング(Optimal matching)とは，PSの距離の合計値が最小になるようにペアを作る

・処理群と対照群の標本サイズに違いが大きいとき，強欲マッチングに比べて顕著に優れている．

・標本サイズが大きい場合には，強欲マッチングとの差は小さい．

その他のマッチングの方法としては，遺伝的マッチング(Genetic matching)，フルマッチング(full matching)などがある．


2019.2.5先ほどの事例における傾向スコア

マッチング前マッチング後

傾向

スコ

ア

マッチング後に共変量の分布が揃っていることがわかる

We performed a one-to-one matching analysis between laparoscopic and open

distal gastrectomy groups on the basis of estimated propensity scores of each

patient.

論文の記載

この論文ではマッチング方法が未記載


2019.2.5各共変量の比較

マッチング後に各共変量のp値が有意ではない．



2019.2.5マッチングのその他の事例

Lung Cancer, 120, 88-90, 2018

小細胞肺がん患者の脳転移に対する全脳照射療法(WBRT)と定位放射線手術(SRS)の比較

(前略) Propensity score matching (PSM) was also performed. Ten-to-one matching without replacement was completed using the nearest neighbor match on the logit of the propensity score for treatment approach with caliper width set to 0.05 times the standard deviation of the logit of the propensity score. (後略)

論文の記載


2019.2.5マッチング後の解析

マッチドペア解析

VS

独立2標本

連続値

対応のあるt検定

2値応答

McNemar検定，条件付きロジスティック回帰

生存時間

層別ログランク検定，層別比例ハザードモデル

連続値

2標本t検定

2値応答

カイ2乗検定，ロジスティック回帰

生存時間

ログランク検定，比例ハザードモデル

マッチングを反映した(マッチドペア解析によって)解析を行うほうが良い(Austin, 2008)．

― マッチングを反映させたほうが有意になりやすい(水澤, ICR-Web)．

傾向スコアは両群における共変量の分布が等しいことを保証するものであり，個体レベルまで近いとことまでは保証していない(Hill & Stuart, 2008; Ho et al., 2007, Schafer and Kang(2998), 岩崎(2015))．

― マッチドペアで取り扱うことは推奨されない．

結局のところ，問題は解決していない(下川は独立2標本で解析している)


2019.2.5マッチング後の解析の例示

■ 小細胞肺がん患者の脳転移に対する全脳照射療法(WBRT)と定位放射線手術(SRS)の比較

ログランク検定

■早期胃がん患者に対する開腹切除術 vs. 腹腔鏡切除術の検討 Wilcoxon符号付順位検定


2019.2.5バランスの評価

各共変量の分布のバランスの確認

群間のバランスをp値で評価するのは適切でない(Yang & Dalton, 2012)

標準化差スコア(Standardized difference score)の利用

■ 量的変数

( )1 0

cont 2 21 0 2

x x

sd

s+

−=

標準化差スコアの95%信頼区間は以下のように計算される

処理群における共変量の平均値1 02 21 0

: :

: :s s

x x 処理群における共変量の分散

対照群における共変量の平均値

対照群における共変量の分散

■ 2値変数

( )1 0

bin1 1 0 0(1

ˆ ˆˆ ˆ ˆ 2ˆ) (1 )

p pdp p p p− + −

−= 処理群における割合1

0

::

ˆˆpp

対照群における割合

21 0

1 0 1 22( )1.96 n n d

n nd

n n±

× ++

+


2019.2.5標準化差スコアの表記例

J Vasc Surg Venous Lymphat Disord. 5(2),171-176. 2017

急性肺血栓症の治療において，抗血栓療法はカテーテル療法に比べて，院内死亡率を改善するに至らない一方で，出血性脳卒中のリスクを増大させることを示したデータベース研究である．


P値は標本サイズに依存するため，大規模な

観察研究ほどマッチング後も有意になりやすい．これに対して，標準化差スコアでは標本サイズに依存しない．標準化スコアの絶対値が0.1未満であればバランスがとれていると判断する．

A standardized difference (Std diff) of < 0.1 suggests adequate variable balance after propensity matching


2019.2.5マッチングの利点と欠点

■ 利点

(1)わかりやすく，統計の知識がなくても使える．

(2)他の手法に比べてバイアスが入りにくい．

(3)マッチング後の解析が容易である．

■ 欠点

(1)マッチングにコストがかかる．また，マッチングを行うと標本サイ

ズが必ず少なくなる．

(2)標本サイズの減少に伴い，標準誤差(標準偏差を標本サイズの平方根

で割ったもの)が増加するため，推定効率が下がる場合がある．

(3)他の方法(事後的な共分散分析や事後層別)に比べて必ずしも効率が

良い方法ではない．


2019.2.5層別化のお話の前に：仮想例

これは，新薬を投与した110例と既存薬を投与した71例を調査した後ろ向き研究のデータである．共変量としては，性別，年齢，喫煙の有無，BMI，重症度スコアが計測されている．

01

(a)性別 [p値=0.1500]

新薬既存薬

男性

女性

0 1

(c)喫煙 [p値=0.0048]

喫煙

非喫煙

010

2030

4050

6070

年齢

(b)年齢 [p値=0.6040]

0

5

10

15

20

25

30

年齢

(d)BMI [p値=0.0632]

0

2

4

6

8

10

12

重症度スコア

(e)重症度スコア [p値<0.0001]

新薬既存薬新薬既存薬

新薬既存薬新薬既存薬


2019.2.5傾向スコア層別化

0.2 0.4 0.6 0.8 Propensity Score

Active

Controlmin 20% 40% 60% 80% max

層1 層2 層3 層4 層5

層1 層2 層3 層4 層5 合計

Active (新薬) 5 9 6 23 28 71Control (既存薬) 32 27 30 13 8 110合計 37 36 36 36 36 181

各層の症例数

傾向スコアで層に分ける(Stratify)ことにより，共変量の影響を除去する方法を傾向スコア層別化(propensity score stratification)という．

症例の割合で加重平均をとる方法が傾向スコア層別化である．


2019.2.5傾向スコア層別化：通常法

Active (新薬) 0.40 0.56 0.17 0.39 0.46Control (既存薬) 0.16 0.07 0.27 0.25 0.25処理効果 (A – C) 0.24 0.48 -0.10 0.14 0.21

各層の有効率

新薬群z=1

既存薬群z=0

新薬既存薬

1| | 0]E[ iy z =0| | 0]E[ iy z =

1| | ]1E[ ziy = 0| | ]1E[ ziy =

欠測値

欠測値

|1E[ ]iy |0E[ ]iyATE

ATT


Active (新薬) 5 9 6 23 28 71Control (既存薬) 32 27 30 13 8 110合計 37 36 36 36 36 181

各層の症例数

ATE , ATTk kk k= =(層の症例数) 層のActive群での症例数

層のでの重み層のでの重み全症例数 Active群の全症例数

ATEの重み 0.20 0.20 0.20 0.20 0.20ATTの重み 0.07 0.13 0.08 0.32 0.39


2019.2.5傾向スコア層別化における治療効果の推定：通常法

推定値： ) )( ( kk∆ = ×∑層の個数

層の治療効果層の重み

処理効果 × ATEの重み 0.048 0.096 -0.020 0.028 0.042

処理効果 × ATTの重み 0.017 0.062 -0.008 0.045 0.082

0.1940.198

■ 平均処理効果(ATE:Average Treatment Effect)

調整なしの場合= 0.241 (新薬群：0.423，既存薬群：0.182)

Active (新薬) 0.40 0.56 0.17 0.39 0.46

Control (既存薬) 0.16 0.07 0.27 0.25 0.25

処理効果 (A – C) 0.24 0.48 -0.10 0.14 0.21

各層の有効率

ATEの重み 0.20 0.20 0.20 0.20 0.20

ATTの重み 0.07 0.13 0.08 0.32 0.39

各層の重み

■ 新薬群の平均処理効果(ATT: Average Treatment effect for Treated)


2019.2.5

層別化解析における周辺平均重み付けMMWS (Marginal Mean Weighting through Stratification; Hong, 2012)

通常法では，層に対して群に関係なく同じ重みを設定する．これに対して，群毎に異なる重みを設定する方法がMMWSである．

層1 層2 ・・・層S処理群(z=1) n11 n21 ・・・ nS1

対照群 (z=0) n10 n20 ・・・ nS0

合計 n1 n2 ・・・ nS

割合

処理群(z=1) p1

対照群 (z=0) p0

ATE：層sの群zでの重みs z

szsz

nw pn×

= ATT：層sの群zでの重み1 0

0 1

(1 ) ssz

s

nw z zn

pp

+ −××

=

層1 層2 層3 層4 層5 合計割合

新薬 (処理群) 5 9 6 23 28 71 0.392

既存薬 (対照群) 32 27 30 13 8 110 0.608

合計 37 36 36 36 36 181ATE 新薬での重み 2.90 1.57 2.35 0.61 0.50

既存薬での重み 0.70 0.81 0.73 1.68 2.74ATT 新薬での重み 1.00 1.00 1.00 1.00 1.00

既存薬での重み 0.24 0.52 0.31 2.74 5.43


2019.2.5

層別化解析における周辺平均重み付けMMWS (Marginal Mean Weighting through Stratification; Hong, 2012)

0.2 0.4 0.6 0.8 Propensity Score

Active

Control

min 20% 40% 60% 80% max

Active群に対する重み

Control群に対する重み

MMWSは，IPWの代替として用いることができる(Linden, 2017)．

層1 層2 層3 層4 層5新薬 (処理群) 5 9 6 23 28既存薬 (対照群) 32 27 30 13 8

合計 37 36 36 36 36ATE 新薬での重み 2.90 1.57 2.35 0.61 0.50

既存薬での重み 0.70 0.81 0.73 1.68 2.74


2019.2.5MMWSに基づく推定値の計算

Horovitz-Thompson型推定量

1

1

( 1 ) ( 1 1 )1

( 0 ) ( 1 0 )0

s

s

s z zz

s z zz

=

=

= ==

= =

×∆ =

×−

=

∑

∑

層の個数

層の個数

層でのの重み層でののアウトカム

の重みの総和

層でのの重み層でののアウトカム

の重みの総和

Active (新薬) 0.40 0.56 0.17 0.39 0.46Control (既存薬) 0.16 0.07 0.27 0.25 0.25


ATE 新薬での重み 2.90 1.57 2.35 0.61 0.50 7.94既存薬での重み 0.70 0.81 0.73 1.68 2.74 6.66

ATT 新薬での重み 1.00 1.00 1.00 1.00 1.00 5.00既存薬での重み 0.24 0.52 0.31 2.74 5.43 9.24

ATE 新薬での有効率 0.15 0.11 0.05 0.03 0.03 0.37既存薬での有効率 0.02 0.01 0.03 0.06 0.10 0.22

ATT 新薬での有効率 0.08 0.11 0.03 0.08 0.09 0.40既存薬での有効率 0.00 0.00 0.01 0.07 0.15 0.24

■ 平均処理効果(ATE:Average Treatment Effect)： ATE 0.15∆ =

■ 新薬群の平均処理効果(ATT: Average Treatment effect for Treated)： ATT 0.16∆ =


2019.2.5層別化を用いた文献例

Journal of Surgical Research, 210,204-212, 2017.大腸がん患者における人工肛門造設術の急性腎疾患及び慢性腎臓病のリスクに関する観察研究

To account for selection bias inherent to a retrospective study, a propensity score was calculated for eachpatient, which assessed the probability of ileostomy creation conditional on the observed covariates. Thecovariates used in building the propensity score were age, gender, race, marital status, BMI, Charlsoncomorbidity index, history of diabetes, baseline creatinine, cancer stage, and surgical approach. All patientswere stratified into quintiles based on their corresponding propensity score and included in the analyses. Weassessed the adequacy of the propensity score specification by comparing the standardized difference (withtheir corresponding P values) in baseline covariates after stratification, between those in the ileostomy and noileostomy groups. A standardized mean difference of <0.1 or P > 0.05 was used to indicate no significantdifference between baseline covariates.

共変量：年齢，性別，人種，婚姻状況，BMI，Charlson合併症指数，糖尿病歴，ベースラインでのクレアチニン，癌のステイジ，外科的アプローチ

層別化：５層に層別化


2019.2.5層別化を用いた文献例

人工肛門造設術による腎障害リスク

再入院を必要とする急性腎障害 (OR) PSなし

PS調整

PSなし

PS調整

PSなし

PS調整

術後12カ月での重度腎疾患 (OR)

重度腎疾患の経時的発症リスク (HR)

大腸癌手術における人工肛門造設術は，重要な手術であるものの，その後の腎障害への管理は重要であることを指摘している．


2019.2.5層別化の留意点

■ 層化の方法

(1)両群の観測値の標本サイズm+nをもとに各層のパーセンテージを定める．

(2) 処理群の標本サイズmをもとに各層のパーセンテージを決める．

(3) 対照群の標本サイズnをもとに各層のパーセンテージを決める．

― 平均処理効果(ATE:Average Treatment Effect)の推定を想定する場合

― 処理群の平均処理効果(ATT: Average Treatment effect for Treated)の推定を想定する場合

― 対照群の平均処理効果(ATC: Average Treatment effect for Controlled)の推定を想定する場合

各層で両群の傾向スコアの分布の重なり具合が大きくないと，適切な処理効果の推定ができない惧れがある (岩崎, 2015)．


2019.2.5逆確率重み付け(IPW: Inverse Probability Weighting)法


処理群

対照群

傾向スコアの逆数で重みづけ

アウトカムの重み

アウトカムの重み

１－傾向スコアの逆数で重みづけ

逆数重み付け法の場合とは，傾向スコアにおいて処理群，対照群が選択された必然性が小さい個体の影響を強く，必然性が大きい個体の影響を弱くするように重みを付ける方法である．

平均処理効果(ATE:Average Treatment Effect)のイメージ

逆確率重み付け(IPW: Inverse Probability Weighting)法をIPTW(Inverse Probability Treatment Weighting)と記載している文献もある．


2019.2.5IPWにおける重み

■ 平均処理効果(ATE: Average Treatment Effect)

11

i

i

i

ieze

z −−

= +被験者iのATEでの重みzi：1のとき処理群，0のとき対照群

ei：傾向スコア

処理群では1/(傾向スコア)の重み対照群では1/(1-傾向スコア)の重み

■ 暴露群の平均処理効果(ATT: Average Treatment effect for Treated)

(1 )1

iii

i

z eze

−−

= +被験者iのATEでの重みzi：1のとき処理群，0のとき対照群

ei：傾向スコア

処理群の重みは1 対照群の重みはオッズ比


2019.2.5IPWにおける重み：数値例

傾向スコアe ATE ATT処理群対照群処理群対照群

0.125 8.000 1.143 1.000 0.1430.250 4.000 1.333 1.000 0.3330.375 2.667 1.600 1.000 0.6000.500 2.000 2.000 1.000 1.0000.626 1.597 2.674 1.000 1.6740.750 1.333 4.000 1.000 3.0000.875 1.143 8.000 1.000 7.000

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

0 0.2 0.4 0.6 0.8 1

重み

傾向スコア

0.0

1.0

2.0

3.0

4.0

5.0

6.0

7.0

8.0

9.0

0 0.2 0.4 0.6 0.8 1

重み

傾向スコア

ATEの重み ATTの重み

対照群確率大処理群確率大対照群確率大処理群確率大

対照群

処理群

処理群

対照群


2019.2.5平均処理効果の推定

Horovitz-Thompson型推定量

1

1

( ) ( )

( ) ( )i

j

i i

j j=

=

×∆ =

×−

∑

∑

暴露群の被験者数

非暴露群の個数

被験者の重み被験者のアウトカム

暴露群の重みの総和

被験者の重み被験者のアウトカム　　

非暴露群の重みの総和

傾向スコアe ATE アウトカム重み付きアウトカム暴露群非暴露群暴露群非暴露群暴露群非暴露群

0.125 8.000 1.143 35 10 13.50 0.550.250 4.000 1.333 40 15 7.71 0.960.375 2.667 1.600 45 20 5.79 1.540.500 2.000 2.000 50 25 4.82 2.410.626 1.597 2.674 55 30 4.24 3.870.750 1.333 4.000 60 35 3.86 6.750.875 1.143 8.000 65 40 3.58 15.42

合計 43.5 31.5治療効果 12.0

傾向スコアを用いない場合が50.0-25.0=25.0であることから，IPWでの重み付け推定量の場合のほうが，減少している．


2019.2.5IPWにおける注意点

IPWでは傾向スコアの逆数で重み付けを行う．そのため，傾向スコアが極端に小さい(あるいは大きい)場合には，重みが非常に大きくなる．たとえば，

(対照群に属する被験者のPS) = 0.999 → (ATEにおける重み)=1000

Leite (2017)は，この問題に対応する方策として，次を挙げている：

(1) 傾向スコアを計算するモデルの誤特定に起因していないか点検する．

(2) 傾向スコアの方法を変更する(例えば，層別化法など)

(3) 重みの打ち切り(weight truncation)を行う

Lee et al.(2011)は，任意のパーセント点をそれ以上の重みをもつ個体に割り当てることを提案しており，Gurel & Leite(2012)はその基準として99%点の適用を推奨している．

(4) 安定化重み(stabilized weights)を用いるHarder et al.(2010)は，群毎に安定化を行うための定数を掛け合わせることで，上記の問題に対処している．


2019.2.5IP(T)Wを用いた文献例

European Urology, 71, 714-718, 2017

転移性上部尿路上皮癌に対する全身化学療法＋根治的腎盂腎切除術 vs. 全身化学療法の後ろ向き観察研究の結果である．

To account for potential selection bias, observed differences in baseline characteristicsbetween patients who received chemotherapy plus RNU and those who receivedchemotherapy alone were controlled for with an inverse probability of treatment weighting(IPTW)–adjusted analysis. Balance in covariates between treatment groups before andafter IPTW adjustment was assessed using the standardized difference approach. IPTW-adjusted Kaplan-Meier curves and log-rank test were used to compare OS betweenpatients who received chemotherapy plus RNU and those who received chemotherapyalone.

IPTWに基づいて調整を行い，重み付きKaplan-Meier曲線及びログランク検定により評価している．


2019.2.5IP(T)Wを用いた文献例の結果

IP(T)Wにおける調整Kaplan-Meier推定量は，リスク集合を構成する被験者，及びイベントがあった被験者に関する重み付きによって計算される．


2019.2.5傾向スコア分析に関する成書

Guo, S. Fraster, M.W. SAGE Publications, 2014. Leite, W. SAGE Publications, 2017. Imbens, G.W, Rubin, D.B. Cambridge Univ. Press., 2015.

Holmes, W.M. SAGE Publications, 2013.

Pan, W., Bai, H. Guilford Pubn, 2015. 星野崇宏, 岩波書店, 2009. 岩崎学, 朝倉書店, 2015.Faries, D. et al. SAS Inst., 2010


2019.2.5

[email protected]

ご清聴ありがとうございます


2019.2.5JMPを用いた解析

[STEP.1] Propensity scoreを計算 (ここではロジスティック回帰)

(1) 「分析」→「モデルのあてはめ」を選択(2) 「役割変数の選択」に『グループ変数(名義尺度)』，「モデル効果の構成」に共変量

を選択する．(3) 「▼」から「確率の計算式の保存」を選択する(もとのデータセットに予測値が表示さ

れる)．

[STEP.2] 事前に入手したアドイン(上記参照)をインストールした場合，以

下のメニューが追加される．

http://www.jmp.com/content/dam/jmp/documents/jp/support/propensityaddin.zip

JMPでは，キャリパーを伴う1：1最近傍マッチングの方法をアドインとして公開している．


2019.2.5[STEP.3] マッチングを行う．

(1) 「アドイン」→「最近傍マッチングの実行」を選択(2) 「Y,応答変数」に『アウトカム』，「T, 処理変数」に『グループ変数』，「マッチン

グに使うスコア」に『線形[1]』を選択．(3) 「ロジットを変換するか」のチェックを外す．(4) 「元データにペアの列を追加するか？」にチェックを入れる．(5) キャリパーを任意で設定(0～1であり，推奨は0.2～0.25)

[STEP.4] 治療効果を推定する．

(1) 「分析」→「二変量の関係」を選択(2) 「Y, 目的変数」に『アウトカム』，「X, 説明変数」に『グループ変数』，「By」に

『マッチングした？』を選択する．

出力は，「マッチングした」のみを通常の解析方法と同様に解釈する．


2019.2.5傾向スコアマッチングの卑近な適用：EZRを用いた場合

Sex：性別(M：男性，F：女性)， Age：年齢，Smoke：喫煙歴(1：有，0：無)， BMI：Body Mass Index，Score：重症度スコア， group：薬剤(A:新薬，C：既存薬)Outcome：アウトカム(1：改善，0：非改善)

新薬(A)を投与した71例と既存薬B(C)を投与した101例の背景因子(性別，年齢，喫煙の有無，BMI，重症度スコア)と治療効果を調査した後ろ向き研究のデータである．

[STEP.1] 傾向スコアを計算する．

応答変数： group(薬剤)説明変数： Sex(性別)，Age(年齢)，Smoke(喫煙歴)，BMI，Score(重症度スコア)

[STEP.2] 傾向スコアを用いてマッチングする．

[STEP.3] マッチングしたデータを用いて解析を行う．

＊連続変数の場合には，2値化をしてはいけない．


2019.2.5CSVファイルの読み込み

NAは欠測

CSVファイルはカンマ区切り，

その他のテキストファイルはnotepadなどで確認する．

PSexample.csv

最初の列は変数名

最初の列が変数名ならば，チェックを入れる．

あとは，「PSexample.csv」を読み込めばよい．


2019.2.5データの概要

グループ変数： group(薬剤)連続変数：年齢(Age)，BMI， Score(重症度スコア)カテゴリカル変数： Sex(性別)，Smoke(喫煙歴)

group

SexSmoke

AgeBMIScore


2019.2.5結果

groupA C p.value71 110

Sex (%) F 19 (26.8) 41 (37.3) 0.150M 52 (73.2) 69 (62.7)

Smoke (%) 0 37 (52.1) 80 (72.7) 0.0071 34 (47.9) 30 (27.3)

Age 54.11 (8.62) 53.45 (8.32) 0.604BMI 25.03 (3.77) 24.10 (2.92) 0.063Score 8.85 (1.68) 7.30 (1.94) <0.001

クリップボードのデータからExcelで作成

喫煙歴，重症度スコアが有意である．したがって，この研究の被験者層において，これらの共変量に対して違いが認められる．


2019.2.5[STEP.1] 傾向スコアの計算

傾向スコアは，通常のロジスティック回帰によって求めることができる．

チェックを入れると傾向スコアの変数が追加される

群(group) 傾向スコアを求めるための共変量

新たな変数(傾向スコア)が追加される．


2019.2.5(余談) 傾向スコアをグラフ表示する

傾向スコア

グループ


2019.2.5箱ひげ図

A C

0.2

0.4

0.6

0.8

Pro

pens

ityS

core

.GLM

.1

傾向スコアが小さい被験者は新薬(A)を投与されているが対照薬(C)を投与されている被験者は少ない．

傾向スコアが小さい被験者は対照薬(C) を投与されているが新薬(A)を投与されている被験者は少ない．

新薬(A)と対照薬(C)のいず

れも投与される可能性がある．


2019.2.5マッチングの方法

卑近なマッチング

キャリパーを設定できないので推奨されない．

Rを応用する(追加パッケージmatchingを利用する)

matchingパッケージではグループ変数が0(コントロール群)，1(アクティブ群)で定義しなければならない(グループ変数groupはAとCになっている)．

「アクティブデータセット」→「変数の操作」→「ダミー変数を作成する」

新たに生成される変数

groupDummyGroupA処理群(A)を1，対照群(C)を0とした場合

groupDummy.GroupC処理群(A)を0，対照群(C)を1とした場合

群(group)新たに作成される変数の接頭文字

Dummy.group


2019.2.5Rを用いた解析

これは1回やればよい(毎回実施しなくてもいい)

[STEP.1] パッケージmatchingをインストールする

install.packages("Matching")

入力する入力したコマンドをドラックする

実行ボタンを押す

質問はすべてOKSecure CRAN mirrorsのメニュー

Japan(Tokyo)[https]を選択する

[STEP.2] パッケージmatchingを読み込む



library(Matching)


2019.2.5(余談) 変数名を確認するには？

Click

変数名

利点：開いたまま解析できる，欠点：データを編集できない

変数名

利点：データを編集できる，欠点：開いたまま解析できない

Click


2019.2.5Rによる傾向スコアの計算（続き）

Match(Y=応答，Tr=群, X=傾向スコア, caliper=キャリパー, ties=F, replace=F)

パッケージmatchingにおけるマッチングの関数

Outcome

groupDummyGroupA

PropensityScore.GLM.1試験薬(A)が1，コントロール群(C)が0のダミー変数

傾向スコアの値

0.20～0.25の間で自由に設定

attach(Dataset)Matching <- Match(Y=Outcome, Tr=groupDummy.GroupA, X=PropensityScore.GLM.1, caliper=0.25,ties=F, replace=F)detach(Dataset)summary(Matching)

[STEP.3] マッチングを行う




2019.2.5マッチング結果

被験者総数

試験群の例数

マッチング後の方群当たりの例数


2019.2.5Rによる傾向スコアの計算（続き）

treat <- Dataset[Matching$index.treated,]control <- Dataset[Matching$index.control,]Match.data <- rbind(treat,control)

[STEP.4] マッチング後のデータを抽出する



マッチングされたデータが新たなデータ集合Match.dataに保存される．

Match.dataを選択してOKボタンを押す


2019.2.5マッチング後の傾向スコアの分布を箱ひげ図で確認する

A C

0.2

0.4

0.6

0.8

Pro

pens

ityS

core

.GLM

.1

A C

0.2

0.4

0.6

0.8

Pro

pens

ityS

core

.GLM

.1


明らかにマッチング後では分布の違いが認められなくなった．


2019.2.5共変量毎に確認する．


Sex (%) F 19 (26.8) 41 (37.3) 0.150M 52 (73.2) 69 (62.7)

Smoke (%) 0 37 (52.1) 80 (72.7) 0.0071 34 (47.9) 30 (27.3)

Age 54.11 (8.62) 53.45 (8.32) 0.604BMI 25.03 (3.77) 24.10 (2.92) 0.063Score 8.85 (1.68) 7.30 (1.94) <0.001


Sex (%) F 14 (33.3) 16 (38.1) 0.820M 28 (66.7) 26 (61.9)

Smoke (%) 0 27 (64.3) 26 (61.9) 1.0001 15 (35.7) 16 (38.1)

Age 54.83 (9.38) 53.52 (7.84) 0.490BMI 24.61 (2.96) 24.14 (3.16) 0.482Score 8.26 (1.65) 8.31 (1.94) 0.904

分布間の差が認められなくなった


2019.2.5主要評価項目の評価

group

Outcome

行のパーセントを選択

フィッシャーの正確検定


2019.2.5

アウトプット

> rowPercents(.Table) # 行のパーセント表示Outcome

group 0 1 Total CountA 50.0 50.0 100 42C 73.8 26.2 100 42

> fisher.test(.Table)

Fisher's Exact Test for Count Data

data: .Tablep-value = 0.04238alternative hypothesis: true odds ratio is not equal to 195 percent confidence interval:0.1272557 0.9693956sample estimates:odds ratio0.3594044

> res <- NULL> res <- fisher.test(.Table)> Fisher.summary.table <- rbind(Fisher.summary.table, summary.table.twoway(table=.Table, res=res))> colnames(Fisher.summary.table)[length(Fisher.summary.table)] <- gettextRcmdr(+ colnames(Fisher.summary.table)[length(Fisher.summary.table)])

> Fisher.summary.tableOutcome=0 Outcome=1 Fisher検定のP値

group=A 21 21 0.0424group=C 31 11

C/Aのオッズ比(A/Cのオッズ比は逆数を取ればよい)

新薬と既存薬で有効割合に有意な違いが認められた．

有効割合

アウトプット

医学統計セミナー第4回 傾向スコア分析 ·...

Documents

医学統計セミナー第4回傾向スコア分析 ·...