uso del propensity score jubc

40
II JORNADA DE ACTUALIZACIÓN METODOLÓGICA: Avances en Análisis de Supervivencia Hospital Ramón y Cajal Madrid 28 de Enero de 2011 Jose I Pijoán (CIBERESP)Lorea Martínez Indart Unidad de Epidemiología Clínica y Apoyo a la Investigación Hospital de Cruces (Bizkaia) Arantza Urkaregi (Dpto. Matemática Aplicada e Inv. Op.UPV) 1

Upload: maria-peche

Post on 27-Dec-2015

39 views

Category:

Documents


2 download

DESCRIPTION

Un ejemplo claro de como usarlo, gracias a .

TRANSCRIPT

II JORNADA DE ACTUALIZACIÓN METODOLÓGICA:Avances en Análisis de SupervivenciaHospital Ramón y CajalMadrid 28  de Enero de 2011

Jose I Pijoán (CIBERESP)‐Lorea Martínez IndartUnidad de Epidemiología Clínica y Apoyo a la InvestigaciónHospital de Cruces (Bizkaia)Arantza Urkaregi (Dpto. Matemática Aplicada e Inv. Op.‐UPV)

1

I‐Validez estudios comparativos

Evaluación = estudios comparativos (controlados)Validez: grado de credibilidad en resultados

Interna/Externa (aplicabilidad)Dependiente del diseño

Calidad de los datos Variables relevantes/Calidad de medición/GeneralizabilidadObservaciones faltantes

Selección adecuada de la población‐individuosInclusión y exclusión/GeneralizabilidadTamaño muestral

Resultados relevantesVariables combinadas/Interpretación apropiada

Seguimiento suficientePérdidas

Análisis adecuadoComunicación  honesta e inteligente

2

Estudios experimentales (I)

Asignación aleatoriaNo manipulableIndependiente de factores pronósticosIndependiente de resultadosControl por factores  observablesControl por factores no observables

Diseños especialesCross‐over, secuenciales, factoriales, en clusters, comunitarios

Alto nivel de evidencia reconocidoIa: metaanálisis de RCT, RCT bien diseñadosIb: al menos un RCTIIa: estudio controlado bien diseñado, no aleatorio IIb: estudios de cohortes (asignación no controlada pero efecto evaluable)

Asignación ignorable

Recomendación A

Recomendación B

3

Estudios experimentales (II)

PROBLEMAS‐LIMITACIONESCaros, complicados logísticamenteSelección muy rigurosa (contexto de “laboratorio”)Elección del control/referenteAceptabilidad y factibilidad dudosa  (Salud Pública)¿Éticamente  aceptables? (no intervención, placebo)Variables resultado relevantes (composite outcomes)Tiempo de seguimiento y evaluación

CONSECUENCIASProblemas de validez externaNo siempre el diseño deseable ni posible

Intervenciones comunitariasProgramas 

4

II‐Estudios observacionales evaluativos (analíticos)

Más realistas (resultados más “creíbles”)Poblaciones  “comunes”Uso de sistemas de información disponiblesA veces el único diseño posible

PROBLEMASasignación de intervención no aleatoria

Reglas complejas (explícitas e implícitas)AutoselecciónFactores educativos, culturalesFactores del sistema (sanitario, social, educativo), burocráticosFactores socioeconómicosLocalización geográficaFactores desconocidos (no observables)

Selection biasAsignación dependiente de factores preintervenciónAsignación asociada a resultados (cumplidores)

¿VALIDEZ DE RESULTADOS?

Confusión

5

Métodos clásicos de control de sesgo

Diseños especiales (case‐crossover, case‐time control)Exposiciones intermitentes, efectos agudos

Restricción de variables (muy drástico)Estratificación (diseño‐análisis)

Creación de grupos similares en factores relevantesAnálisis de resultados en grupos similares (modificación del efecto evaluable)Problema si los grupos dependen de muchas variables (multidimensionalidad)

Emparejamiento (matching)Creación de población de comparación adecuada, según factores relevantesProblema si la similitud depende de muchos factores (multidimensionalidad)Falta de parejas‐overmatching

Ajustes analíticosModelos multivariables (regresión)Modelo basado en relación entre factores pronósticos y resultadoPermite evaluar el efecto de confusores (conocidos)Sensibilidad a decisiones operativas, problemas si modificación del efecto

6

Técnicas más novedosas

Desde múltiples disciplinasSociología, Educación, Estadística, Epidemiología y Salud Pública, Econometría

A veces terminologías confusas

Algunas técnicasEcuaciones estructurales (Economía)Modelos multinivel (interacciones entre niveles de medición)Modelos de variables latentes (hidden variables)Modelos bietápicos (two‐step): relación con PS en algunos modelosVariables instrumentales (regresión discontinua) (Economía)

PROPENSITY SCORE ANALYSISÍndice (puntuación) de propensiónConjunto de técnicasContinuo desarrollo 

7

“Today is not the end. It is not even the thebeginning of the end. It is, perhaps, the endof the beginning” (Sir Wiston Churchill)

III‐Modelos causales (estimación de efectos)Evaluación de intervenciones = estudio de causalidadMarco teórico:

Counterfactuals (resultados potenciales contrapuestos‐contrafactuales)Roy‐Neyman‐Rubin framework

Situación:Un individuo i se “expone” a una intervención. Obtiene un resultado (Yi (1))Un individuo i “no se expone” a una intervención. Obtiene un resultado (Yi (0))

Pregunta: ¿cuál es el efecto de la intervención?Respuesta: Problema:  no puedo calcularlo (solo conozco un resultado)Repregunta: ¿cuál sería el resultado observado SI EL INDIVIDUO HUBIERA PERTENECIDO AL OTRO GRUPO? (resultado hipotético= contrafactual)

8

Modelo causalEn un estudio observacional evaluativo puede haber factores que estén  asociados a la intervención y al resultado (sesgo de selección)Si se cumple que E(Y1 |W=1) = E(Y1 |W=0) y E(Y0 |W=0) = E(Y0 |W=1), entonces este estimador es insesgado. Esto lo garantiza la aleatorización. Pero no es asumible en muchos estudios de investigación socialSi el diseño no es aleatorizado, hay que asumir que se cumplen una serie de condiciones (supuestos)Un estimador muy utilizado es el efecto promedio del tratamiento en los tratados (average treatment effect on the treated‐ATT):

La segunda parte de la ecuación es inobservable y hay que buscar un estimador razonable

9

Modelo causal

El nivel de exigencia de los supuestos depende del estimador del efectoPor ejemplo, otro estimador de interés puede ser el efecto promedio del tratamiento (average treatment effect‐ATE).

Su  estimación requiere supuestos sobre  E[Y (1)|D = 0] y E[Y (0)|D = 1]

Una forma de abordar la estimación de efectos de la intervención a partir de diseños cuasi‐experimentales ú observacionales es asumir que, conocidos un conjunto de covariables observables (Xs), la asignación de  la intervención CONDICIONADA  a esas Xs es independiente de los resultados

Esta es la asunción de los ajustes multivariables

10

τATE = E[Y (1) ‐ Y (0)]

Modelo causalSupuestos necesarios de forma general para la estimación de efectos a partir de diseños no experimentales son:

1‐Independencia de efectos a nivel individual2‐Asignación de intervenciones “ignorable”

UnconfoundnessSelection on observablesConditional independenceExogeneity

La asignación es independiente del resultado, tanto en tratados  (Y1) como en no tratados  (Y0) CONDICIONADO EN LAS  COVARIABLESEn estudios no experimentales hay que chequearlo (p.e. tests bivariantes)Equivalente a la independencia entre las variables predictoras y el término de error en un modelo lineal (OLS).

11

Modelo causal

3‐Stable Unit Treatment Value Assumption (SUTVA):

Asume que el resultado observado en la unidad i bajo el tratamiento t es el mismo, independientemente de cuál es el mecanismo de asignación del tratamiento e independientemente de qué tratamiento reciben el resto de unidades (individuos).

En la investigación social , económica, sanitaria, etc. este supuesto puede violarse con cierta frecuencia:

Contaminación entre individuosReequilibrios a nivel grupal, comunitarioRelación entre oferta y salariosEfecto de inmunidad inducida a nivel familiar  y escolar al inmunizar un individuo

4‐No hay variables predictoras (confusoras) no medidas y no hay sesgo de selección oculto (basado en las Xs observadas).

Análisis de sensibilidad para su chequeo(rbounds y mhbounds en Stata)

12

Estimadores de efectosDistintas aproximaciones al resultado potencial (counterfactual) que nunca es observableEstimaciones promedio en grupos como aproximaciónDistintos estimadores responden a distintas preguntas y requieren distintos métodos de estimaciónSi existe una importante variabilidad interindividual en el efecto, entonces un promedio puede no ser un buen estimador para un individuo ódeterminado grupo. A veces se estiman proporciones  ú otras cantidades (quintiles) de la distribución del efecto

Proporción de individuos que se beneficianProporción que alcanza un beneficio determinado

Hay varios estimadores principales:

13

Estimadores de efectos1‐ Estimador del  efecto promedio (average treatment effect ‐ATE, average causal effect)

Estimador estándar (en un estudio experimental ó cuando consideramos que no hay sesgo de selección ): T de Student, ANOVA

2‐ Efecto promedio en los tratados (Average treatment effect on the treated‐ATT)

Efecto del tratamiento en los que deciden participar ó reciben la intervención. Muy utilizado. Es el estimador por defecto de muchas rutinas de estimación de efectos (att*, nnmatch en Statapor ejemplo).Responde a la pregunta: ¿Cúal es el efecto en los que han recibido el programa/tratamiento?

3‐Efecto promedio en los no tratados (Average treatment effect for the untreated ‐ATU)

Responde a la pregunta: ¿Cuál sería el efecto de extender un programa a los no participantes en el mismo?

14

IV‐Propensity score (PS)

Antecedente: multivariate confounder score (Miettinen)Artículo “seminal” de Rosenbaum y Rubin (1983) 

Utilizaba ejemplo clínico (CABG vs tratamiento médico en enfermedad coronaria)Poco utilizado hasta la última décadaAhora “explosión de uso”

15

Propensity score (PS)

El método del Índice de Propensión consiste en construir a partir del conjunto de variables predictoras OBSERVADAS Y MEDIDAS una función de todas ellas que estime la probabilidad (“propensión”) que tienen los pacientes de ser asignados al tratamiento ó intervenciónPS: probabilidad condicionada de recibir el tratamiento  en base a un conjunto de variables observadas 

IMPORTANTE: reducimos la multidimensionalidad del vector de covariables a un escalar (número) que contiene toda la informaciónPropiedades

1‐Score de balanceo: para un PS determinado, las características (X) están distribuidas homogéneamente entre tratados y controles

base para reconstruir a partir de su estimación un hipotético proceso de randomización basado en las X observadas, en los individuos con el mismo valor de PS

16

PS2‐estimación de efectos promedio

el valor esperado (promedio) de la diferencia de efectos entre tratados y no tratados, CONDICIONADO al PS, es igual al efecto promedio del tratamiento (ATE)

3‐Unconfoundness en el PSSi la asignación al tratamiento, basada en las covariables pretratamiento observadas (X), es ignorable (no asociada a resultados ni otros factores), también lo es condicionada al PS

(Unconfoundedness given the PS) Y (0); Y (1) || D| P(X); V X 

Requisitos (asunciones)1‐Unconfoundness (ignorable assignment)

Todas las variables importantes en la asignación, medidas

17

•En las parejas (matching)•En los estratos (subclasificación)•Ajuste de covariables (regresión)

PS2‐solapamiento de las probabilidades entre tratados/no tratados (commonsupport)

Para cualquier valor del PS tiene que haber una probabilidad de ser tratado ó no tratado. Es decir, para cualquier valor de PS tiene que haber tratados y no tratadosEn la muestra completa hay que verificarlo (numéricamente, gráficamente)En teoría el PS debería utilizarse solo en la región de soporte común (al menos para la estimación de algunos efectos como el ATE)Comando Stata (psgraph) para exploración gráficaSu selección puede dar lugar a pérdida de casosSi ésta es muy grande, validez externa en peligro ó limitada a un subgrupo

IMPORTANTE: No todas las rutinas en Stata calculan de la misma forma la región de soporte común (pscore y psmatch2)

18

PS

El uso del PS en un estudio observacional pretende reconstruir un hipotético proceso de aleatorización no llevado a cabo y que ha producido los grupos de exposición analizados y los resultados observados (reconstrucción del modelo de asignación)Pretende responder a la preguntas:

¿Cuál sería la respuesta obtenida en un individuo con unas características basales (covariables x) que no ha recibido el tratamiento si lo hubiera recibido? ¿Cuál hubiera sido su respuesta si no hubiera recibido tratamiento un individuo con unas características basales determinadas que sí lo ha recibido?En la medida en que nuestras variables observadas sean relevantes para reconstruir ese proceso teórico de asignación, los estimadores de efectos obtenidos en un estudio no experimental que utilice los índices de propensión en su diseño óanálisis serán más insesgados.

19

V‐Estimación del PS

Modelo de estimaciónTradicionales

Dos tratamientos:

Regresión logística, modelos probit ó análisis discriminanteMás de dos tratamientos:

Regresión logística multinomialMúltiples modelos de regresión logística binaria (independencia de niveles)

NovedososRedes neuronales, Classification Tree techniquesCox model (si tiempo en tratamiento y/o censuras es importante)Boosted regression

Comando boost de StataMétodo recursivo, usa training y validation setMaximiza pseudo‐R2  o minimiza el error en la predicción

20

Estimación del PS

Selección de variables

Variables que se asocian con el resultado y la asignación de tratamientoOmisión de variables importantes => sesgoInvestigaciones previas, teoría, conocimiento del problemaVariables pre‐asignación

Fijas (p.e. género)No afectadas por el tratamiento (efecto locking‐in) 

Misma calidad datos en tratados/no tratadosSoporte común (expuestos/no expuestos con las mismas  X)

21

Objetivo: conseguir el equilibrio de X entre tratados y controles

Estimación del PS

La elección de las variables a incluir puede afectar al sesgo y al error cuadrático medio del efecto estimado de la exposición (precisión)Tres tipos de covariables:

Variables relacionadas con la exposición y con el resultado (X1)Variables relacionadas con el resultado y no con la exposición (X2)Variables relacionadas con la exposición y no con el resultado (X3)

Las variables X1 tienen que ser incluidas (confusoras)Las variables X2 también ( varianza)Las variables X3 no ( varianza y no afectan sesgo)

22

Estimación del PSSoporte Común

Los estimadores de los efectos (ATE, ATT) se definen en la región de solapamiento de probabilidades de asignación (soporte común). Su violación es fuente de sesgosParece lógico comparar individuos comparables (combinaciones similares de las X, plasmadas en el PS) (importante en matching)Con datos reales generalmente problemas en los extremosA veces huecos en la distribución del PS estimado entre tratados/controles

ExploraciónEstadística descriptiva (mínimos y máximos)Métodos gráficos

Boxplots, histogramaspsgraph (Stata)

Métodos de soluciónEliminación de extremos no solapadosTrimming (estimación no paramétrica de la df del PS, selección si f densidad>0)

23

VI‐Aplicación del PSTipos de técnicas básicas

Emparejamiento (matching)Crean una nueva muestra balanceada en el PS (en las X) (resampling)En esa nueva muestra se pueden calcular directamente los efectos del tratamiento (ATE, estimador estándar, ATT)

Estratificación (subclassification)Dentro de cada estrato construido en base al PS, se cumplen los supuestos (condicionados en el PS) y por lo tanto se pueden obtener estimadores de los efectosEl efecto global es un promedio ponderado de los efectos de cada estrato Similar a método de M‐H . Se recomiendan 5 estratos (reducción 90% sesgo)

Ajustes analíticos (regression‐like)El PS es una variable que incluida, hace que la variable dummy codificadora del tratamiento recibido sea una variable exógena (independiente verdadera, condicionada en el PS)Regresión lineal (ATE), logística, Cox, modelos jerárquicos, etc.

24

Aplicación del PSPonderación por el PS (weighting)

Se pondera a los tratados y no tratados por el PS en el contexto de un análisis multivariable (regresión ponderada)La muestra ponderada es representativa de la población de interésSegún el tipo de efecto del tratamiento utilizado, se utiliza una ponderación diferente

Una vez ponderados los casos, análisis tradicional.Fácil de implementar con software estándar (pweights en Stata)No muy recomendado pues sensible a una incorrecta especificación del modelo de estimación del PS

25

Efecto Tratado No tratado

ATE 1/PS PS/1‐PS

ATT 1 PS/1‐PS

VII‐Combinaciones de métodos

Muchas posibilidadesLas más habituales:

Matching + ajuste por regresiónMatching + estratificaciónEstratificación + ajuste por regresiónPonderación + regresión

La combinación de métodos permite en algunos casos disminuir adicionalmente el sesgo residual y/o aumentar la precisión 

26

VIII‐Métodos de emparejamiento (matching)

Hay muchos (¿alguien lo dudaba?)

27

Hablaremos brevemente de los clásicos

Matching

Básicamente pretenden encontrar por cada individuo tratado/expuesto, uno óvarios individuos similares en los factores  relevantes  preintervención  que determinan  la asignación y los resultados. Crean una submuestra (basada en el PS) adecuada (counterfactual) con similar probabilidad de recibir la intervenciónUtilizan el PS como la medida de “similitud”. Algunos combinan otras distancias (Mahalanobis) con el PS.Sus diferencias fundamentales son:

Seleccionan una sola pareja ó varias (razón tratado/no tratado constante ó variable)Estrategia cuando hay varios controles adecuados

Selección aleatoria de uno de ellosSelección de un número determinadoSelección de todos los que cumplen unos criteriosPonderación de los controles en función de la distancia

Reemplazamiento (menor sesgo, mayor varianza) vs. no reemplazamiento (mayor sesgo, menor varianza)Manejo del soporte común

28

Matching

Métodos greedy (clásicos)1‐vecino más próximo (nearest‐neighbor)

Selecciona el control (ó controles) más cercanos, independientemente de la distanciaSesnsible al soporte común

2‐caliper matchingSelecciona el  control  que está dentro de un límite de distancia en el PS del casoMejora la calidad del emparejamiento pero puede producir varianzas altas (pocos controles)¿qué limite?. Algunos recomiendan la cuarta parte de la sd del PS ó logPS

3‐radius matchingSelecciona todos los controles  que están dentro de un rango de distancia (radio) del caso tratado. Evita mala calidad en el matching pero aumenta la varianza

4‐stratification (interval) matchingCrea estratos (bloques ) en función de rangos del  PS (generalmente 5 bloques bastan) y usa todos los controles en cada bloque

29

IX‐Software para implementar el PS

I‐SPSS1‐SPSSPropensityMatching Macro2‐macro creada por nuestro grupo (NN sin reemplazamiento)

II‐SASMacros para NN, caliper, Mahalanobis

III‐S‐PLUS/RLibrerías para  varios tipos de matching (clásicos, optimización, combinaciones..)

30

Software

IV‐Stata1‐pscore :

El más antiguo  (2002)Estima el PS (logit/probit)Testa el balance de las XRealiza una estratificación en el PSPermite creación de soporte común (NO ELIMINA CASOS TRATADOS)

2‐attnd, attnw, attr, attk (suite pscore):Estiman el PS Estiman efectos del tratamiento (ATT) tras matching: NN, Radius, Kernel, con varias opcionesEstimación analítica ó por bootstrap de error estándar

3‐psmatch2:Estima el PSObtiene estimadores de efectos (ATT, ATE) tras una gran variedad de métodos de matchingPermite creación de soporte común (ELIMINANDO CASOS TRATADOS OFF SUPPORT)Permite uso posterior de bootstrap

31

Software

4‐psgraph:Crea histogramas superpuestosExploración del soporte común

5.pstestExplora el efecto balanceador del PSM en una lista de variablesT‐test, sesgo estandarizado (para cada variable)Pseudo‐R2 para modelo probitOtras medidas

6‐nnmatch:Average treatment effect estimatorsBasados en NN matching (pero no usan el PS)Estima ATT, ATE, ATU

7‐imbalance:Evaluación (univariante) del efecto balanceador del PSMstandardized difference in covariate means (ASAM)

32

Software

8‐rbounds:Análisis de sensibilidad del ATT a la presencia de variables relevantes no medidasPara outcome cuantitativo

9‐mhbounds:Análisis de sensibilidad del ATT a la presencia de variables relevantes no medidasPara outcome dicotómico

10‐otros:boost, treatreg, heckman

33

Algunas ventajas y limitaciones del PSVentajas:

Reducción de la multidimensionalidad (matching)

Mayor reducción del sesgo (en algunos supuestos)

Mayor conciencia del desequilibrio causado por asignación no aleatoria

Mayor cercanía a los datos (análisis estratificado)

Ayuda al diseño de estudios observacionales

Creación de una submuestra más comparable (soporte común)

Estimación de efectos en distintos subgrupos

Mayor posibilidad de publicación (por el momento)

34

Algunas ventajas y limitaciones del PS

Limitaciones

Muchas veces resultados similares a ajustes tradicionales

Si resultados diferentes 

Puede estimular el análisis indiscriminado de datos observacionales

Solo ajusta por factores conocidos y medidos

Puede aumentar el sesgo (especificación del modelo)

Muchas decisiones operativas, opciones

En general requiere muestras grandes

Problemas si datos de mala calidad, valores missing, etc.

Complejidad estadística (para epidemiólogos al menos)

35

36

REFERENCIAS BÁSICAS

1-Rosenbaum PR, Rubin DB. The Central Role of the Propensity Score in Observational Studies for causal effects. Biometrika 1983;70(1): 41-55.

2-D’Agostino RB. Propensity Score Methods for bias reduction in thecomparison of a treatment to a non-randomized control group. StatistMed 1998;17: 2265-2281.

3-Becker SO, Ichino A. Estimation of average treatment effects based onpropensity scores. Stata Journal 2002;2(4):358-377.

37

EJEMPLO DE USOREGISTRO MÁSCARA (MANEJO DEL SINDROME CORONARIO AGUDO REGISTROACTUALIZADO)Agradecimiento: NACHO FERREIRA Y GAYETÁ PERMANYER (Unidad de Epidemiología del Servicio de Cardiología del Hospital Vall D’ Hebrón-Barcelona)

REGISTRO PROSPECTIVO (2004-2005) DE PACIENTES CONSECUTIVOS INGRESADOS POR SINDROME CORONARIO AGUDO (32 hospitales españoles) para:

•DETERMINAR EL PERFIL CLÍNICO DE ESTOS PACIENTES•DETERMINAR LAS ESTRATEGIAS TERAPÉUTICAS UTILIZADAS•EVALUAR EL EFECTO DE LAS ESTRATEGIAS UTILIZADAS

SUBGRUPO DE PACIENTES CON SCACEST EN LOS QUE SE HA REALIZADO INTERVENCIÓN DESOBSTRUCTIVA: FIBRINOLISIS ó ICP (INTERVENCIÓN CORONARIA PERCUTÁNEA)

1798 PACIENTES (38 PACIENTES CON AL MENOS UN VALOR MISSING EN LAS VARIABLES NECESARIAS)

GUIAS DE PRÁCTICA CLÍNICA: LA ICP (EN TIEMPOS RECOMENDADOS) ES SUPERIOR A LA FIBRINOLISIS

38

This table shows the inferior bound, the number of treated

and the number of controls for each block Inferior |

of block | icpof pscore | fibrinoli icp | Total-----------+----------------------+----------.1541773 | 296 70 | 366

.2 | 324 105 | 429

.3 | 131 72 | 203

.4 | 178 133 | 311

.5 | 128 155 | 283

.6 | 62 106 | 168 -----------+----------------------+----------

Total | 1,119 641 | 1,760 Note: the common support option has been selected

5 bloques del psconsiguen balance de Xs

.2 .4 .6 .8Propensity Score

Untreated Treated

.2.4

.6.8

Est

imat

ed p

rope

nsity

sco

re

fibrinolisis icp

Evaluando gráficamente el soporte común

39

RESULTADOS

Estimador 1 2 3 4

OR (IC95%) 1.33 (0.98-1.81) 1.14 (0.80-1.62) 1.11 (0.80-1.54) 1.13 (0.82-1.56)

RR (IC95%) 1.29 (0.98-1.70) 1.12 (0.86-1.46) 1.10 (0.84-1.44) 1.11 (0.85-1.46)

DR (IC95%) 0.027 (-0.003/0.058) 0.013 (-0.010/0.037) 0.002 (-0.029/0.034) 0.003 (-0.028/0.035)

* resultado: mortalidad a los 6 meses

** tratamiento 0: fibrinolisis 1: ICP

1: Estimación cruda

2: Estimación ajustada (ajuste multivariable)

3: Estimación ajustada (índice de propensión como escalar)

4: Estimación ajustada (índice de propensión en estratos)

40