logistica surv spss

222
1 Modelos Lineales Generalizados Víctor Moreno 2004

Upload: anagarciatovar

Post on 16-Aug-2015

230 views

Category:

Documents


3 download

DESCRIPTION

VVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVVV

TRANSCRIPT

1Modelos Lineales GeneralizadosVctor Moreno 20042Esquema Teora estadstica avanzada: Modelos lineales generalizados. Funcin de verosimilitud. Prueba de la razn de verosimilitud. Aproximaciones cuadrticas: test del "score" y test de Wald. Modelos para proporciones. Regresin logstica. Pruebas de asociacin y de tendencia. Control de la confusin. Exploracin de interacciones. Bondad de ajuste Aplicaciones especficas: Anlisis de casos y controles. Modelo logstico condicional Generacin de escalas de pronstico. Valoracin de la capacidad predictiva. Anlisis discriminante logstico. Regresin logstica politmica: Regresin multinomial Modelos ordinales3Modelo lineal de regresiny cuantitativa continua : {-, +}No hay restricciones sobre X2( | )( , )E yx xy Na bm s= +

4 Nos interesa un modelo de regresin: Y: la variable respuesta es binaria: Si se agrupan los datos, E(y|x) = m = Sy/n = p: proporcin de eventos Modelo para proporcionesevento no : 0evento : 1Y { =Anlisis de respuesta binaria( | ) E yx x a b = +5ML general para respuestas binarias p{0,1}, difcilmente normal adems no queremos restricciones sobrelos parmetros a,b sin ellas, el modelo lineal podra generarpredicciones imposibles para p6Modelos lineales generalizados Extensin del modelo lineal para acomodar: Respuesta con distribucin no normal Transformaciones linearizantes Componentes del modelo: Respuesta (Y) observada en unidadesindependientes con valores fijos de variablesexplicativas (X) Las variables X afectan la respuesta segn unmodelo lineal:p px x b + + b = h ...1 17 Puede ser necesario transformar larespuesta para conseguir linealidad:h=g(m) m: valor medio de la respuesta La distribucin de probabilidad de larespuesta pertenece a la familia exponencial:Transformacin g(m) Normal identidad: = Binomial logit: log(m/{1- m }) Poisson log(m) Gamma inversa: -1/m8Utilidad de cada distribucin Normal: Cuantitativa continua> Regresin lineal Binomial: Binaria (proporciones)> Regresin logstica Poisson: Recuento (discreta >=0 )> Regresin Poisson / Log-lineal Gamma: Cuantitativa contnua > 09Inters de los MLG Comparten la teora estadsticanecesaria para: Estimar los coeficientes y sus varianzas Mxima verosimilidtud, mediante iteracionesde ajustes por mnimos cuadrados ponderados Tests de hiptesis sobre coeficientes Anlisis de varianza / deviance (desvianza) Tests de bondad de ajuste del modelo R2 y equivalentes no lineales10Modelo logstico Y: la variable respuesta es binaria: Si se agrupan los datos, m: proporcin deeventos m = p = Sy/n Modelo para proporcionesp p 1 1x ... x- 1log b + + b + a =mmevento no : 0evento : 1Y { =11Funcin logsticazzzeeez fyyz+=+=-=-1 11) (1log-6 -4 -2 0 2 4 60.00.20.40.60.81.0zf(z)12Propiedades f(z) siempre entre 0 y 1=> til para modelar proporciones Permite valores de z entre - y +=> Cualquier valor del predictor lineal Simtrica alrededor de 0: z f(z) 1-f(z)- 0 1-2 0.11 0.88 0 0.5 0.5 2 0.88 0.11 1 0 Entre -2 y 2 es casi lineal y vara un 80%13Predicciones del modeloevento no : 0evento : 1Y { =1 1 k k1 k-( + x +...+ x )1Pr(y=1|x ,...,x )=1+ea b b14-6 -4 -2 0 2 4 60.00.20.40.60.81.0zPr(z)logitcloglogprobitOtras transformaciones Probit:F-1(p) Complementario log-log:log(-log(1-p))15Condiciones para aplicar el modelo Observaciones independientes si hay dependencia se genera sobredispersinLa varianza de p:var(p) = p(1-p)se puede modelarvar(p) = fp(1-p) Si se estudia la aparicin de un evento, eltiempo de seguimiento debe ser igual paratodos los individuos. Se puede modelarmortalidad al ao, pero no puede habercensuras.16Ejemplos de aplicacin Estudios de casos y controles P(ser caso | X:factores de riesgo y confusores) Estudios de factores pronstico, paratiempos de seguimiento corto e igual paratodos los individuos P(morir antes de 35 das tras un infarto | X) Estudios de mtodos diagnsticos P(enfermo | resultado de la prueba) Estudios de cualquier caracterstica binaria P(ser fumador | X:condiciones) P(ser tratado en el hospital | X)17Variables Respuesta / Dependiente: BINARIA Independientes: cualquier tipo Binarias Categricas se codifican con variables indicadoras dummy Cuantitativas pueden emplearse transformaciones: logaritmo potencia polinomios splines18Caso 1. Variable binaria Estudio de la relacin entre el virus de lahepatitis B y la cirrosis heptica, a partir deun diseo de casos y controles:Cirrosis ControlesHbsAg+51 9 60HbsAg-149 191 340200 200 40019Chi-Square Tests34.588b1 .00032.961 1 .00037.654 1 .000.000 .00034.502 1 .000400Pearson Chi-SquareContinuity CorrectionaLikelihood RatioFisher's Exact TestLinear-by-LinearAssociationN of Valid CasesValue dfAsymp.Sig.(2-sided)Exact Sig.(2-sided)Exact Sig.(1-sided)Computed only for a 2x2 tablea. 0 cells (.0%) have expected count less than 5. The minimum expected count is30.00.b. Risk Estimate7.264 3.465 15.2293.745 2.036 6.890.516 .439 .605400Odds Ratio for Hepatitis B(HBsAg - / HBsAg +)For cohort grupo = controlFor cohort grupo =cirrosisN of Valid CasesValue Lower Upper95% ConfidenceIntervalHepatitis B * grupo Crosstabulation191 149 34056.2% 43.8% 100.0%95.5% 74.5% 85.0%9 51 6015.0% 85.0% 100.0%4.5% 25.5% 15.0%200 200 40050.0% 50.0% 100.0%100.0% 100.0% 100.0%Count% within Hepatitis B% within grupoCount% within Hepatitis B% within grupoCount% within Hepatitis B% within grupoHBsAg -HBsAg +HepatitisBTotalcontrol cirrosisgrupoTotal20Odds: medida de riesgo Cuntas veces ms probable es que ocurra unsuceso respecto a que no ocurra puede tomar valores de {0,+}= =-( ) ( )( ) 1 ( )P suceso P sucesooddsP no suceso P suceso= == == - =( 1) ( 1)( 0) 1 ( 1)P y P yoddsP y P y21Odds-ratio: medida de asociacinab aba ab- + - +- -== = = === = = =-+ +=-+ +=( ) ( )( ) ( )( | exp )( | exp )( 1| 1)/ ( 0| 1)( 1| 0)/ ( 0| 0)1 1( )/(1 )1 11 1( )/(1 )1 1odds enfermedad uestosORodds enfermedad no uestosP y x P y xORP y x P y xe eORe eOR e22Odds-ratiob+ += == == =1.98P(cirr| )/P(cont| )ORP(cirr|-)/P(cont|-)0.850/(1-0.850)OR 7.260.438/(1-0.438)7.26 e e Por cunto se multiplica el riesgo de cirrosissi se est infectado respecto a no estarinfectado riesgo relativo:razn de odds puede tomar valores de {0,+}23Simetria del odds-ratiob== = = === = = ==(exp | )(exp | e )( 1| 1)/ ( 0| 1)( 1| 0)/ ( 0| 0)odds osicion enfermosORodds osicion no nfermosP x y P x yORP x y P x yOR e24Modelo logsticoLogit{ P(cirrosis|HBsAg) } = a + bHBsAg Variables: Respuesta:grupo1(cirrosis) 0(control) independiente:HBsAg1(+) 0(-) Modelo ajustado:VariableBS.E. WalddfSig RExp(B)HBSAG1.9825 .377727.5571 1.0000 .2147 7.2612Constant -.2483 .1093 5.1617 1.023125Verificacin26 . 70.438) - 0.438/(10.850) - 0.850/(1OR-) | -)/p(cont | p(cirr) | )/p(cont | p(cirrOR0.850e 11e 111) HBsAg | p(cirrosis0.438e 11e 110) HBsAg | p(cirrosis7.261.981.98) (-0.25 - ) ((-0.25) -e e= ==+ +==+=+= ==+=+= == =+ + --bb aa26Interpretacin de los coeficientes Constante:a = logit{P(cirrosis|HBsAg=0)} logit de P(evento en los no expuestos) En un estudio de casos y controles no tiene interspues depende del la relacin entre el nmero de casosy de controles, que se fija en el diseo, y de loscdigos que se empleen en la variable exposicin. En un estudio de cohortes es una estimacin de inters Coeficientes: b = log(OR) OR = eb : cuantifica la magnitud de la asociacinentre la respuesta y el factor de inters El cdigo de la exposicin debe ser exp: 1 + no exp27La codificacin es esencial parainterpretar los coeficientes exp =1 / no exp=0 OR(evento/exp) = eb exp =0 / no exp=1 OR(evento/exp) = e-b exp =2 / no exp=1 OR(evento/exp) = eb exp =1 / no exp=-1 OR(evento/exp) = e2b28Estadstica en regresin logstica Ajustar el modelo: estimar los parmetros Mxima verosimilitud Variable dependiente binaria: distribucinbinomial:) e log(1 n y log p) | logL(Xe 11px) p (1 p p) | L(Xii i iiii iiixiN1y nxyxiiynyn

+ - +=+=b + a = h- =h --i29Elementos de inters Parmetros: (a,b) Matriz de varianza-covarianza: Valor de logL cuando es mximo: Likelihood value Tiene asociados unos grados de libertad:g.l. = #observaciones - #parmetros - 1b b b b ab b b b ab a b a a= ) V( ) , C( ) , C() , C( ) V( ) , C() , C( ) , C( ) V(2 1 12 1 11 12130Elementos derivados OR = eb permite interpretar los coeficientes comoriesgos Errores estndar de b:eeb =V(b) permite calcular intervalos de confianza yrealizar tests de hiptesis Deviance = -2 * logL permite: valorar el ajuste del modelo (datos agrupados)realizar test de hiptesis (comparando modelos)31Anlisis de los coeficientes {b, eeb} Test de Wald: z = b/eeb~ N(0,1) |z| > 1.96 ->b 0 -> OR 1 asociacin significativa p-valor = F-1(z) Intervalo de confianza (al 95%) para b: b 1.96eeb : simtricos para OR: eb1.96eeb : {eb-1.96eeb ; eb+1.96eeb } asimtricos32Prueba de asociacin global Test de razn de verosimilitud (TRV) Equivale al c2 de Pearson Es necesario ajustar 2 modelos y compararlas deviances: Anlisis de deviance:Ddeviance ~ c2con Dg.l.Modelo deviance g.l. Ddeviance D g.l.aDag.l. aa + bDa+bg.l. a+bDa- Da+bgla- gla+b33Beginning Block Number0.Initial Log Likelihood Function -2 Log Likelihood 805.2976* Constant is included in the model.Beginning Block Number1.Method: Enter10.436Variable(s) Entered on Step Number1.. NKCALNTILES of TKCAL -2 Log Likelihood 794.861 Chi-Squaredf Significance Model 10.436 4.0337 Block 10.436 4.0337 Step10.436 4.033734Aproximaciones al TRV Aproximaciones cuadrticas a la funcin deverosimilitud: Test de Wald aproxima la funcin de verosimilitud coincidiendoen el valor del mximo. Test del score aproxima la funcin de verosimilitud coincidiendoen el valor nulo35Aproximaciones cuadrticas a LogLplogL-0.6 -0.4 -0.2 0.0 0.2 0.4 0.6-20-15-10-5Waldscore36Ajuste del modelo Deviance residual. Diferencia con la deviancede un modelo saturado (tantos coeficientescomo observaciones). Slo es interpretable sise trabaja con datos agrupados. Criterio de informacin de AkaikeAIC = -2*logL + 2*#b Criterio de Schwarz (SC) o BICAIC = -2*logL + #b*log(N)penalizan el uso de parmetros no informativos.Son tiles para comparar modelos no anidados.37Caso 2. Variable categrica:Relacin entre tabaco y cncer decolon en MallorcaTABAC * GROUP Crosstabulation152 164 31653.1% 55.6% 54.4%37 68 10512.9% 23.1% 18.1%97 63 16033.9% 21.4% 27.5%286 295 581100.0% 100.0% 100.0%Count% within GROUPCount% within GROUPCount% within GROUPCount% within GROUPNo fumadorEx-fumadorFumadorTABACTotalcaso controlGROUPTotal38Codificacin con variables auxiliares Son necesarias (k-1) variables auxiliares para elmodelo pues la primera corresponde a la constante(siempre vale 0)TABACO Exfuma FumaNo fuma0 0Exfumador1 0Fumador0 1Categoriasde lavariableoriginal39Modelo logstico Parameter Value FreqCoding (1)(2)TABAC No fumador 1.00316 .000 .000 Ex-fumador 2.001051.000 .000 Fumador3.00160 .0001.000...Variable BS.E. WalddfSig RExp(B)TABAC 16.3242 2.0003 .1237 TABAC(1) -.5326 .2333 5.2127 1.0224-.0632 .5871 TABAC(2).5076 .1971 6.6295 1.0100 .07581.6612Constant-.0760 .1126.4555 1.499740Interpretacin del modelo logit(Pr(cancer|tabaco) = a + b1ExFuma + b2Fumador exp(b1) = OR de ex-fuma vs no fuma exp(b2) = OR de fuma vs no fumaa = logit(Pr(cancer|no fuma) ) Si se desea el OR de ex-fuma vs fuma:exp(b2-b1) o cambiar la categora dereferencia41Precaucin al analizar variablescategricas Es importante que la categora de referenciatenga un nmero suficiente de casos paraevitar inestabilidad en el modelo:EDAD N b e OR (IC95%)20-29 8 - - 130-39 250 0.5 3.2 1.6(0.003;812)40-49 73 .07 3.1 2.0 (0.004;992)50-59 32 1.2 3.0 3.3 (0.005;1339)42Caso 3. Variable cuantitativa Estudio de la relacin entre la edad y lamortalidad por cardiopata isqumica endiabticos:EDAD Causa de muerteOtra CIN p20-29 9 1 10 0.1030-34 13 2 15 0.1335-39 9 3 12 0.2540-44 10 5 15 0.3345-49 7 6 13 0.4650-54 3 5 8 0.6355-59 4 13 17 0.7660-69 2 8 10 0.80Total 57 43 100 0.4343Edad70 60 50 40 30 20P(MCI)1.0.8.6.4.20.0Edad70 60 50 40 30 20logit(p)210-1-2-344Ajuste del modelo logsticoLogit{ P(MCI|EDAD) } = a + bEDAD Variables: Respuesta:causa muerte 1(ci) 0(otra) independiente:edad (en aos) Modelo ajustado:VariableBS.E. Wald dfSigRExp(B)EDAD.1050 .023120.70441.0000.37001.1107Constant-5.03701.086121.50761.000045Interpretacin de los coeficientes Constante:a = logit{P(MCI|EDAD=0)}a = -5.04 -> P(MCI|EDAD=0) = 0.0065 No tiene inters en esta situacin, pero puedeserlo si cambiamos el 0 de la variable: ED30 = (EDAD-30)a = -1.82 -> P(MCI|EDAD=30) = 0.14EDAD) * 0.105 5.04 (e 11EDAD) | p(MCI+ - -+=46Edad70 60 50 40 30 20P(MCI)1.0.8.6.4.20.047 Coeficientes: b = log(OR) OR = eb : cuantifica la magnitud de la asociacinentre la respuesta (mortalidad por CI) y elcambio factor de inters en una unidad (aumentode EDAD en 1 ao) OR = 1.11 (para 10 aos: e10b = 2.86) El modelo supone linealidad {en escala logit(mCI)}para todos los posibles valores de EDAD Se pueden emplear transformaciones de lasvariables cuantitativas para conseguir mejorar lalinealidad (ms adelante)48Deteccin rpidad de nolinealidad Ajustar un modelo cuadrtico El coeficiente bc permite detectar curvaturaen la funcin de riesgoa b b2c lE(Y/X) = + X+ X49Otras opciones con variablescuantitativas Transformaciones Log(X) potencia: Xr Polinomios: logit(p) = a + b1X + b2X2 + b3X3 + ... bkXk No deben emplearse grados muy elevados, normalmente slo 2 3 Los coeficientes son muy difciles de interpretar, se usanfundamentalmente para ajustar otras variables de manera fina Splines50Variables cuantitativas categorizadas Si la relacin dosis-respuesta no es linealpara una variable cuantitativa, sta se suelecategorizar y modelar como categrica: Ejemplo: la relacin entre la ingesta calricatotal y cncer colorrectal Las Kcal pueden categorizarse en 5 grupos segnquintiles y comparar cada grupo respecto alprimero51GROUP * NTILES of TKCAL Crosstabulation72 60 59 56 48 29562.1% 51.7% 50.4% 48.3% 41.4% 50.8%44 56 58 60 68 28637.9% 48.3% 49.6% 51.7% 58.6% 49.2%116 116 117 116 116 581100.0% 100.0% 100.0% 100.0% 100.0% 100.0%Count% within NTILES ofTKCALCount% within NTILES ofTKCALCount% within NTILES ofTKCALcontrolcasoGROUPTotal1 2 3 4 5NTILES of TKCALTotalVariable BS.E. WalddfSig RExp(B)TKCAL10.2006 4.0372 .0523 TKCAL(1) .4235 .2667 2.5208 1.1124 .02541.5273 TKCAL(2) .4754 .2661 3.1915 1.0740 .03851.6086 TKCAL(3) .5615 .2667 4.4312 1.0353 .05491.7532 TKCAL(4) .8408 .2686 9.7969 1.0017 .09842.3182Constant -.4925 .1914 6.6234 1.0101Caso 4. Energa y cancer colorrectal52Total kcallogit(Pr(caso))1 2 3 4 5-0.4-0.20.00.253Un coeficiente para cada dummyTest: TRVa (D deviance con k-1 g.l.)1 Modelo de heterogeneidad(categrico)VariableBS.E. WalddfSig RExp(B)NTKCAL 10.2006 4.0372 .0523 NTKCAL(1).4235 .2667 2.5208 1.1124 .02541.5273 NTKCAL(2).4754 .2661 3.1915 1.0740 .03851.6086 NTKCAL(3).5615 .2667 4.4312 1.0353 .05491.7532 NTKCAL(4).8408 .2686 9.7969 1.0017 .09842.3182Constant -.4925 .1914 6.6234 1.0101Chi-cuadrado gl Sig.TKCAL 10.436 4 .034542. Test de tendencia paravariables ordinales La variable se codifica con valores crecientesen 1 unidad de categora en categora(1,2,3,...) Un nico coeficiente, que recoge la variacinpromedio Test: TRVt (D deviance con 1 g.l.)VariableBS.E. WalddfSig RExp(B)NTKCAL .1810 .0595 9.2406 1.0024 .09481.1984Constant-.5745 .1976 8.4571 1.0036Chi-cuadrado gl Sig.TKCAL 9.326 1 .00255 Test: diferencia del modelo deheterogeneidad y el de tendencia:TRVDL: D deviance con k-2 g.l.3. Test de desviacin de lalinealidadModelo categrico: -2 Log Likelihood794.861Modelo tendencia: -2 Log Likelihood795.928Desviacin de la linealidad:Cambio en -2 Log Likelihood = 1.067 (NS con 3 g.l.)56Estrategia de anlisis multivariante 1 Anlisis bivariante cada variable por separado identificar variables de inters (significativas ono) 2 Anlisis combinado de las variables equivale a un anlisis estratificado cada factor est ajustado por los dems delmodelo 3 Anlisis de interacciones modificacin del efecto de una variable por otra57Caso 5. Energa y cido flico(densidad) en el cncer colorrectalTabla de contingencia GROUP * NTILES of DFOLIC62 68 80 85 29521,0% 23,1% 27,1% 28,8% 100,0%83 77 66 60 28629,0% 26,9% 23,1% 21,0% 100,0%145 145 146 145 58125,0% 25,0% 25,1% 25,0% 100,0%Recuento% de GROUPRecuento% de GROUPRecuento% de GROUPcontrolcasoGROUPTotal1 2 3 4NTILES of DFOLICTotalVariables en la ecuacin9,050 3 ,029-,167 ,236 ,502 1 ,479 ,846 ,532 1,344-,484 ,236 4,197 1 ,040 ,616 ,388 ,979-,640 ,238 7,236 1 ,007 ,527 ,331 ,841,292 ,168 3,020 1 ,082 1,339NDFOLICNDFOLIC(1)NDFOLIC(2)NDFOLIC(3)ConstantePaso1aB E.T. Wald gl Sig. Exp(B) Inferior SuperiorI.C. 95,0% para EXP(B)Variable(s) introducida(s) en el paso 1: NDFOLIC.a. 58TendenciaVariables en la ecuacin-,224 ,075 8,860 1 ,003 ,799 ,690 ,926,529 ,206 6,609 1 ,010 1,696NDFOLICConstantePaso1aB E.T. Wald gl Sig. Exp(B) Inferior SuperiorI.C. 95,0% para EXP(B)Variable(s) introducida(s) en el paso 1: NDFOLIC.a. Pruebas omnibus sobre los coeficientes del modelo8,974 1 ,0038,974 1 ,0038,974 1 ,003PasoBloqueModeloPaso 1Chi-cuadrado gl Sig.Pruebas omnibus sobre los coeficientes del modelo9,148 3 ,0279,148 3 ,0279,148 3 ,027PasoBloqueModeloPaso 1Chi-cuadrado gl Sig.TendenciaHeterogeneidad59Anlisis ajustado Si en un modelo se incluye ms de unavariable, los coeficientes de cada variable seinterpretan como ajustados por las dems Ajustado equivale a un promedio ponderadoen los estratos de las variables de ajuste Este anlisis anula el efecto de confusin quepudiera haber60Confusin El anlisis crudo de la asociacin entre unaexposicin y una enfermedad no excluye laposibilidad de que interfiera una terceravariable (la confusora)ExposicinEnfermedadVariableconfusora61Exploracin de la confusin1. Anlisis de la asociacin en cada estratode la confusora potencial. Comparar loscoeficientes crudos con los de cadaestrato. Este mtodo permite tambinexplorar si hay interaccin.2. Comparacin del modelo crudo con elajustado por la confusora. Cambiossuperiores a un 20% de los coeficientes(b) indican confusin importante62Anlisis del efecto del ac. flicoajustado por ingesta calrica totalAc. Flico CncerIngestacalrica 63Anlisis estratificadoVariables en la ecuacin-,072 ,183 ,155 1 ,694 ,930-,274 ,584 ,221 1 ,638 ,760-,090 ,161 ,313 1 ,576 ,914,157 ,444 ,125 1 ,724 1,170-,266 ,176 2,264 1 ,132 ,767,659 ,487 1,834 1 ,176 1,933-,239 ,172 1,937 1 ,164 ,787,638 ,450 2,009 1 ,156 1,892-,196 ,189 1,078 1 ,299 ,822,754 ,437 2,980 1 ,084 2,126NDFOLICConstantePaso1aNDFOLICConstantePaso1aNDFOLICConstantePaso1aNDFOLICConstantePaso1aNDFOLICConstantePaso1aNTILES of TKCAL12345B E.T. Wald gl Sig. Exp(B)Variable(s) introducida(s) en el paso 1: NDFOLIC.a. En general la estimacin por estratos decaloras muestra un efecto protectormenor al anlisis crudo64Anlisis ajustadoVariables en la ecuacin-,224 ,075 8,860 1 ,003 ,799 ,690 ,926,529 ,206 6,609 1 ,010 1,696NDFOLICConstantePaso1aB E.T. Wald gl Sig. Exp(B) Inferior SuperiorI.C. 95,0% para EXP(B)Variable(s) introducida(s) en el paso 1: NDFOLIC.a. Variables en la ecuacin-,171 ,078 4,787 1 ,029 ,842 ,723 ,9826,191 4 ,185,338 ,271 1,557 1 ,212 1,402 ,825 2,382,397 ,269 2,169 1 ,141 1,487 ,877 2,521,453 ,272 2,774 1 ,096 1,573 ,923 2,681,680 ,279 5,940 1 ,015 1,973 1,142 3,408,023 ,303 ,006 1 ,940 1,023NDFOLICNTKCALNTKCAL(1)NTKCAL(2)NTKCAL(3)NTKCAL(4)ConstantePaso1aB E.T. Wald gl Sig. Exp(B) Inferior SuperiorI.C. 95,0% para EXP(B)Variable(s) introducida(s) en el paso 1: NTKCAL.a. El anlisis ajustado confirma la confusin65InteraccinPruebas omnibus sobre los coeficientes del modelo1,008 4 ,9091,008 4 ,90916,256 9 ,062PasoBloqueModeloPaso 1Chi-cuadrado gl Sig.Variables en la ecuacin-,072 ,183 ,155 1 ,694 ,930 ,649 1,3332,815 4 ,589,431 ,734 ,345 1 ,557 1,539 ,365 6,486,934 ,760 1,508 1 ,219 2,543 ,573 11,286,912 ,737 1,530 1 ,216 2,489 ,587 10,5591,029 ,729 1,989 1 ,158 2,797 ,670 11,6841,005 4 ,909-,018 ,244 ,005 1 ,942 ,982 ,609 1,585-,193 ,255 ,576 1 ,448 ,824 ,500 1,358-,167 ,252 ,442 1 ,506 ,846 ,517 1,385-,124 ,263 ,222 1 ,638 ,883 ,527 1,481-,274 ,584 ,221 1 ,638 ,760NDFOLICNTKCALNTKCAL(1)NTKCAL(2)NTKCAL(3)NTKCAL(4)NDFOLIC * NTKCALNDFOLIC by NTKCAL(1)NDFOLIC by NTKCAL(2)NDFOLIC by NTKCAL(3)NDFOLIC by NTKCAL(4)ConstantePaso1aB E.T. Wald gl Sig. Exp(B) Inferior SuperiorI.C. 95,0% para EXP(B)Variable(s) introducida(s) en el paso 1: NDFOLIC * NTKCAL .a. 66Interpretacin de la interaccin Modificacin del efecto (riesgo) de unavariable al ira acompaada de otra Cambia la referencia en la comparacin: Efectos principales:riesgo promedio entre categoras de la otra variable (Riesgo del a. flico ajustado por caloras, pero comopromedio entre las diferentes categoras de caloras) Interaccin: Riesgo especfico respecto a una categora dereferencia combinada (consumo bajo flico y caloras)67Caso 6. Alcohol y tabacoVariable BS.E. Walddf SigExp(B) Lower UpperBEBE38.9446 2.0000 BEBE(1) .9284 .206020.3189 1.0000 2.53061.69003.7891 BEBE(2)1.2226 .197738.2415 1.0000 3.39582.30505.0030Constant-.6505 .159316.6853 1.0000FUMA(1).0485 .1495.1054 1.7455 1.0497 .78311.4070Constant .5140 .1110 3.5117 1.0609GRUPO * Alcohol * Tabaco CrosstabulationCount55 30 62 14740 45 96 18195 75 158 32860 73 52 18520 91 106 21780 164 158 402controlcasoGRUPOTotalcontrolcasoGRUPOTotalTabacoFumaNo fumano bebe moderado importanteAlcoholTotal68Variable BS.E. WalddfSig RFUMA(1).1171 .1572.5550 1.4563 .0000BEBE39.3270 2.0000 .1874 BEBE(1) .9560 .209520.8179 1.0000 .1368 BEBE(2)1.2286 .198038.5011 1.0000 .1905Constant-.5975 .174211.7675 1.000695% CI for Exp(B)Variable Exp(B) Lower UpperFUMA(1)1.1242 .82611.5299BEBE(1)2.60131.72523.9223BEBE(2)3.41632.31755.0362FUMA y moder 2.9244* calculadoraFUMA y inten 3.8406*Variable BS.E. WalddfSigFUMA(1).7802 .3314 5.5408 1.0186BEBE34.4581 2.0000 BEBE(1)1.3190 .302219.0444 1.0000 BEBE(2)1.8108 .308834.3960 1.0000BEBE * FUMA6.8430 2.0327 BEBE(1) by FUMA(1) -.5951 .4360 1.8630 1.1723 BEBE(2) by FUMA(1)-1.0551 .4063 6.7450 1.0094Constant -1.0986 .258218.1042 1.000069Interpretacin de modelos coninteracciones Ignorar la interaccin supone infraestimarlos riesgos respecto a no fumar y no beber95% CI for Exp(B)Variable Exp(B) Lower Upper 1. No fumaNo bebeFUMA(1)2.18181.13954.1777 FumaNo bebeBEBE(1)3.73972.06816.7626 No fumaModeradoBEBE(2)6.11543.3389 11.2005 No fumaIntensoBEBE(1) by FUMA(1).5515 .23471.2962BEBE(2) by FUMA(1).3481 .1570 .77192.1818*3.7397*.5515= 4.4998 FumaModerado2.1818*6.1154*.3481= 4.6445 FumaIntenso70110No bebe moderado intensoNo fumaFuma110No bebe moderado intensoNo fumaFumano interaccion71Riesgo para cada combinacin Modelo efectos principales:a + b1F + b2M + b3I Modelo efectos principales + interaccin:a + b1F + b2M + b3I+ b4F M + b5F I! ! ! ! ! ! !! !1 2 4 1 3 5 13 2NB M IF e e eNF 1 e e+ + + +! ! ! ! !! !1 3 1 1 23 2NB M IF e e eNF 1 e e+ +72 Es fundamental emplear modelos jerrquicos: Si hay una interaccin, los efectos principalesdeben estar tambin: A + B + A.B Modelo SATURADO Tiene tantos parmetros como observaciones Todas las variables y sus interacciones No explica ms que los datos Son tiles si se trabaja con datos agrupados(el SPSS no lo permite)73Intervalos de confianza coninteracciones Se pueden calcular si se dispone de la matrizde varianza-covarianza de los parmetros:V(b1 + b2) = V(b1) + V(b2) -2C(b1,b2) Es ms fcil crear una nueva variablecombinacin de las categoras de las queinteraccionan: FUMABEBE NF-NB; NF-M; NF-I; F-NB; F-M; F-I74VariableBS.E. WalddfSig RFUMABEBE 43.5691 5.0000 .1827 FUMABEBE(1) 1.3190 .302219.0444 1.0000 .1302 FUMABEBE(2) 1.8108 .308834.3960 1.0000 .1794 FUMABEBE(3).7802 .3314 5.5408 1.0186 .0593 FUMABEBE(4) 1.5041 .349618.5093 1.0000 .1281 FUMABEBE(5) 1.5358 .305325.3052 1.0000 .1522Constant-1.0986 .258218.1042 1.0000 95% CI for Exp(B)VariableExp(B) Lower Upper1NF - NBFUMABEBE(1) 3.73972.06816.7626 NF - MFUMABEBE(2) 6.11543.3389 11.2005 NF - IFUMABEBE(3) 2.18181.13954.1777 F- NBFUMABEBE(4) 4.50002.26798.9288 F- MFUMABEBE(5) 4.64522.55348.4504 F- I75Diagnstico en Regresin logstica Verificar que el modelo es adecuado Bondad de ajuste Con datos agrupados: deviance residual Con datos individuales hace falta unareferencia, que puede obtenerse a partir delmodelo saturado, siempre que se trabaje conpocas variables y ste sea estimable Otros estadsticos: S(O-E)2/E sobre cada observacinHosmer y Lemeshow:S(O-E)2/E sobre 10categoras de p76Residuales Diferencia (observado - esperado) para cadaobservacin hay mltiples posibilidades: Estandarizados Deviance ... Se pueden hacer grficas para intentardertectar patrones no aleatorios Son poco tiles a no ser que se trabaje convariables cuantitativas77Observaciones influyentes Individuos que modifican de maneraimportante el ajuste del modelo y laestimacin de los parmetros Delta-betas: Db Modificacin de cada parmetro al eliminar unaobservacin cada vez Si son grandes: modelo inestable (tpico de N )78NF-NB14 12 10 8 6 4 2 0.06.04.020.00-.02-.04-.06Dfbeta for BEBE(1)Dfbeta for BEBE(2)Dfbeta for FUMA(1)Dfbeta for BEBE(1) bDfbeta for BEBE(2) b79Modelos predictivos El objetivo del modelo puede ser: generar una ecuacin con capacidad predictiva,como una clasificacin (anlisis discriminante) buscar qu factores tienen capacidad predictiva Si la respuesta es la aparicin de un evento,pueden llamarse modelos pronsticos En este tipo de estudios es tpico contar conun gran nmero de variables a explorar80Mtodos de seleccin automtica Adelante:1 Se inicia con un modelo vaco (slo a)2 Se ajusta un modelo y se calcula el p valor deincluir cada variable por separado3 Se selecciona el modelo con la ms significativa4 Se ajusta un modelo con la(s) variable(s)seleccionada(s) y se calcula el p valor de aadircada variable no seleccionada por separado5 Se selecciona el modelo con la ms significativa6 Se repite 4-5 hasta que no queden variablessignificativas para incluir.81 Atrs:1 Se inicia con un modelo con TODAS las variablescandidatas2 Se eliminanan, una a una, cada variable y secalcula la prdida de ajuste al eliminar3 Se selecciona para eliminar la menos significativa4 Se repite 2-3 hasta que todas las variablesincluidas sean significativas y no pueda eliminarseninguna sin que se pierda ajuste.82Stepwise Se combinan los mtodos adelante y atrs. Puede empezarse por el modelo vaco o por elcompleto, pero en cada paso se exploran lasvariables incluidas, por si deben salir y las noseleccionadas, por si deben entrar No todos los mtodos llegan a la mismasolucin necesariamente83Consideraciones Criterio exclusivamente estadstico: no setienen en cuenta otros conocimientos sobrelas variables ms interesantes a incluir(aunque se puede forzar a que algunasvariables siempre estn en el modelo) Si hay un conjunto de variables muycorrelacionadas, slo 1 ser seleccionada No es fcil tener en cuenta interaccionesentre variables (los modelos deben serjerrquicos)84Valoracin de la capacidadpredictiva del modelo Area bajo la curva ROC construda paratodos los posibles puntos de corte de h paraclasificar los individuos en +/-:Realidad+ -+VP FPModelo-FN VNk x xp p> b + + b = h ...1 185Clculo de rea bajo ROC Guardar los valores que predice el modelo(esperados) Calcular la U de Mann-Whitney respecto alos esperados: n+ y n- son el nmero esperado de + y - resp.- +- =n nUAUC 186Test Statisticsa26273.50069933.500-7.866.000Mann-Whitney UWilcoxon WZAsymp. Sig. (2-tailed)PredictedValueGrouping Variable: GROUPa. GROUP295 50.8286 49.2581 100.0controlcasoTotalValidFrequency Percent69 . 0286 295262731n nU1 AUC =- = - =- +Un AUC=0.5 corresponde a una capacidadpredictiva nula. El mximo es 1.87Eleccin del punto de corte ptimo Debe optimizarse la sensibilidad y laespecificidad, y elegir un punto segn lanaturaleza del modelo predictivo El cambio en el punto de corte corresponde aemplear diferentes constantes en el modelologstico Con frecuencia la constante estimada (a)consigue una sensibilidad y especificidadmxima, pero puede no ser el caso.88Validacin del modelo El clculo de la capacidad predictiva (CP) delmodelo sobre la misma muestra que lo genersiempre es optimista, y debe validarse: Diferentes estrategias: Probar el modelo en otra muestra diferente Elaborar el modelo con un 75% de la muestra ycalcular la CP en el 25% restante Usar la misma muestra, pero calcular losindicadores de CP mediante tcnicas debootstrap o validacin cruzada, que corrigen eloptimismo89Regresin multinomial La variable dependiente es categrica conms de 2 grupos Puede analizarse con Regresin logsticapolitmica (modelo multinomial) Se elige una categora como referencia y semodelan varios logits simultneamente, unopara cada una de las restantes categorasrespecto a la de referencia90Ejemplo: Hbito tabquico La variable resultado tiene 3 categoras: Fumador Ex-fumador No fumador (referencia) Se modelan 2 logits simultneamente: logit(fumador/No fumador| z) = a1 + b1z logit(Ex-fumador/No fumador| z) = a2 + b2z Las covariables (z) son comunes pero seestiman coeficientes diferentes para cadalogit (incluso diferente constante)91Caso 7. Acido flico y tabacoResumen del procesamiento de los casosN Porcentaje marginalTABAC2 Fumador 160 27.5%Ex-fumador 105 18.1%Fumador 316 54.4%NTILES of TKCAL 1 116 20.0%2 116 20.0%3 117 20.1%4 116 20.0%5 116 20.0%Vlidos 581 100.0%Perdidos 0Total 58192Contrastes de la razn de verosimilitudEfecto -2 logLChi-cuadrado gl Sig.Interseccin 140.294(a) .000 0 .NTFOLIC 153.247 12.953 2 .002NTKCAL 170.333 3 0.039 8 .000Estimaciones de los parmetrosIntervalo de confianzaal 95% para Exp(B)TABAC2(a) B Error tp. Wald gl Sig. Exp(B)LmiteinferiorLmitesuperiorInterseccin.347 .434 .639 1 .424NTFOLIC-.192 .108 3.136 1 .077 .825 .667 1.021[NTKCAL=1]-1.157 .375 9.515 1 .002 .314 .151 .656[NTKCAL=2]-.715 .345 4.287 1 .038 .489 .249 .963[NTKCAL=3]-.712 .331 4.622 1 .032 .491 .256 .939[NTKCAL=4]-.145 .307 .224 1 .636 .865 .474 1.578Fumador[NTKCAL=5]0(b) . . 0 . . . .Interseccin.887 .485 3.339 1 .068NTFOLIC-.438 .126 12.049 1 .001 .645 .504 .826[NTKCAL=1]-1.903 .444 18.389 1 .000 .149 .062 .356[NTKCAL=2]-1.498 .416 12.944 1 .000 .224 .099 .506[NTKCAL=3]-.707 .358 3.913 1 .048 .493 .245 .994[NTKCAL=4]-.631 .360 3.071 1 .080 .532 .263 1.078Ex-fumador[NTKCAL=5]0(b) . . 0 . . . .aLa categora de referencia es: Fumador.bEste parmetro se ha establecido a cero porque es redundante.93Regresin ordinal La variable respuesta tiene ms de 2categoras ordenadas Se modela un nico logit que recoge larelacin (de tendencia) entre la respuesta ylas covariables Hay varios modelos posibles segn interesemodelar la tendencia: odds proporcionales (acumualado) categoras adyacentes (parejas)94Odds-proporcionales Se compara un promedio de los posibles logitacumulados (respecto a la 1 categora): Cada logit tiene una constante diferente perocomparten el coeficiente de las covariablesLogit RespuestaMuybajoBajo Alto Muyalto12395 Modelo de odds proporcionales: y = 1,2, ... C k = 2,3, ... C Supone que el cambio entre diferentespuntos de corte de la respuesta es constante(b), pero parte de diferentes niveles (ak)z z) | y (y logitk k k! + a = >96Caso 8. Estudio de la clase funcional En pacientes operados de ciruga cardaca laclase funcional es una variable importante.Se ha agrupado en 3 categoras ordenadas:CLASEFUN baja / media / alta Un probable determinante de la clasefuncional es el hecho de haber sidointervenido previamente: REOPER: s/no973 categoras: 2 logits12logit(baja / media-alta) =+ REOPERlogit(baja-media / alta) =+ REOPERaba bTabla de contingencia Classe funcional * ReoperaciReoperaciNO SI TotalRecuento337 31 368Classe II% de Classefuncional91.6% 8.4% 100.0%Recuento533 64 597Classe III% de Classefuncional89.3% 10.7% 100.0%Recuento238 38 276Classe funcionalClasse IV% de Classefuncional86.2% 13.8% 100.0%Recuento1108 133 1241Total% de Classefuncional89.3% 10.7% 100.0%98Response Profile OrderedTotal Value CLASEFUN Frequency 1 1-medio-alto 873 2 0-bajo 368 StandardParameterDFEstimate ErrorChi-SquarePr > ChiSqIntercept 10.46440.24313.64760.0561REOPER10.36320.21522.84830.0915Response Profile OrderedTotal Value CLASEFUN Frequency 1 1-alto 276 2 0-bajo-medio 965 StandardParameterDFEstimate ErrorChi-SquarePr > ChiSqIntercept 1 -1.67640.2413 48.2484 ChiSq 0.00471 0.9451StandardParameter DFEstimate ErrorChi-SquarePr > ChiSqIntercept1 -1.66740.2054 65.9314 ChiSqNTCARB2 0.010.9966NTLIP 2 0.010.9966NTPROT2 0.010.9966Modelo saturado: LR Statistics For Type 1 AnalysisChi-Source DevianceDF SquarePr > ChiSqIntercept295.1403NTCARB 295.1335 2 0.010.9966NTLIP295.1268 2 0.010.9966NTCARB*NTLIP 215.6327 479.49