carbajal introduccion a_la_regresion_logistica
TRANSCRIPT
![Page 1: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/1.jpg)
Dra. Luz Carbajal Arroyo
Departamento de Estadística, Demografía, Humanidades y Ciencias Sociales – Universidad
Peruana Cayetano Heredia
Marzo, 2013
1
Asociación para el Desarrollo y la Investigación Estudiantil en Ciencias de la Salud (ADIECS),
![Page 2: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/2.jpg)
Permite realizar estimación de asociaciones cuando la variable de respuesta es dicotómica, es decir, cuando sólo puede tomar dos valores, los cuales comúnmente se refieren a la presencia o ausencia de una característica, de un diagnóstico o, en general, de cualquier condición de salud.
2
![Page 3: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/3.jpg)
Variable independiente:
FUMA LA MADRE (si, no)
Variable dependiente o de
respuesta: BAJO PESO AL
NACER
asociación de interés
Presencia (1) Ausencia (0)
SI (1) NO (0)
3
![Page 4: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/4.jpg)
Una variable como bajo peso al nacer, se conoce como una variable Bernoulli con un único parámetro de interés: ◦ La probabilidad de que un sujeto presente el
evento de estudio. Esta probabilidad se conoce como p y la distribución de la variable se denota de la siguiente manera:
BAJO PESO ~ Bernoulli(p)
donde:
P [BAJO PESO =1]= p
P [BAJO PESO =0]=1-p
4
![Page 5: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/5.jpg)
Podemos recordar que una medida de asociación adecuada para un estudio transversal, con un evento y exposición dicotómica, es la razón o cociente de odds. Hagamos un breve resumen estadístico de lo que hay detrás de esta medida:
Un odds compara la probabilidad de ocurrencia de un evento con la probabilidad de que NO ocurra, bajo las mismas condiciones.
5
![Page 6: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/6.jpg)
Si un evento ocurre con probabilidad p, entonces el odds de ocurrencia de ese evento en el grupo expuesto se define como:
1|0
1|11
EXPUESTOEVENTOP
EXPUESTOEVENTOPODDSEXPUESTO
6
![Page 7: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/7.jpg)
Exposición:
FUMA
1: Sí 0: No Total
Evento: Bajo Peso
1 : dx positivo a b a+b
0 : dx negativo c d c+d
Total a+c b+d
c
a
ca
cca
a
FUMABAJOPESOP
FUMAPESOBAJOPFumaODDS
1|0
1|11
Entonces, el odds para el grupo que FUMA (el grupo expuesto: FUMA=1) sería:
7
![Page 8: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/8.jpg)
d
b
db
ddb
b
FUMABAJOPESOP
FUMAPESOBAJOPFUMAODDS
0|0
0|10
8
![Page 9: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/9.jpg)
Un odds NO es una probabilidad, es UN COCIENTE de probabilidades. Es un número mayor o igual a cero. Tan grande como grande sean las posibilidades de estar clasificado como bajo peso en comparación a no tenerlo cuando se restringe la comparación a un grupo de sujetos con un factor (o factores) de riesgo común.
9
![Page 10: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/10.jpg)
Para evaluar qué tanto se asocia el fumar con el tener bajo peso al nacer, sería comparar estos dos odds, ya que contrastan la posibilidad de estar clasificado con bajo peso al nacer en las dos situaciones de interés: Fuma o no fuma la madre.
10
![Page 11: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/11.jpg)
Por lo anterior, se define a la Razón de odds (OR) como:
bc
ad
d
bc
a
Odd
OddOR
EXPUESTO
EXPUESTO
0
1
Un OR>1 será evidencia de que la exposición se asocia con mayores posibilidades de desarrollar la enfermedad, mientras que un OR<1 reflejará la asociación con una exposición protectora. La interpretación numérica de un OR se realizará en términos multiplicativos ya que la forma de comparación usada entre estos odds fue un cociente.
11
![Page 12: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/12.jpg)
Primero conozcamos las variables y la codificación. Se destacan en “negritas” las palabras que refieren
comandos específicos del paquete STATA.
desc low smoke
storage display value
variable name type format label variable label
-----------------------------------------------------------
low byte %8.0g low, 1:bajo peso, 0:normal
smoke byte %8.0g smoke, 1:Fuma, 0:no fuma
12
![Page 13: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/13.jpg)
tab low smoke
| smoke
low | 0:no 1:si | Total
-----------+----------------------+----------
0: Normal | 86 44 | 130
1: Bajo | 29 30 | 59
-----------+----------------------+----------
Total | 115 74 | 189
13
![Page 14: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/14.jpg)
68.0
74
4474
30
1|0
1|11
FUMABAJOPESOP
FUMABAJOPESOPFUMAOdd
34.0
115
86115
29
0|0
0|10
FUMABAJOPESOP
FUMABAJOPESOPFUMAOdd
0.234.0
68.0
0
1
FUMAOdd
FUMAOddOR
14
![Page 15: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/15.jpg)
. tabodds low smoke, or --------------------------------------------------------- smoke | Odds Ratio chi2 P>chi2 [95% Conf. Interval] --------------------------------------------------------- no | 1.000000 . . . . si | 2.021944 4.90 0.0269 1.069897 3.821169 --------------------------------------------------------- Test of homogeneity (equal odds): chi2(1) = 4.90 Pr>chi2 = 0.0269 Score test for trend of odds: chi2(1) = 4.90 Pr>chi2 = 0.0269
15
![Page 16: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/16.jpg)
El odds de presentar bajo peso en el grupo de madres que fuma es prácticamente el doble del odds correspondiente para el grupo que no fuma. Como el OR > 1, podemos interpretar que si la madre fuma se tiene el doble de riesgo que el niño pueda tener bajo peso al nacer en comparación a que la madre no fume.
16
![Page 17: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/17.jpg)
Un odds es una expresión que depende del parámetro de interés cuyo rango de posibles valores es el intervalo [0, ∞).
De la función logaritmo natural sabemos que puede aplicarse únicamente a valores en el intervalo (0, ∞) pero de ella obtenemos cualquier número real (igual que una recta). Además, tiene la propiedad de ser una función monótona creciente, es decir, tiene un comportamiento ascendente en todo su recorrido, lo que la hace atractiva como modelo de una relación dosis-respuesta.
17
![Page 18: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/18.jpg)
Transformamos logarítmicamente y tratamos de modelar esto como una función lineal. Pensemos en un caso simple en el que sólo tengamos una variable independiente.
Definamos la transformación logit(p) como
Xp1
pln)p(logit 10
18
![Page 19: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/19.jpg)
Puesto que el parámetro de interés es el valor esperado de la probabilidad de ocurrencia del evento (p), necesitamos despejarlo aplicando la transformación inversa de la función logaritmo, la exponencial.
Luego de aplicar la exponencial a la función, llegamos a lo que se conoce como la función logística.
Para hacer especial énfasis de que esta función modela la probabilidad de ocurrencia del evento en una situación específica definida por la variable X, denotamos a esta probabilidad como p(x)
)10(1
1
)10(1
)10()(
xexe
xexp
19
![Page 20: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/20.jpg)
0
0.2
0.4
0.6
0.8
1
-10 -5 0 5 10
Exposición
Pro
bab
ilid
ad d
e o
curr
enci
a d
el e
ven
to
Contradominio
: (0, 1)
Representa la asociación entre una exposición continua centrada en 0 y la probabilidad de desarrollar el evento. Si la exposición es 0, la probabilidad de ocurrencia del evento es igual a ½. La curva logística es asintótica a 0 y a 1. La relación entre la exposición y la p(x) es una relación monótona creciente.
20
![Page 21: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/21.jpg)
Veamos en la figura 2 cómo a través de los parámetros b0 y b1, la curva logística puede flexibilizarse para modelar asociaciones con exposiciones de mayor o menor riesgo (Figura 2: b1>0) es decir, que conforme aumenta la exposición, aumenta la probabilidad de ocurrencia del evento. Puede ocurrir a la inversa.
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
-30 -20 -10 0 10 20 30
Exposición
Pro
bab
ilid
ad d
e o
curr
enci
a d
el e
ven
to
0=2; 1=0.25
0=0; 1=1
0=0; 1=0.5
0=0; 1=0.25
Figura 2.
21
![Page 22: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/22.jpg)
Una vez que hemos explorado el comportamiento de la función logística, es hora de entender cómo se relaciona con la razón de odds. Pensemos en una variable de exposición dicotómica y posteriormente generalizamos el razonamiento a variables discretas y continuas.
Exposición
X=1 X=0
Evento Y=1 p(1) p(0)
Y=0 1-p(1) 1-p(0)
)0(1)0(
)1(1)1(
)0(1
)0(
)1(1
)1(
0
1
pp
pp
OR
p
pODDS
p
pODDS
EXP
EXP
)0(1
)0()0(
)10(1
)10(
))1(10(1
))1(10()1(
e
ep
e
e
e
ep
Función logística
1)ln(
)1(
OR
eORdespejando
22
![Page 23: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/23.jpg)
Existe una estrecha relación entre la Razón de odds y el coeficiente de regresión que obtenemos a través de una regresión logística.
Veamos en el ejemplo de bajo peso al nacer y fumar que habíamos trabajado y cómo podríamos calcular el OR en STATA utilizando el modelo logístico.
23
![Page 24: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/24.jpg)
Logistic regression Number of obs = 189
LR chi2(1) = 4.87
Prob > chi2 = 0.0274
Log likelihood = -114.9023 Pseudo R2 = 0.0207
------------------------------------------------------------------------------
low | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | 2.021944 .6462912 2.20 0.028 1.080668 3.783083
------------------------------------------------------------------------------
logistic low smoke
Ejemplo de bajo peso y si la madre fuma o no
Logistic regression Number of obs = 189
LR chi2(1) = 4.87
Prob > chi2 = 0.0274
Log likelihood = -114.9023 Pseudo R2 = 0.0207
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | .7040592 .3196386 2.20 0.028 .0775791 1.330539
_cons | -1.087051 .2147299 -5.06 0.000 -1.507914 -.6661886
------------------------------------------------------------------------------
logit low smoke, nolog
24
![Page 25: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/25.jpg)
Estas corridas se relacionan con lo que hemos visto a través de las diferentes fórmulas.
El OR es la misma que habíamos calculado utilizando la fórmula (1).
02.2)704.0exp(
)704.0087.1exp(1
)704.0087.1exp()1(ˆ
OR
FUMA
FUMABAJOPESOp
25
![Page 26: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/26.jpg)
Por Intervalo:
)ˆ(EE96.1ˆ
)ˆ(EE96.1ˆ
11
00
Para calcular el intervalo del 95% de confianza para el OR, tenemos que aplicar la transformación exponencial a los extremos del intervalo, es decir:
)ˆ(EE96.1ˆexp 11
26
![Page 27: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/27.jpg)
kk xxp
pp
110
1ln)(logit
kxkxkxkx
kxkxxp
110exp1
1
110exp1
110exp)(
27
![Page 28: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/28.jpg)
Supongamos ahora que queremos evaluar la asociación entre fumar (fuma) y la probabilidad de tener bajo peso al nacer, ajustando por edad de la madre (age).
El siguiente modelo de regresión logística, podría quedar expresado de manera completamente equivalente en cualquiera de las siguientes dos expresiones que corresponde, respectivamente, a su forma logística y en su forma logit.
AGEFUMA
AGEFUMABAJOPESOp
210exp1
210exp)1(
AGEFUMABAJOPESOp 210)1(logit
28
![Page 29: Carbajal introduccion a_la_regresion_logistica](https://reader033.vdocuments.net/reader033/viewer/2022052204/5590fa7c1a28ab41038b465f/html5/thumbnails/29.jpg)
Logistic regression Number of obs = 189
LR chi2(2) = 7.40
Prob > chi2 = 0.0248
Log likelihood = -113.63815 Pseudo R2 = 0.0315
------------------------------------------------------------------------------
low | Odds Ratio Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | 1.997405 .642777 2.15 0.032 1.063027 3.753081
age | .9514394 .0304194 -1.56 0.119 .8936481 1.012968
------------------------------------------------------------------------------
Logistic regression Number of obs = 189
LR chi2(2) = 7.40
Prob > chi2 = 0.0248
Log likelihood = -113.63815 Pseudo R2 = 0.0315
------------------------------------------------------------------------------
low | Coef. Std. Err. z P>|z| [95% Conf. Interval]
-------------+----------------------------------------------------------------
smoke | .6918487 .3218061 2.15 0.032 .0611203 1.322577
age | -.0497793 .031972 -1.56 0.119 -.1124432 .0128846
_cons | .0609055 .7573199 0.08 0.936 -1.423414 1.545225
------------------------------------------------------------------------------
logit low smoke age, nolog
29