universidad nacional mayor de san...

37
UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA Desnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil Capítulo II. Modelo de regresión logística TRABAJO MONOGRÁFICO Para optar el Título Profesional de Licenciado en Estadística AUTOR Alicia Carla Herrera Garrido LIMA – PERÚ 2003

Upload: lamnguyet

Post on 29-Sep-2018

213 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

UNIVERSIDAD NACIONAL MAYOR DE SAN MARCOS

FACULTAD DE CIENCIAS MATEMÁTICAS E.A.P. DE ESTADÍSTICA

Desnutrición crónica : estudio de las características, conocimientos y aptitudes de la madre sobre nutrición infantil Capítulo II. Modelo de regresión logística

TRABAJO MONOGRÁFICO

Para optar el Título Profesional de Licenciado en Estadística

AUTOR

Alicia Carla Herrera Garrido

LIMA – PERÚ

2003

Page 2: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

9

CAPITULO II

MODELO DE REGRESION LOGISTICA

2.1 INTRODUCCION

El termino regresión fue introducido por Francis Galton. En un famoso articulo

Galton planteo que, a pesar de la presencia de una tendencia en la que los

padres de estatura alta tenían hijos altos y los padres de estatura baja tenían

hijos bajos, la estatura promedio de los niños nacidos de padres de estatura

dada tendían a moverse o ¨regresar¨ hacia la estatura promedio de la población

total. En otras palabras, la estatura de los hijos inusualmente altos o de padres

inusualmente bajos tiende a moverse hacia la estatura promedio de la

población. La ley de regresión universal de Galton fue confirmada por su amigo

Karl Pearson, quien reunió mas de mil registros de estaturas de miembros de

grupos familiares. Pearson encontró que la estatura promedio de los hijos de

un grupo de padres de estatura alta era menor que la estatura de sus padres y

la estatura promedio de los hijos de un grupo de padres de estatura baja era

mayor que la estatura de sus padres, generándose un fenómeno mediante el

cual los hijos altos e hijos bajos, ¨regresaban¨ en forma similar hacia la estatura

promedio de todos los hombres. En palabras de Galton, se trataba de una

regresión hacia la mediocridad

Cuando se pretende explicar, mediante un modelo de regresión, el

comportamiento de una variable dependiente en función de variables

explicativas, suele utilizarse un modelo de regresión lineal múltiple, como

veremos en este trabajo, el modelo lineal presenta ciertos problemas cuando la

variable dependiente es categórica, lo cual nos llevara a usar modelos de

regresión no lineal.

La técnica de la regresión logística se origino en la década de los 60 con el

trabajo de Cornfield, Gordon y Smith en 1967 Walter y Duncan la utilizan ya en

la forma que la conocemos actualmente, o sea para estimar la probabilidad de

ocurrencia de un proceso en función de ciertas variables. Su uso se incrementa

Page 3: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

10

desde principios de los 80 como consecuencia de los adelantos ocurridos en el

campo de la computación.

El objetivo de esta técnica estadística es expresar la probabilidad de que ocurra

un hecho como función de ciertas variables, para ( )1⟩K k variables. Que se

consideran influyentes. La regresión logística, al igual que otras técnicas

estadísticas multivariadas, da la probabilidad de evaluar la influencia de cada

una de las variables explicativas sobre la variable dependiente y controlar el

efecto del resto. Tendremos, por tanto, una variable dependiente, llamándola Y,

que puede ser binomial o multinomial (en este trabajo nos referimos solamente

al primer caso) y una o mas variables independientes, llamándolas X.

Al ser la variable Y binomial, podrá tomar el valor ¨0¨ si el hecho no ocurre y ¨1¨

si el hecho ocurre; el asignar los valores de esta manera o a la inversa es

intrascendente, pero es muy importante tener en cuenta la forma en que se ha

hecho llegado el momento de interpretar los resultados. Las variables

explicativas pueden ser de cualquier naturaleza: categóricas o cuantitativas;

cuando todas son categóricas entonces se usa el modelo log lineal.

2.2 OBJETIVOS DE LA REGRESION LOGISTICA

Sistemáticamente tiene dos objetivos:

1. Investigar que factores de una determinada característica de la

población modificará la probabilidad de ocurrencia de un determinado

evento.

2. Determinar el modelo más parsimonioso y mejor ajustado que siendo

razonable describa la relación entre la variable respuesta y un

conjunto de variables regresoras.

Page 4: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

11

2.3 REGRESION LOGISTICA Y OTROS METODOS RELACIONADOS

El objetivo general de la Regresión Logística es predecir la probabilidad de un

evento de interés en una investigación, así como identificar las variables

predictoras útiles para tal predicción.

Se pueden usar varios métodos multivariantes para predecir una variable

respuesta de naturaleza dicotómica a partir de un grupo de variables

regresoras.

El Análisis de Regresión Lineal Múltiple (ARLM) y el Análisis Discriminante

(AD) son dos métodos eficaces pero plantean problemas cuando la variable

respuesta es binaria.

En el ARLM cuando la variable respuesta toma solo dos valores, se violan los

supuestos necesarios para efectuar inferencias, los problemas que se plantean

son:

1. La distribución de los errores aleatorios no es normal.

2. Los valores predictados no pueden ser interpretados como

probabilidades como en la RL, por que toman valores dentro del

intervalo.

El AD permite la predicción de pertenencia de la unidad de análisis a uno de los

2 grupos pre-establecidos, pero se requiere que se cumplan los supuestos de

multinormalidad de las variables regresoras y la igualdad de matrices de

covarianzas de los dos grupos, pueden ser diferentes también; para que la

regla de predicción sea óptima., Johnson (1982), Anderson (1999).

La RL requiere mucho menos supuestos que el AD, por ello cuando satisfacen

los supuestos requeridos para el AD, la RL trabaja bien.

A continuación se describirá un paralelo entre la Regresión Lineal Múltiple y la

Regresión Logística, debido a que ambos tiene el mismo objetivo, predecir la

variable respuesta a partir de las variables regresoras.

Page 5: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

12

2.4 REVISION DEL MODELO DE REGRESION LINEAL MULTIPLE

La diferencia básica entre los modelos del ARLM y de la RL es la naturaleza de

la relación entre la variable respuesta y las variables regresoras.

Para el ARLM, consideremos y una variable respuesta cuantitativa y

kxxx ,....,, 21 variables regresoras o llamadas también explicativas; y se desea

describir la relación que hay entre la variable respuesta y las variables

explicativas, si entre la variable respuesta y las regresoras hay una relación

lineal se espera que:

( ) ikkiii xxxyE ββββ ++++= ......22110 , para i=1, 2, ..., n (2.1)

donde:

iy es el valor de la variable respuesta cuantitativa para el i-ésimo objeto.

jβ ; j = 0, 1, 2,....,k son los parámetros.

Siendo n el número de objetos u observaciones.

Aunque (2.1) no de valores exactos, se espera que varíe linealmente con las

variables regresoras, esto es:

( ) ikkiiii xxxxyE ββββ ++++= ......| 22110

r, para i=1, 2, ..., n (2.2)

siendo ( )ikiii

T

i xxxxx ,...,,, 210=r la i-ésima observación, con 10 =ix , toma

valores reales y en forma vectorial es:

( ) βrrr T

iii xxyE =| (2.3)

donde ( )k

T βββββ ,...,,, 210=r

es el vector de parámetros.

Pero en (2.3) hay otras variables regresoras que pueden influir linealmente

sobre iy , por tanto cada valor de iy está variando alrededor de ( )iyE a esa

variación lo denotamos con iε , esto es:

Page 6: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

13

( )β

εrr

r

T

ii

iiii

xy

xyEy

−=

−= |(2.4)

de (2.4):

i

T

ii xy εβ +=rr

(2.5)

iikkiii xxxy εββββ +++++= ......22110 , para i=1, 2, ..., n (2.6)

llamado MRLM poblacional, a iε se le llama error aleatorio y tiene las

siguientes propiedades:

( )( )( )( ) 0,

0,

02

=

≠∀==

=

ji

ji

i

i

XCov

jiCov

V

E

ε

εεσε

ε

(2.7)

las variables regresoras no son variables aleatorias y el comportamiento de y

es la respuestas a aquellas, así mismo iε es una variable aleatoria no

observable.

Generalizando el MRLM, (2.6), mediante el álgebra matricial está dada por:

εβ rrr += Xy (2.8)

donde:

( )n

T yyyy ,....,, 21=r, vector de variables respuestas observadas

( )kxxxX rrr ,.....,,,1 21= matriz de rango completo y con

( )ikii

T

i xxxx ,...,,,1 21=r

( )k

T ββββ ,.....,, 10=r

( )n

T εεεε ,....,, 21=r

así mismo (2.1) en forma matricial es:

( ) βrr XyE = (2.9)

el objetivo es estimar los parámetros del modelo (2.6), los mismos que son

estimados mediante el método de mínimos cuadrados, Searle (1971).

Page 7: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

14

Sea iy la estimación de iy , entonces:

ikkiii xxxy ββββ ˆ......ˆˆˆˆ 22110 ++++= , para i=1, 2, ..., n (2.10)

o equivalentemente:

βˆrrT

ii xy = (2.11)

siendo:

( )k

T ββββ ˆ,.....,ˆ,ˆˆ10=

r, el vector de parámetros estimados. (2.10) en su forma

matricial es:

βˆrr Xy = (2.12)

los residuos ordinarios ir es la contraparte muestral de iε y está dado por:

iii yyr ˆ−= para i=1, 2, ...., n (2.13)

en forma vectorial es:

yyr rrr −= (2.14)

El estimador de βr

se obtiene usando el método de mínimos cuadrados, que

consiste en minimizar la suma de cuadrados del error y está dada por:

( ) ( )yyyyeeeSCETn

i

T

iˆˆ

1

2 rrrrrr −−=== ∑=

con respecto a βr

, esta suma de cuadrados se expresa en forma cuadrática

como:

( ) ( )ββrrrr XyXy

T −− (2.15)

al minimizarlo se obtiene que:

( ) yXXX TT rr=β (2.16)

llamada ecuaciones normales.

Como ( )XX T es invertible, por que es simétrica de tamaño (k+1)x(k+1) y de

rango completo, entonces la solución del sistema lineal es:

( ) yXXX TT rr 1ˆ −=β (2.17)

que es sensible a observaciones pobremente ajustados y a los puntos

extremos de X , Montgomery y Peck (1992).

Page 8: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

15

El vector (2.12) de valores estimados para el vector de variables respuestas es:

βˆrr Xy =

( ) yXXXXy TT rr 1ˆ −= (2.18)

a la matriz ( ) TT XXXX1−

, se le llama matriz de cambio o de proyección

denotada por H , entonces (2.18) es:

yHy rr =ˆ (2.19)

El vector de residuos es:

yyr rrr −=

yHyr rrr −= (2.20)

( )yHIr rr −= (2.21)

yMr rr = (2.22)

El vector rr describe las desviaciones de los valores observados de los

ajustados y la matriz M es el subespacio en el cual cae rr .

El vector residual es importante para detectar puntos “extraños”. A la matriz H

se le llama matriz sombrero o de proyección, ver Cook y Weisberg (1982).

Ahora veamos como queda expresado la suma de cuadrados de los residuos,

denotada por SCE :

( ) ( )yyyySCE T ˆˆ rrrr −−= (2.23)

Reemplazando yr

por βr

X : (2.23) es:

( ) ( )ββ ˆˆ rrrr −−= yXySCET

(2.24)

Y reemplazando βr

por ( ) yXXX TT r1−:

( ) yXXXXyyySCE TTTT rrrr 1−−= (2.25)

La matriz ( ) TT XXXXH1−= , entonces:

yHyyySCE TT rrrr −= (2.26)

( )yHIySCE T rr −= (2.27)

Sea HIM −= , entonces (2.27) es:

Page 9: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

16

yMySCE T rr= (2.28)

Bajo el supuesto que ( )nIN 2,0~ σεrr

. , las observaciones nyyy ,...,, 21 son

independientes y distribuidas como una Normal n-variada con ( ) βrr XyE = con

matriz de varianzas y covarianzas. nI2σ .

En la RL, se estima la probabilidad de que un evento ocurra; es decir, el valor

esperado de y dado las variables regresoras, debe tomar valores entre 0 y 1.

La relación entre las variables regresoras y la dependiente no es lineal. Las

estimaciones de probabilidad estarán siempre entre 0 y 1, así, el valor de la

variable respuesta se puede definir como una probabilidad de que ocurra o no

un evento sujeto a control.

En la RL, se seleccionan los coeficientes, del modelo, que hacen que los

resultados sean los más “probables”. Como el modelo de RL no es lineal, se

requiere de un algoritmo iterativo para estimar los parámetros.

En las secciones siguientes se detallarán los aspectos teóricos y la aplicación

de la RL.

2.5 EL MODELO DE PROBABILIDAD LINEAL Y SUS PROBLEMAS

Consideremos el caso de una variable dependiente binaria, Y, la cual viene

explicada por un conjunto de variables explicativas .,.......,, 21 kxxx

Observar que, por ser Y una variable binaria (es decir sólo podrá tomar los

valores 0 y 1), siempre se cumplirá que:

E(Y) = 0.P(Y=0) + 1.P(Y= 1)= P(Y=1)

Por otra parte, podemos pensar en utilizar un modelo de regresión lineal

múltiple para explicar el comportamiento de la variable Y, es decir:

ikkii xxxy εββββ +++++= ....2210

Page 10: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

17

Bajo el supuesto habitual de que 0)( =εE , y suponiendo conocidos los

valores que toman las variables explicativas (observaciones), tendremos que:

kki xxxYE ββββ ++++= ....)( 2210

Igualando las dos expresiones obtenidas para E(Y) llegamos al resultado que le

da nombre al modelo de probabilidad lineal:

εββββ −=++++== YxxxYP kki ....)1( 2210

Observar que esta expresión nos viene a decir que podemos expresar la

variable dependiente binaria Y como la probabilidad de “éxito” más un término

de perturbación, es decir:

εε +=+== )()1( YEYPY

Sin embargo, este modelo inicial será válido para explicar el comportamiento

de variables dependientes binarias, pues presenta varios problemas:

1. No normalidad de los errores

El termino error )....( 2210 kki xxxY ββββε ++++−= ya no será una

variable aleatoria continua (como ocurría en el modelo de regresión lineal

múltiple, MRML), sino que será una variable aleatoria discreta –puesto que,

conocidos los valores de las variables explicativas, ε sólo puede tomar dos

valores determinados. Por tanto, ε ya no se distribuirá de forma normal (uno

de los supuestos básicos del MRLM). Si bien este supuesto no resulta

estrictamente necesario para aplicar Mínimos cuadrados ordinarios, sí es

fundamental a la hora de realizar cualquier tipo de inferencia posterior sobre el

modelo (intervalos de confianza para los parámetros estimados, contrastes de

hipótesis, etc.).

2. Varianzas heteroscedásticas de los errores

El término error ε no cumple la hipótesis de homocedasticidad (es decir la

varianza de dicho término no es constante). Debido a este problema, los

estimadores Mínimos cuadrados ordinarios no serán suficientes, por lo que

resultará necesario recurrir a la estimación por MCG.

Page 11: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

18

3. No cumplimiento de 1)/(0 ≤≤ ii XYE

Como la variable dependiente Y sólo puede tomar los valores 0 y 1, si

representamos gráficamente la nube de puntos formada por los pares de

observaciones de Y con una de las variables explicativas X, obtendremos

puntos situados sobre las rectas Y=1 e Y=0:

Y P(Y=1)

1

0 iX

Al estimar los parámetros del modelo de probabilidad lineal, estaremos

ajustando una recta a la nube de puntos anterior. El uso de dicha recta para

predecir nuevos valores de Y, es decir valores de ε−== YYP )1( a partir de

valores dados de X puede proporcionar valores mayores que 1 o menores que

0 (lo cual está en contradicción con la definición de probabilidad).

4. Finalmente, la expresión kki xxxYP ββββ ++++== ....)1( 2210 nos

dice que la probabilidad del suceso “éxito” viene determinada por una

combinación lineal de variables explicativas. De ello se deduce que

i

iX

YPβ=

∂=∂ )1(

, ki ,..1=∀ . En otras palabras, la variación en P(Y=1) causada

por cambios en alguna de las variables explicativas es constante (y, por tanto,

independiente del valor actual de dicha variable explicativa), lo cual es una

hipótesis muy poco realista.

Page 12: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

19

2.6 ASPECTOS A TENER EN CUENTA PARA EL USO DE REGRESION

LOGISTICA

• Tamaño de la muestra y número de variables independientes. Una de las

ventajas de la regresión logística es que permite el uso de múltiples

variables con relativamente pocos casos, sin embargo, hay que tener en

cuenta algunas precauciones. Se ha sugerido que el número de sujetos

para poder usar este método multivariante sin problemas debe ser superior

a 10(K+1) donde K es el número de variables explicativas; por tanto, si se

introducen interacciones o variables dummy, el número de elementos en la

muestra debe aumentar. Además se ha sugerido que si una de las variables

dicotómicas (en especial si es la de respuesta) no tiene al menos 10 casos

en cada uno de sus 2 valores posibles, entonces las estimaciones, la

inclusión de un gran número de ellas en el modelo (ejemplo K mayor a 15),

puede indicar que no se ha reflexionado suficientemente sobre el problema.

• Es necesario tener en cuenta el efecto sobre el riesgo de que ocurra el

evento, de los cambios de las variables explicativas cuando son

cuantitativas, en ocasiones es necesario categorizarlas, ya que los cambios

que se producen de una unidad a otra pueden resultar intrascendentes o no

ser constantes a lo largo del rango de valores de la variable.

• Cuando algunas de las variables independientes analizadas están

altamente correlacionadas, los resultados que se obtienen pueden no ser

satisfactorios, por esta razón debe realizarse un análisis previo univariado

entre las distintas variables explicativas.

Page 13: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

20

2.7 REGRESION LOGISTICA SIMPLE

Este modelo tiene la forma:

iii xy εββ ++= 10 para ni ,,2,1= (2.29)

De esto se deduce que:

Si 1=y , ii x101 ββε −−= (2.30)

Si 0=y , ii x10 ββε −−= (2.31)

Por tanto iε , no puede tener distribución normal debido a que toma valores

discretos, entonces el Modelo de Regresión Lineal Simple (MRLS) no es

aplicable para el caso de variable respuesta de tipo dicotómico.

En el ARL simple, el punto inicial del proceso de estimación del modelo es un

gráfico de dispersión de los valores de la variable respuesta versus los valores

de la regresora, pero este gráfico resulta limitado cuando sólo hay dos valores

posibles para la variable respuesta, por tanto se debe usar otros gráficos, éstos

resultan de la suavización de los valores de la variable respuesta,

representando después los valores de la variable respuesta versus la

regresora.

La notación que se usará en el presente trabajo para la RL es la misma que

emplea Hosmer y Lemeshow (2000).

Sea ( ) ( )xyEx =π (2.32)

Que representa la media condicional de 1=y dado x , donde ( )xπ representa

la probabilidad de que ocurra 1=y , ciertamente no se espera que (2.32) tenga

relación lineal dentro del rango de la variable regresora.

¿Qué hay de la relación entre ( )xπ y x para valores intermedios de x ? Se

espera una relación curvilínea. Para cualquier valor grande de x , ( )xπ tomará

Page 14: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

21

valores cercanos a 1 y para valores pequeños de x , ( )xπ tomará valores

cercanos a cero. El gráfico que muestra el comportamiento de ( )xπ versus x

es:

FIGURA Nº 1

La curva en forma de S o sigmoide que tiene propiedades requeridas para

( )xπ y tiene las propiedades de una función de distribución de probabilidad

acumulada, para esta probabilidad se usa la función de distribución acumulada

de la distribución logística dada por:

( )x

x

e

ex

10

10

1 ββ

ββ

π+

+

+= (2.33)

(2.33) tiene un gráfico similar a la Figura Nº 1, cuando 00 <β y 01 >β ,

además este modelo toma valores en el intervalo [ ]1,0 .

Cuando , [ ] 5.01 ==yP el valor de x es: 1

0

ββ−

, que brinda información muy

útil.

Una transformación de ( )xπ que es lo central del estudio de la RL es la

transformación logit, transformación que se define en términos ( )xπ como:

( ) ( )( )

x

x

xLnxg

10

1

ββ

ππ

+=

=(2.34)

Page 15: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

22

Lo importante de esta transformación es que tiene muchas propiedades

semejantes al MRL simple, por ejemplo es lineal en sus parámetros, puede ser

continua y puede tomar cualquier valor real dependiendo de x .

Para el MRL simple, la variable respuesta, de (2.4) se expresa como:

( ) ε+= xyEy (2.35)

para la variable respuesta dicotómica lo expresamos como:

( ) επ += xy (2.36)

veamos que ocurre con este modelo:

Si 1=y , ( )xi πε −=1 y tiene probabilidad ( )xπ

Si 0=y , ( )xi πε −= y tiene probabilidad ( )xπ−1

Entonces iε tiene distribución binomial con media cero y varianza

( ) ( )[ ]x1x ππ − . Por tanto la distribución condicional de la variable respuesta

tiene distribución de probabilidad binomial con media ( )xπ .

El lado izquierdo de (2.34) se llama también logaritmo de ODDS RATIO o razón

de probabilidades de 1=y contra 0=y , específicamente:

( )( )x

xRATIOODDS

ππ−

=1

(2.37)

o también llamado razón de ventaja a favor de éxito.

Para interpretar los parámetros consideremos (2.37) que da el siguiente

resultado:

En este caso no se trata del cambio (incremento o disminución) de la

probabilidad de la variable dependiente por cada unidad de cambio en las

independientes, sino del incremento o disminución que se produce en el

cociente entre la probabilidad de éxito y la probabilidad de fracaso.

( )( ) (2.38)

11010 xx eee

x

xRATIOODDS ββββ

ππ

==−

= +

Page 16: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

23

Más aún, están expresados en logaritmos, por lo que sería necesario

transformarlos (tomando los valores del antilogaritmo) de tal forma que se

evalúe más fácilmente su efecto sobre la probabilidad. Los programas de

computador lo hacen automáticamente calculando tanto el coeficiente real

como el transformado. Utilizar este procedimiento no cambia en modo alguno

la forma de interpretar el signo del coeficiente. Un coeficiente positivo aumenta

la probabilidad, mientras que un valor negativo disminuye la probabilidad.

Así pues si 1β es positivo, su transformación (antilog) será mayor a 1, y el

odds ratio aumentará. Este aumento se produce cuando la probabilidad

prevista de ocurrencia de un evento aumenta y la probabilidad prevista de su

no ocurrencia disminuye. Por lo tanto, el modelo tiene una elevada probabilidad

de ocurrencia. De la misma forma, si 1β es negativo, el antilogaritmo es menor

que 1 y el odds ratio disminuye. Un valor de cero equivale a un valor de 1, lo

que no produce cambio en el odds ratio.

2.8 REGRESION LOGISTICA MULTIPLE

En esta sección se generaliza el Modelo de Regresión Logística Simple tratado

en la sección anterior, es decir consideraremos más de una variable regresora,

en donde por lo menos una es de tipo cuantitativo.

2.8.1 MODELO DE REGRESION LOGISTICA MULTIPLE

Sea el vector de variables regresoras ( )k

T xxxx ,....,, 21=r por el momento

asumiremos que están medidas por lo menos bajo escala intervalar. Sea la

probabilidad condicional para que la variable respuesta sea igual a 1, denotado

por:

( ) ( )xxyP rr π==1 (2.39)

el logaritmo del Modelo de Regresión Logística Múltiple (MRL_M) está dado

por:

( ) ikkiii xxxxg ββββ ++++= ......22110

r, para i=1, 2, ..., n (2.40)

Page 17: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

24

entonces el MRL_M es:

( )( )

( )xg

xg

e

ex r

r

r

+=

1π (2.41)

Al igual que en el caso de MRLM si es necesario usar variables regresoras

categóricas, por ejemplo si una tiene c niveles será necesario incorporar c-1

variables ficticias o llamadas dummy; así entonces el logit para un modelo con

k variables regresoras y una variable categórica, por ejemplo la j-ésima es:

( ) ikk

c

ljljli xDxxg ββββ ∑

=++++=

1

1110 ......r

, para i=1, 2, ..., n (2.42)

2.8.2 MODELO DE REGRESION LOGISTICA MULTIPLE Y BONDAD DE

AJUSTE

El ajuste se efectúa a través del uso de los métodos de máxima verosimilitud,

los mismos que se encuentran en los softwares estadísticos que permiten

analizar datos mediante este método.

Asumiremos que disponemos de una muestra n observaciones independientes

( )ii yx ,r , i=1,2, ..., n ; donde iy toma valores 0 ó 1, para estimar

( )k

T ββββ ,...,, 10=r

que es el vector de parámetros desconocidos.

Para el M.R.L.M se usa el método de Mínimos Cuadrados para estimar βr

, el

cual minimiza la suma de cuadrados del error, pero cuando la variable

respuesta es binaria aplicar este método no provee las mismas propiedades

cuando es usado en variables respuestas continuas.

Por ello se usará el método de Máxima Verosimilitud, ya que obtendremos

parámetros estimados que maximizan la probabilidad de obtener un conjunto

de datos observados.

La función de verosimilitud expresa la probabilidad de los datos observados

como una función de parámetros desconocidos. Los Estimadores de Máxima

Page 18: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

25

Verosimilitud de esos parámetros son aquellos que están en concordancia con

los datos observados.

Consideremos el MRL_M con mayor detalle, supongamos que se dispone de n

objetos u observaciones donde para cada uno de ellos existe una respuesta

que puede ser:

10 == ii yoy

Sea ( )n

T yyyy ,...,, 21=v donde ( )ii By π,1~ y sea

( )kii

T

i xxx .,....,,1 1=r la i-ésima observación para las k variables explicativas.

Así el Modelo de Regresión Logística está dada por la expresión (2.40):

[ ] ( )( )

( )i

i

xg

xg

ii e

exyP r

r

rr

+===

1x|1 iπ (2.43)

equivalentemente

[ ]

++

+

==∑

=

=

k

jijj

k

jijj

ii

xExp

xExpxyP

10

10

1|1

ββ

ββr

(2.44)

y la probabilidad de que iy sea igual a cero es:

[ ] [ ][ ]

++

==

=−==

∑=

k

jijj

ii

iiii

xExpxyP

xyPxyP

101

10

:entonces,110

ββ

r

rr

(2.45)

para facilitar la notación usaremos la variable indicadora

nixi ,...,2,1,10 == .

Entonces (3.44) y (3.45) son respectivamente:

[ ] ( ) Ti

Ti

x

x

iiie

exxyP rr

rr

rrβ

β

π+

===1

|1 (2.46)

[ ] ( ) Tixiii

exxyP rrrr

βπ

+=−==

1

11|0 (2.47)

Page 19: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

26

donde: ( )ikii

T

i xxxx ,....,, 10=r, es el vector que contiene los valores de las

variables explicativas

( )k

T ββββ ,...,, 10=r

es el vector de parámetros a ser estimado.

El i-ésimo logito es:

∑=

=

=k

jijj

i

ii xLn

01β

ππ

λ (2.48)

como vemos, (2.48) es una función lineal simple del vector de observaciones

ixr llamada transformación logística de la probabilidad iπ o simplemente Logit

o Logito de la ecuación, a la expresión (2.48) también se le llama Modelo

Logístico Lineal.

A fin de obtener la estimación máximo verosímil para el vector βr

, escribimos la

función de densidad de probabilidad del vector yr

el cual es proporcional a n

funciones ( )iB π,1 , esto es:

( ) ( )

( )

( )

( )

−=

−=

=

−=

∑∏

∏∏

==

==

=

=

n

i i

ii

n

ii

n

i

y

i

in

ii

n

ii

y

i

i

n

i

y

i

y

iii

LnyExp

LnExp

yf

i

i

ii

11

11

1

1

1

11

11

11

1;

ππ

π

ππ

π

ππ

π

πππ

(2.49)

Reemplazando (2.48) en (2.49), se obtiene:

( ) ( )

( )

=

=

∑ ∑∏

∑ ∑∏

= ==

= ==

k

jj

n

iiji

n

i

k

ijj

n

ii

xyExp

xyf

0 11ii

n

1 0ji

1ii

-1

yExp-1;

βπ

βππ(2.50)

El logaritmo natural de la función (2.50), llamado función soporte es:

Page 20: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

27

( ) ( )

( )[ ]( ) ( )[ ]

( ) )52.2(1-1Ln

1-1Ln

entonces ,1-1 :(2.49) pero

)51.2(1ln;

0

1

i

0 11

+−=

+−=

+=

−+

=

∑ ∑∑

=

= ==

ij

k

jji

i

T

i

i

T

k

j

n

iij

n

iijiii

xExpLn

xExpLn

xExp

xyyl

βπ

βπ

βπ

πβπ

rr

rr

reemplazando (2.52) en (2.51), se obtiene:

( ) ∑ ∑∑ ∑= == =

+−

=

n

i

k

jijjj

k

j

n

iijii xExpLnxyy

1 00 1i 1;l ββπ (2.53)

como vemos (2.53) es una función que ya no depende de iπ sino de jβ

solamente, entonces lo denotamos como:

( ) ∑ ∑∑ ∑= == =

+−

=

n

i

k

jijj

k

jj

n

iiji xExpLnxyL

1 00 1

1 βββr

(2.54)

es una función que depende exclusivamente del vector βr

.

Definamos como:

∑=

=n

iijij xyt

1

(2.55)

entonces reemplazando (2.55) en (2.54) se tiene:

( ) ∑ ∑∑= ==

+−=

n

i

k

jijj

k

jjj xExpLntL

1 00

1 βββr

(2.56)

Como (2.56) es una función exclusiva del vector de parámetros βr

, por el

Teorema de Factorización de Fisher-Neyman, Bickel y Doksum (1976), se tiene

que k0,1,....,j para =jt son estadísticas suficientes para los parámetros ,jβ

para j = 0,1,...,k.,

La variable aleatoria jt dada en la expresión (2.56) es la suma de algunos de

los términos de la matriz de diseño X , es decir se incluyen en la suma

solamente los elementos que corresponden a una respuesta del tipo 1=y .

Page 21: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

28

Las ecuaciones de verosimilitud, se obtienen derivando (2.54) con respecto a

los elementos de βr

e igualando a cero:

∑ ∑∑

= =

=

=

+

−=∂∂ n

i

n

ik

jijj

k

jijj

ijiji

j xExp

xExp

xxyL

1 1

0

0

1 β

β

β(2.57)

las ecuaciones de verosimilitud de (2.57) son:

kjxxyn

iiij

n

iiji .....,2,1,00ˆ

11

==− ∑∑==

π (2.58)

siendo 10 =ix , equivalentemente (2.58) es:

( ) kjyxn

iiiij .....,2,1,00ˆ

1

==−∑=

π (2.59)

donde:

ˆ1

ˆ

ˆ

0

0

+

=∑

=

=

k

jijj

k

jijj

i

xExp

xExp

β

βπ ; para i=1,2,...,n

es el estimador máximo verosímil de iπ y se obtiene mediante jβ y el vector

ixr

La expresión (2.58) en su forma matricial es:

( ) 0ˆrrrr ==− SXyX T π (2.60)

Estas ecuaciones son parecidas a las ecuaciones normales obtenidas para

estimar el MRLM, pero son no lineales en βr

, lo cual hace que se use un

método iterativo para determinar los valores del vector βr

.

La obtención de jβ mediante métodos iterativos; para kj ,...,1,0= se

tratará en la siguiente sección, ahora obtendremos la varianza y covarianza de

βr

.

Sea )(nxpX la matriz de diseño, con p=k+1, con elementos:

Page 22: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

29

=

nknn

k

k

xxx

xxx

xxx

X

..1

........

........

....1

....1

21

22221

11211

Las ecuaciones de verosimilitud en su forma matricial, de la expresión (2.60):

πXyX TT rr= (2.61)

donde ( )nππππ ˆ,...,ˆ,ˆˆ21

T =r

( ) 01

=−∑=

n

iiiij yx π (2.62)

El método de estimación de las varianzas y covarianzas lo obtendremos de la

matriz de segunda derivada parcial de (2.62): y tiene la forma:

( )ii

n

iij

j

xL

ππβ

−−=∂∂

∑=

11

2

2

2

para j=0, 1, 2, ....., k (2.63)

reemplazando: la ecuación para iπ en (2.63)

∑∑

=

=

=

+

−=∂∂ n

i k

jijj

k

jijjij

j

xExp

xExpxL

12

0

0

2

2

2

1 β

β

β para j=0,1,2,....K (2.64)

( )∑=

−−=∂∂

∂ n

iiiilij

lj

xxL

1

2

1 ππββ (2.65)

reemplazando:

∑∑

=

=

=

+

−=∂∂

∂ n

i k

jijj

k

jijj

ilij

ljxExp

xExp

xxL

12

0

02

1 β

β

ββ(2.66)

Page 23: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

30

Tanto (2.64) como (2.65) no son funciones de iy entonces la matriz de

observación y la matriz de segunda derivada esperada son idénticas.

Ahora bien la matriz que contiene el negativo de las ecuaciones (2.64) y (2.66)

se denota con ( )βrΙ , llamada Matriz de Información; las varianzas y

covarianzas de jβ se obtienen tomando la inversa de esta matriz, esto es:

( ) ( )ββrr

1−Ι=Cov (2.67)

ver Cordeiro (1992).

Los estimadores de la varianza y covarianza, denotada por

( ) ( ) .ˆen evaluando obtiene se ,ˆˆ βββrrr

CovovC

Entonces la matriz de información estimada, matricialmente tiene la forma:

( ) VXX 'ˆˆ =Ι βr

(2.68)

V es una matriz diagonal, esto es:

( )[ ]iiDiagV ππ ˆ1ˆ −=

de tamaño nxn, además (2.68) es:

( ) ( ) 1'ˆˆ −= VXXovC βr

(2.69)

y es de tamaño (k+1)(k+1)

escribiremos los elementos de la matriz (2.69)

( )

( ) ( ) ( )( ) ( )

( )

=

k

k

k

ovC

βσ

ββσβσ

ββσββσβσ

β

ˆˆ.......

........

........

ˆ,ˆˆ......ˆˆ.

ˆ,ˆˆ.....ˆ,ˆˆˆˆ

ˆˆ

2

11

0100

2

r

donde:

( )jβσ 2ˆ es la varianza estimada de jβ

( )lββσ ˆ,ˆˆ j es la covarianza estimada de jβ y lβ

Page 24: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

31

( )jβσ ˆˆ es el error estandar de jβ

La matriz (2.69) será muy útil cuando se discuta el ajuste y la evaluación del

Modelo de Regresión Logística.

2.8.3 METODO DE NEWTON – RAPHSON PARA ESTIMAR LOS

PARAMETROS DEL MODELO DE REGRESION LOGISTICA.

Este es un método para resolver ecuaciones no lineales, como las obtenidas en

(2.55) o equivalentemente en (2.58), y requieren una solución mediante

métodos iterativos para hallar la estimación de los parámetros que es el

máximo de la función (2.54).

Uno de los métodos más usados para resolver ecuaciones de este tipo, es el

de Newton-Raphson, porque converge rápidamente. En el gráfico Nº2 se ilustra

el método.

Tomando como estimación inicial 1x , se prolonga la tangente a la curva en

este punto hasta interceptar con el eje de las abscisas al cual llamaremos

punto 2x , entonces se toma a 2x como la siguiente aproximación.

Este proceso continua hasta que un valor de 2x haga que la función sea nula o

suficientemente cercana a cero.

Para la estimación del vector βr

se quiere hallar el máximo de una función;

entonces usa la primera derivada, porque se anula en el punto máximo y la

segunda derivada para calcular las tangentes. En nuestro caso es necesario

hallar la segunda derivada para obtener la matriz de varianzas y covarianzas

de los parámetros estimados.

Page 25: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

32

Gráfico Nº2 Interpretación Geométrica del Método Iterativo de Newton

Raphson.

F(x)

Entonces se usa el siguiente esquema iterativo:

( ) ( ) ( )( )[ ] ( )( )tttt S ββββ ˆˆˆˆ 11

rrrr −+ Ι+= (2.70)

donde:

( )βrS y ( )βrΙ son las funciones de Score y de Información respectivamente.

La función Score es un vector de tamaño k+1, donde el j-ésimo elemento de

acuerdo a (2.65) es:

( )( )∑=

−=∂∂ n

iij

t

ii

j

xyL

1

πβ

(2.71)

La cual es similar a la expresión (2.59):

( ) kjyxi

iiij ...,,2,10ˆ ==−∑ π

La Función de información es una matriz de tamaño (k+1)(k+1) donde el i-j

ésimo elemento (l,j) es:

( )

∂∂

−=∂∂

∂ ∑=

n

iiiij

llj

yxl

1

2

πβββ

f(x2)

f(x1)

x2 x1 x

Page 26: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

33

+−

∂∂

−= ∑ ∑= =

n

ix

xn

iijiij

li

T

iT

e

exyx

1 1 1rr

rr

β

β

β

+

+

∑=

=2

1

1

1i

xT

e

ixT

eil

xixT

eixT

eil

xixT

en

iij

xrr

rrrrrrrr

β

ββββ

( )∑= +

=n

i x

xilij

iT

iT

e

exx

12

1rr

rr

β

β

( )∑=

−=n

iiiilij xx

1

1 ππ j=0,1,....,k ; l =0,1,....,k (2.72)

donde ( )tπr , es la t-ésima aproximación para πr , obtenida de ( )tβr

mediante:

( )

( )

( )

+

=

=

=

ij

k

j

t

j

ij

k

j

t

jt

i

xExp

xExp

0

0

1 β

βπ (2.73)

Entonces el próximo valor reemplazando en (2.70) es:

( ) ( ) ( ){ } ( )( )tTtTtt yXXVX πββ rrrr−−= −+ 11 (2.74)

donde ( ) ( ) ( )( )[ ]t

i

t

i

t DiagV ππ −= 1

La expresión (2.70) se usa para obtener ( )1+tπr y así sucesivamente. Después

de dar un valor inicial ( )0βr

, se usa (2.70) para obtener ( )0πr y para t>0 las

iteraciones siguientes se efectúan usando (2.70) y (2.71).

En el límite, ( )tπr y ( )tβr

converge a los EMV de πr y converge en general en 5

o 6 iteraciones.

Page 27: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

34

Existen software estadísticos como el SAS y el SPSS con programas para

estimar una regresión logística usando el método descrito. Una ventaja de este

método es que en el paso final del proceso iterativo se obtiene la inversa de la

función de información, que es asintóticamente la matriz de varianzas y

covarianzas del vector βv

y permiten efectuar inferencias sobre los parámetros

basado en la teoría normal.

2.8.4 PRUEBA DE HIPOTESIS PARA LOS COEFICIENTES DEL MODELO

DE REGRESION LOGISTICA.

Usualmente en la estimación del Modelo de Regresión Logística, como en el

Modelo de Regresión Lineal Múltiple se efectúan pruebas con objetivos

diferentes, siendo estos:

1. Determinar si una variable explicativa tiene coeficiente igual a cero.

2. Determinar si un conjunto de variables explicativas tienen coeficientes

igual a cero.

3. Determinar la calidad del ajuste global del modelo.

Veamos para cada objetivo, como se efectúa el análisis.

2.8.4.1 PRUEBA DE WALD

Wald (1943) estudio una prueba asintótica para estimaciones máximos

verosímiles, y aseveró que los parámetros estimados en los modelos logísticos

tiene una Distribución Normal para muestras grandes.

Esta prueba se usa para evaluar la significancia estadística de cada variable

explicativa o regresora.

Sea ( )tπr que converge a los EMV de πr y. nyyy ,,........., 21 variables respuesta

binaria independientes cuyas probabilidades satisfacen.

( ) βπrrT

ii xLogit =

donde [ ]iii xyP r1==π

Page 28: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

35

Siendo ixr una observación que contiene los valores de las k variables

explicativas con ( )ikii

T

i xxxx ,......,,,1 21=r.

Sin perdida de generalidad, seleccionaremos jβ como el parámetro de interés.

Supóngase que las hipótesis son:

01

00

:

:

jj

jj

H

H

ββ

ββ

=(2.75)

sea jβ un EMV de jβ y sea:

( ) 11 −− = VXXI T la inversa de la matriz de información muestral, entonces la

estadística de Wald para dócimar (2.75) es:

( )( )j

jjWβσββˆˆ

ˆ2

2

0−= (2.76)

donde ( )jβσ ˆˆ es la estimación del error estándar de jβ .

Bajo ( )2

10 ~, χWH , y para n suficientemente grande se tiene que:

( ) ( )

−−= 1,

ˆˆ

ˆ~

ˆˆ

ˆ00

j

jj

j

jj Nzβσββ

βσββ

(2.77)

por tanto:

( )2

1,

2 ~ ξχz , es 2χ con parámetro de no centralización:

( )( )j

jj

βσββ

ξˆˆ

2

0−= (2.78)

ver Hanck y Donner (1977)

Pero la estadística W , tiene la propiedad que cuando el valor absoluto del

coeficiente de Regresión es grande, el error estándar también lo es; esta

situación hace que la estadística W sea pequeña y por tanto se puede

rechazar jβ igual a cero, cuando en realidad no debería rechazarse.

Page 29: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

36

Por tanto, cuando se encuentra que un coeficiente es grande, es preferible no

usar la estadística de Wald para efectuar dócima individual. Sino se

recomienda construir un modelo con y sin esa variable y basarse en la prueba

de hipótesis de la diferencia entre los dos modelos, ver Hanck y Donner (1977).

Para las hipótesis estadísticas:

0:

0:

1

0

=

j

j

H

H

β

β (2.79)

La estadística (2.76) es:

( )( )j

jWβσ

βˆˆ

ˆ2

2

= (2.80)

Bajo ( )2

10 ~, χWH y para n suficientemente grande se tiene que:

( ) ( )

= 1,

ˆˆ

ˆ~

ˆˆ

ˆ

j

j

j

j Nzβσβ

βσβ

(2.81)

por tanto:

( )2

1,

2 ~ ξχz

2z se distribuye como una 2

)1,(ξχ con parámetro de no centralización:

( )( )j

j

βσβ

ξˆˆ 2

2

= (2.82)

si la variable explicativa es categórica, los grados de libertad es igual al número

de categorías o niveles de la variable menos uno.

2.8.4.2 PUNTUACION EFICIENTE DE RAO

Si el estadístico de Wald en la regresión logística juega el mismo papel que el

estadístico T en la regresión lineal múltiple para las variables incluidas en la

ecuación, la Puntuación eficiente de Rao juega el de la T para las variables no

incluidas. Supongamos que jβ es el parámetro asociado a la variable jX ,

supuesto que entrara en la ecuación de regresión en el siguiente paso. El

Page 30: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

37

estadístico de Puntuación eficiente de Rao permite constrastar la hipótesis

nula:

0:0 =jH β

La interpretación de dicha hipótesis es que, si la variable jX fuera

seleccionada en el siguiente paso, la información que aportaría no sería

significativa. Si el p-valor asociado al estadístico de Puntuación eficiente de

Rao es menor que α se rechazará la hipótesis nula a nivel de significación α .

Bajo este punto de vista, en cada etapa del proceso de selección de variables,

la candidata a ser seleccionada será la que presente el mínimo p-valor

asociado al estadístico de Puntuación eficiente de Rao. Será seleccionada si

dicho mínimo es menor que un determinado valor crítico prefijado (si no se

indica lo contrario, 0.05).

2.8.4.3 PRUEBA CHI-CUADRADO

Esta prueba sirve para lograr el segundo objetivo propuesto al iniciarse la

sección 2.8.4 y sirve para docimar los coeficientes del modelo logístico.

Para elegir un modelo, se usa la prueba de razón de verosimilitud, Bickel y

Docksum (1977), para probar la hipótesis de que los coeficientes jβ

correspondientes a las variables explicativas retiradas, digamos q variables

explicativas, del modelo son iguales a cero, siendo la hipótesis estadísticas:

qjunmenosloporparaH

H

j

q

,...,2,1,0:

0....:

1

210

=≠

====

β

βββ

Esta prueba se basa en la siguiente estadística:

[ ]pqpq LLnLLn −−= −22χ (2.83)

bajo la hipótesis de que los coeficientes de las variables retiradas son iguales a

cero, la estadística (2.83) tiene una distribución asintótica )(2

qχ valores altos

Page 31: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

38

para esta estadística indican que una o más de las q variables retiradas tienen

coeficiente de regresión diferente de cero.

2.8.5 SELECCIÓN DE VARIABLES

Aunque existen diferentes procedimientos para escoger el modelo sólo hay tres

mecanismos básicos para ello:

1. El método de selección Forward, que parte de un modelo sencillo,

añadiendo parámetros mientras que estos no sean significativamente

iguales a cero, según su nivel de significación fijado de antemano.

2. El método de selección Backward, supone un análisis en sentido

contrario al caso anterior, puesto que normalmente se parte de un modelo

saturado, simplificándolo, según se pueda, de aquellos parámetros que no

sean estadísticamente significativos.

3. El método de selección Stepwise, combina los dos anteriores y en cada

paso se puede tanto añadir una variable como eliminar otra que ya estaba

en la ecuación.

A continuación detallaremos la selección de variables con el Método Forward:

Si el proceso comienza con el método ajustado considerando únicamente el

término independiente, entonces:

1. En el primer caso se introduce la variable que presente el mínimo p valor

asociado al estadístico Puntuación eficiente de Rao, siempre y cuando

verifique el criterio de selección. En caso contrario, el proceso finalizará sin

que ninguna variable sea seleccionada y, en consecuencia, no será posible

construir la función Z a partir de la información de las variables

independientes.

2. En el segundo paso se introduce la variable que presente el mínimo p-valor

asociado al estadístico Puntuación de Rao, siempre que se verifique el valor

de selección. En caso contrario, el proceso finalizará, y la función Z se

construirá a partir de la información de la variable independiente introducida

en el primer paso.

Page 32: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

39

3. En el siguiente paso se introduce la variable que presente el mínimo p-valor

asociado al estadístico Puntuación eficiente de Rao, siempre que verifique

el criterio de selección. Sí, al introducir una variable, al máximo p-valor

asociado al estadístico de Wald para las previamente incluidas verifica el

criterio de eliminación, antes de proceder a la selección de una nueva

variable, se eliminará la variable correspondiente.

4. Cuando ninguna variable verifique el criterio de eliminación, se vuelve a la

etapa 3. La etapa 3 se repite hasta que ninguna variable no seleccionada

satisfaga el criterio de selección y ninguna de las seleccionadas satisfaga el

de eliminación.

2.8.6 EVALUACION DE LA BONDAD DE AJUSTE DEL MODELO

Comprobar la bondad de ajuste del modelo, es analizar cuan probable son los

resultados a partir del modelo ajustado, es decir que tan efectivamente

describe el modelo los resultados de la variable en estudio.

A continuación las estadísticas que evalúan la bondad de ajuste del modelo:

2.8.6.1 PRUEBA CHI-CUADRADO PEARSON

Esta estadística sirve para evaluar la bondad de ajuste del modelo en forma

global, la estadística se basa en la comparación de los valores observados iY y

sus respectivas probabilidades estimadas, iπ ,

0,...kjun menos lopor ,0:

..:

1

100

=≠===

j

k

H

H

ββββ

Se basa en la estadística

∑=

∧∧

=n

iii

iiY

1

2

2

1 ππ

πχ (2.84)

Page 33: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

40

bajo la hipótesis que el modelo se ajusta bien a los valores observados, la

estadística (2.84) tiene una distribución asintótica ))1((2

+− knχ , valores altos 2χ

indican discrepancias con el modelo teórico.

2.8.6.2 DESVIANZA

Esta estadística se usa para evitar la inestabilidad de la estadística chi-

cuadrado. La desvianza esta dado por:

∑=

=n

iip dD

1

2

bajo la hipótesis, asintóticamente, es la misma que la distribución chi-cuadrado

de pearson, es decir se distribuye ))1((2

+− knχ y mide la discrepancia o el desvío

entre el modelo bajo investigación o actual y el modelo saturado.

La estadística ( )pD para el modelo, esta dado por:

( )∑=

∧∧

−−+−=

n

i

iiii YYD1

1log1)log(2 ππ (2.86)

cuando el modelo bajo estudio es verdadero se compara el valor D con el valor

crítico )(2

pn −χ de una distribución chi-cuadrado a un nivel de significancia

igual a α , por lo tanto:

si )(2

pnD −⟩χ el modelo se rechaza y

si )(2

pnD −≤ χ el modelo no se rechaza, donde p=k+1

2.8.6.3 PRUEBA DE HOSMER-LEMESHOW

Hosmer y Lemeshow (1980,1982) propusieron una prueba para evaluar la

bondad del ajuste de un modelo de regresión logística.

Una formula definida de la estadística del modelo

C es la siguiente:

Page 34: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

41

∑=

−−

=−

g

k

kk

kkk

n

nOC

1

´

'

1 π

π

π

(2.87)

Donde:

kn ' = es el numero total de sujetos en el thK grupo

∑=

=kC

jjk YO

1

es el número de respuestas

∑=

=kC

j k

jjk

n

m

1'

ππ , es el promedio de las probabilidades estimadas

Hosmer y Lemeshow demostraron que nJ ≈ y el modelo de regresión

ajustado es el modelo correcto, la distribución de la estadística ∧

C esta

aproximado a la distribución chi-cuadrado con (g-2) grados de libertad,

)2(2

−gχ . Mientras no específicamente examinado siendo probable que

)2(2

−gχ se aproxime a la distribución cuando nJ ≈ .

En conclusión, la idea es si el ajuste es bueno, un valor alto de la p predicha se

asociará (con una frecuencia parecida a la p) con el resultado 1 de la variable

binomial. Se trata de calcular para cada observación del conjunto de datos las

probabilidades de la variable dependiente que predice el modelo, agruparlas y

calcular, a partir de ellas, las frecuencias esperadas y compararlas con las

observadas mediante la prueba chi-cuadrado.

2.8.7 EVALUACION DE LA CAPACIDAD PREDICTIVA DEL MODELO

Además de las medidas de bondad de ajuste, resulta interesante conocer la

calidad predictiva del modelo. A continuación se detalla dos técnicas para

realizar dicha evaluación.

2.8.7.1 TABLA DE CLASIFICACION

Page 35: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

42

Es otra medida para evaluar el ajuste del modelo, no es tan objetiva pero se

usa como indicador de bondad de ajuste.

Se presenta como una tabla 2x2 en el cual muestra la distribución de las

observaciones que pertenecen a las categorías 1 y 2, es decir Y=0 y cuando

Y=1, conjuntamente con la clasificación a cualquiera 2 categorías de acuerdo

a la probabilidad estimada.

Para interpretar se hace el porcentaje de observaciones bien clasificadas, esto

es, aquellos que mediante la probabilidad estimada permanecen en su

respectiva categoría. También se interpreta mediante el porcentaje de

observaciones mal clasificadas, esto es aquellas mediante la probabilidad

estimada se asignan a categorías diferentes del cual fueron observadas.

GRUPO ESTIMADOGRUPOACTUAL 0 1

TOTALMARGINAL

0 11n 12n 11n + 12n

1 21n 22n 21n + 22n

TOTALMARGINAL

11n + 21n 12n + 22n n

%1002211 xn

nn +, es el porcentaje de observaciones bien clasificadas

mediante el modelo de regresión logística estimado; por tanto se debe esperar

que este porcentaje sea el más alto posible a fin de concluir que el modelo

obtenido clasifica bien las observaciones en estudio y;

%1002112 xn

nn +, es el porcentaje de observaciones mal clasificadas mediante

el modelo de regresión logística estimado.

A partir de esta tabla se definen además:

Page 36: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

43

• La sensibilidad, que es igual a la proporción entre el número de casos

positivos del grupo 0 entre el número total de positivos observados

( )2111

11

nn

n

+.

• La especificidad, que es igual a la proporción entre el número de casos

negativos del grupo 1 entre el número total de negativos observados

( )2212

22

nn

n

+.

2.8.7.2 AREA BAJO LA CURVA (ROC)

El área bajo la curva (ROC) es la medida que evalúa la discriminación (grado

en que el modelo distingue entre individuos en los que ocurre el evento y los

que no).

ROC, construida para la probabilidad predicha por el modelo, que representa,

para todos los pares posibles de observaciones formados, por una observación

en el que ocurrió el evento y otro en el que no, la proporción de los que el

modelo predice una mayor probabilidad para el que tuvo el evento.

Como regla general:

Si ROC = 0.5 Indica que el modelo no esta discriminando

Si 8.07.0 ⟨≤ ROC se considera aceptable la discriminación

Si 9.08.0 ⟨≤ ROC Se considera excelente la discriminación

Si 9.0≥ROC Se considera sobresaliente la discriminación

En la practica es inusual observar que área bajo la curva mayor a 0.90.

El gráfico del área bajo la curva se construye por sensibilidad vs 1-especificidad

para todos los puntos de corte del evento, donde:

Sensibilidad = %2111

11

nn

n

+ y Especificidad = %

2212

22

nn

n

+

Page 37: UNIVERSIDAD NACIONAL MAYOR DE SAN …sisbib.unmsm.edu.pe/bibvirtualdata/monografias/basic/herrera_ga/... · El termino regresión fue introducido por Francis Galton. ... Karl Pearson,

44

Donde sensibilidad y especificidad podría describirse en un solo punto de corte

para clasificar una prueba final como positiva.