LOS MODELOSLOGIT Y PROBIT ENLA INVESTIGACIÓNSOCIAL
Centro de Investigación yDesarrollo (CIDE)
Lima, Agosto 2002
El caso de la Pobreza del Perúen el año 2001
2 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Preparado : Centro de Investigación y Desarrollo del Instituto Nacional deEstadística e Informática (INEI)
Impreso : Talleres de la Oficina Técnica de Administración del INEIDiagramación : Centro de Edición de la Oficina Técnica de Difusión del INEITiraje : 200 EjemplaresDomicilio : Av. General Garzón 658, Jesús María. Lima - PerúOrden de Impresión : Nº -OTA-INEIDepósito Legal Nº : 150113-2002-4014
DIRECCIÓN Y SUPERVISIÓN
Econ. Mirlena Villacorta OlazabalDirectora Técnica del CIDE
Documento Elaborado por:
Franck G. Pucutay Vásquez
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 3
Centro de Investigación y Desarrollo
Presentación
El INEI pone a disposición la investigación metodológica: "LOS MODELOSLOGIT Y PROBIT EN LA INVESTIGACIÓN SOCIAL El caso de lapobreza del Perú en el año 2001", que por su nivel de especializaciónestá dirigida principalmente a los miembros de la comunidad académica,profesionales de las oficinas de estadística y los investigadores interesadosen mantener la actualidad de sus procedimientos estadísticos.
Esta investigación metodológica tiene por finalidad, generar instrumentosy procedimientos que permitirán validar, mejorar y actualizar los procesosestadísticos. Se caracteriza por ser innovadora en su campo de aplicación,por contener un rigor científico en su desarrollo integral, por la validezde sus procesos, por la vigencia y actualidad de sus metodologías aplicadas.
En esa misma dirección, la investigación presentada desarrolla lametodología asociada a los modelos de probabilidad con variabledependiente discreta dicotómica (modelo logit y probit), en función delfenómeno de pobreza en los jefes de hogar del Perú para el año 2001.Contribuyendo a la implementación de los enfoques asociados a estosmodelos, según la viabilidad permitida por los factores de naturalezacualitativa, cuantitativa y su aporte en la probabilidad de ser pobre deljefe de hogar.
Este estudio al igual que otros de carácter metodológico, ha sido elaboradopor profesionales del Centro de Investigación y Desarrollo (CIDE), en elmarco del desarrollo y promoción de investigaciones estadísticas ysocioeconómicas que permitan elevar la calidad de la información delINEI y el SEN.
El INEI espera como resultado de esta investigación, incorporarse en elcircuito de la producción del conocimiento y elevar los estándares decalidad de sus procesos, sentando con ello las bases de la investigaciónmetodológica en la institución.
Lima, Agosto 2002
Gilberto Moncada VigoJefe del INEI
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 5
Centro de Investigación y Desarrollo
I N D I C EPresentación .................................................................................................. 3
Prólogo ........................................................................................................ 7
I. INTRODUCCIÓN ................................................................................... 9
II. FUNDAMENTACION DEL PROBLEMA .......................................... 112.1. Formulación del problema ........................................................................... 13
III.OBJETIVOS DE LA INVESTIGACIÓN .............................................. 153.1. Objetivo general .............................................................................................. 153.2. Objetivos específicos ...................................................................................... 15
IV. MARCO TEÓRICO ............................................................................... 174.1. Breve formulación del caso de la Pobreza del Perú. ............................... 17
4.1.1. ¿Qué es la pobreza? .............................................................................. 174.1.2. Enfoques y métodos para su medición ............................................. 17
4.2. Los modelos logit y probit con variable dependientedicotómica (VDD). ........................................................................................ 20
4.2.1. Modelos con variable dependiente dicotómica (vdd). .................... 204.2.2. Formulación del modelo logit y el modelo probit con (vdd) . .... 224.2.3. Caracterización de los modelos logit y probit aplicados
al caso de la pobreza del Perú. ............................................................ 24
V. HIPÓTESIS .......................................................................................... 33
VI. METODOS ........................................................................................... 356.1. Tratamiento de errores en la adecuación de ambos modelos. ............... 35
6.1.1. Métodos de estimación ........................................................................ 35
VII. LA ENCUESTA NACIONAL DE HOGARES - 2001 IV TRIMESTRE ................................................................................. 397.1. Características de la muestra ........................................................................ 417.2. Factores de relevancia para la explicación de la pobreza
extraídos de la ENAHO IV trimestre 2001. ............................................ 43
VIII. CRITERIOS DE FORMULACIÓN DE LOS MODELOS LOGIT Y PROBIT CON VDD APLICADOS AL CASO DE LA POBREZA DEL PERÚ. .............................................................. 498.1. Estudio a nivel descriptivo y exploratorio de algunas variables
cualitativas y cuantitativas que inciden en la pobreza del Perú. .......... 498.2. Formulación y adecuación de los modelos Logit y Probit con VDD,
en función de las variables o factores explicativosmás significativos. ......................................................................................... 58
IX. CONCLUSIONES ................................................................................. 79
X. RECOMENDACIONES ...................................................................... 81
XI. BIBLIOGRAFÍA .................................................................................... 83
XII. ANEXOS .............................................................................................. 85Anexo 1 Informe metodológico ............................................................................ 87Anexo 2. Indices de ecuaciones, cuadros y gráficos ............................................. 95
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 7
Centro de Investigación y Desarrollo
Prólogo
Desde las aulas universitarias y siendoconocedor de la difícil tarea que significala promoción y desarrollo de la laborcientífica en una realidad caracterizadapor la escasez de recursos y lasrestricciones presupuestarias, saludo esteesfuerzo del Centro de Investigación yDesarrollo (CIDE) orientado no sólo aelevar la calidad de la informacióngenerado por el Sistema EstadísticoNacional sino también a la produccióncientífica y metodológica en nuestromedio. En este sentido, la presentepublicación: "Los Modelos Logit y Probiten la Investigación Social: El Caso de laPobreza del Perú en el Año 2001"satisface una necesidad no sólo para losconsumidores potenciales deinvestigaciones sociales o eventualesinvestigadores sino también para elpúblico interesado y universitariofamiliarizado con los elementos de laestadística.
Aunque este documento esmetodológico por naturaleza, estáorientado hacia las aplicaciones. A lo largodel estudio, se ha mantenido al mínimolas demostraciones teórico-matemáticasy se ha puesto énfasis en el desarrollo deun entendimiento claro de los resultadosteóricos usuales en los estudios socialescon este tipo de modelos, el cual estáplasmado en los objetivos planteados enel documento. De otro lado, se hace unabreve pero precisa formulación de lapobreza en el Perú cuyo análisis se basaen las variables provenientes de LaEncuesta Nacional de Hogares-2001 IVTrimestre (ENAHO). De ahí que, seincluye un capítulo que describe ladefinición de dichas variables para luegointeractuar sistemáticamente en laformulación del problema y análisis conel enfoque de los Modelos Logit y Probit.
Luis Huamanchumo de la CubaEscuela Profesional de Ingeniería
Estadística-UNI
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 9
Centro de Investigación y Desarrollo
La investigación metodológica juega unpapel fundamental en el desarrollo de losestándares de calidad de las oficinasestadísticas más renombradas del mundo,con el objetivo de generar informaciónrelevante para la producción delconocimiento científico y por ende la tomade decisiones. Pero ello implica lautilización y exploración de técnicasvigentes e idóneas para el análisis de suinformación sin la cual no podríanmejorarse los procesos que implican suproducción.
Muchos de los campos en los cuales sedesarrollan estas investigaciones abordandiferentes aspectos tanto de laproblemática social y económica. Aquípodemos decir que la Pobreza es uno deesos temas tan apasionantes y a la vez muydiscutidos sobre el cual se desarrollan unagran diversidad de metodologías yexplicaciones, sin ser estas concluyentesy menos aún aceptadas por todos. Desdeel punto de vista estadístico, unaexplicación a este fenómeno esampliamente beneficiada por la utilizaciónde los modelos de elección discretadicotómica-modelos logit y probit, paraobtener la cuantificación del aporte de susfactores significativos en el análisis de lapobreza.
En esa misma línea se plantea en quémedida una explicación sobre la pobrezade los jefes de hogar del Perú en el año2001, se vería beneficiada por la adopciónde un enfoque de proporciones muestrales
I. INTRODUCCION
o por un enfoque de observacionesindividuales en la utilización de losmodelos logit y probit.
Entonces diríamos que los factores denaturaleza cuantitativa como el ingreso percápita mensual del hogar, expresado através de sus deciles de ingresos, o losaños de estudios, etc; generan un modelocorrectamente ajustado a la probabilidadde ser pobre de los jefes de hogar con elenfoque de proporciones muestrales delmodelo probit.
O que los factores explicativos de lapobreza del Perú en el año 2001 denaturaleza cualitativa y cuantitativaexclusivos del jefe de hogar como el nivelde educación, el tipo de colegio dondeestudió, la categoría ocupacional, eltamaño de la firma donde labora, latenencia de otro empleo, el estado civil,su edad, su indicador de experiencialaboral; en combinación con los factoresde naturaleza cualitativa y cuantitativaexclusivos del hogar como la cantidad demiembros del hogar, la cantidad demiembros pertenecientes a la PET, elingreso per cápita mensual, el acceso aactivos públicos de agua y desagüe, si elhogar dedica un espacio físico de este ageneración de ingresos, no permitengenerar modelos correctamente ajustadosa la probabilidad de ser pobre del jefe dehogar siguiendo el enfoque deobservaciones individuales en los modeloslogit y probit.
10 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Para tal efecto, lo que se pretende esestudiar la relación entre los factoresdeterminantes de naturaleza social,económica, demográfica de la pobrezadel Perú y los enfoques de utilización delos modelos logit y los modelos probit.
Analizar el grado de afectación de losfactores de naturaleza cuantitativa sobreel enfoque de proporciones muestrales.Comparar una estimación del modelo logitcon una estimación del modelo probit enun enfoque de casos individuales, paracuantificar el aporte de los factoresexplicativos de la pobreza en los jefes dehogar.
Luego de esta suscinta introducción, elsegundo capítulo de esta investigacióndesarrolla la fundamentación del problemay su sistematización; en el tercero seformulan los objetivos de esta, mientrasque en el cuarto capítulo mostramos elmarco teórico asociado a la pobreza, cómoesta viene definida y los métodos para sumedición. Además en este se muestranla formulación teórica de los modelos logity probit con variable dependiente discreta-dicotómica, su caracterización, similitudesy diferencias, enfoques de utilización y losefectos marginales asociados a cada unode los modelos. En el quinto capítulo semuestran las hipótesis formuladas para estainvestigación, mientras que en el sextoindicamos los métodos de estimación apartir de los enfoques utilizados.
En el séptimo capítulo se muestra demanera general la Encuesta Nacional deHogares, sus objetivos y característicasespecíficas, así como los factoresrelevantes para la explicación de la pobrezade los jefes de hogar tomados en laENAHO-IV trimestre 2001. El octavocapítulo muestra los criterios de aplicación
de los modelos logit y probit aplicados alcaso de la pobreza en el Perú, partiendode un análisis descriptivo-exploratorio dealgunas variables significativas como laeducación, el estado civil, región naturalde residencia, los años de estudios, etc;para luego hacer una formulación ydesarrollo metodológico de los modelosen función a sus enfoques y factores mássignificativos, terminando con unaexplicación de los resultados obtenidos.Los siguientes capítulos hacen referenciaa las conclusiones, recomendaciones yanexos.
No quisiera terminar esta breveintroducción sin mostrar miagradecimiento al Instituto Nacional deEstadística e Informática por permitirmecolaborar a través del desarrollo de estainvestigación en avanzar más hacia elfortalecimiento de la cultura estadística enel país, y además, sentar las bases de lainvestigación metodológica en el Perú.
De la misma manera, las gracias infinitas ala señora Directora Técnica del Centro deInvestigación y Desarrollo, MirlenaVillacorta, por sus valorables aportes en eldesarrollo de esta investigación, sucompresión y constante apoyo, y porqueme muestra que cada día es posibleconstruir desde la inteligencia y lacreatividad.
Así mismo, quiero expresar mi gratitud yreconocimiento a Luis Huamanchumo,auditor de esta investigaciónmetodológica, por sus importantísimasapreciaciones y por su compromiso con lalabor de investigación estadística, desdeya reciba las gracias infinitas. Para terminarlas gracias a Dios, a mi Familia y a misseres queridos.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 11
Centro de Investigación y Desarrollo
II. FUNDAMENTACION DEL PROBLEMA
La pobreza es un fenómeno siemprepresente, en mayor o menor medida, entodas las sociedades, razón por la cual hasido objeto de estudio y se han buscadolas herramientas de política paraenfrentarla. Existen muchas definicionesrespecto a lo que debe entenderse porpobreza y ninguna de ellas es precisa niaceptada por todos, sin embargo, engeneral todas las definiciones apuntan ala situación en que se encuentran laspersonas que no disponen de los medios(de "producción", activos fijos,intelectuales, sociales, culturales,financieros y demás que permitan generarfuentes permanentes de ingresos)suficientes para satisfacer sus necesidadesbásicas definidas como tales para un gruposocial específico y en un tiempodeterminado, y que permitan su desarrollopersonal y reflejen el estilo de vida de laformación social en su conjunto. Entreestas necesidades figuran la alimentación,salud, vivienda, educación básica, accesoa servicios esenciales de información,recreación, cultura, vestido, calzado,transporte y comunicaciones, participacióne identidad en y con la comunidad, entreotras.
El Perú es uno de los países más pobresde América del Sur. Una breve mirada acualquier listado que pretenda ordenar lospaíses en función de su bienestar lodemuestra. Casi la cuarta parte de losperuanos carecen de recursos paraalimentarse adecuadamente, es decir,viven en condiciones de pobreza extrema.
La pobreza se origina en la incapacidadde la economía peruana para generarsuficientes empleos productivos. De los140 mil jóvenes que se integran cada añoa la fuerza laboral urbana, menos de untercio obtiene un empleo adecuado y casiel 40% está desempleado o trabajandoen algo que no implica capacitaciónalguna ni ofrece perspectivas de progresofuturo.
Dada la complejidad del fenómeno,existen distintas metodologías paramedirlo, tales como el método de la líneade pobreza, el método de las NBIs, elmétodo integrado, entre otros. Noobstante, tan importante como tener unacuantificación rigurosa de los niveles depobreza y las tendencias en su evolucióntemporal y espacial, es analizar lasrelaciones entre ellas y sus factoresexplicativos que podrían albergar opcionesde política para solucionarla, tales comola educación.
Debido a lo expuesto líneas antes, se estánrealizando estudios e investigacionesavanzadas, pero aún incipientes en elaspecto metodológico, sobre el rol defactores como la posesión de activosprivados, la distribución del ingreso, elacceso a activos públicos, en su explicacióndel fenómeno de la pobreza, o mejordicho sobre la adquisición de tal condición.Investigaciones que estén orientadas ypermitan un mejor diseño eimplementación de las políticas públicas y
12 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
sociales. En tal sentido queremos afirmarque el desarrollo que se viene dando enel mundo en muchos aspectos delconocimiento, entre ellos en los camposde la economía y la estadística, permitenexplicar fenómenos a través del desarrolloy análisis de enfoques cualitativos.
Con la selección del enfoque y laformulación de modelos donde la variabledependiente cualitativa es discretadicotómica (2 niveles), para efectos de estainvestigación, ser jefe de hogar pobre ojefe de hogar no pobre; y expresada através de variables o características socialesy demográficas que pueden poseer losindividuos (el estado civil, experienciaeducacional, categoría ocupacional,acceso a activos públicos, etc) y el hogar(cantidad de miembros, ingreso per cápitamensual), podemos colaborar aún más conexplicaciones razonables a este vastofenómeno de LA POBREZA, constituidoen el Perú actualmente por más de lamitad de su población.
Actualmente, en nuestro país puedenestarse aplicando inadecuadamentemodelos con estas características, debidoa la falta de un proceso de análisisadecuado que determine su correctautilización y que puede responder a undesconocimiento y una falta deapoderamiento de las metodologíasadecuadas para su implementación ycomo consecuencia directa una correctaexplicación de los fenómenos bajo estudio,en donde la pobreza no se encontraríasola, sino también otras manifestacionessociales como la situación laboral, laeducación, o en el campo de la medicinapara el caso de enfermedades como ladiabetes, etc.
En muchas de las investigaciones deíndole social y demográfica, la naturalezadel fenómeno a indagar, en este caso lacondición ser jefe de hogar pobre o jefede hogar no pobre y sus factoresdeterminantes de naturaleza social,económica y demográfica, podríandeterminar un tipo de enfoque(proporciones muestrales u observacionesindividuales) a seguir dentro de lo que seconstituyen los modelos con variabledependiente dicotómica y por lo tantoutilizar los modelos logit o probit en laexplicación de este fenómeno.
Desde la perspectiva estadística con quese enfoca al fenómeno de pobreza, sepuede evidenciar que no es aún clara laidea de optar por alguno de los dosmodelos (el modelo Logit o el modeloProbit) siguiendo el enfoque deobservaciones o casos individuales, peroque este último, permitiría saltar laslimitaciones que posee el enfoque deproporciones muestrales o de clasificaciónde casos u observaciones en función a susfactores determinantes de índole social,demográfico, económico, etc.
En tal sentido nos vemos en la necesidadde proponer una metodología de análisisy utilización de los modelos logit y probitcon variable dependiente dicotómica,valiéndonos para ello de una explicaciónde la pobreza en los jefes de hogar delPerú para el año 2001, cuantificando elaporte de sus factores determinantes entreellos el nivel de educación, los años deestudios, la experiencia laboral, lacondición ocupacional, el acceso a activospúblicos, etc; y como esta posibilita laviabilidad de los enfoques de utilizaciónde dichos modelos y un mejoracercamiento a su explicación.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 13
Centro de Investigación y Desarrollo
Para esto se analizará la informaciónrecogida por La Encuesta Nacional deHogares (ENAHO) - IV TRIMESTRECondiciones de Vida Y Pobreza, realizadapor el Instituto Nacional de Estadística eInformática en el año de 2001.
2.1 Formulación del Problema
¿En qué medida una explicación de lapobreza en los jefes de hogar del Perú severía beneficiada por la adopción de unenfoque de proporciones muestrales o porun enfoque de observaciones individuales?
Sistematización del Problema
• ¿Cómo la pobreza en los jefes dehogar del Perú a través de sus factoresdeterminantes de naturaleza social,económica y demográfica hacenfactible el enfoque de proporcionesmuestrales o el enfoque deobservaciones individuales en losmodelos logit y probit?.
• ¿En qué medida los factoresdeterminantes de índole cuantitativocomo el ingreso percápita mensual, losaños de estudios, la experiencialaboral, la cantidad de miembros en elhogar, etc, influyen sobre un enfoquede proporciones muestrales delmodelo probit y la pobreza de los jefesde hogar del Perú?.
• ¿Resulta más eficaz una estimación delmodelo logit que una estimación delmodelo probit en un enfoque deobservaciones individuales paracuantificar el aporte de los factoresexplicativos de la pobreza en los jefesde hogar?.
• ¿Qué similitudes y diferencias puedenser encontradas en ambos modelos ycómo pueden verse estos reflejados ycontrastados desde el caso de lapobreza en el Perú- año 2001?
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 15
Centro de Investigación y Desarrollo
III. OBJETIVOS DE LA INVESTIGACION
3.1 Objetivo General
Determinar en qué medida una explicaciónsobre la pobreza en los jefes de hogar delPerú para el año 2001 es beneficiadasiguiendo un enfoque de proporcionesmuestrales o un enfoque de observacionesindividuales.
3.2 Objetivos Específicos
• Estudiar la relación entre los factoresdeterminantes de naturaleza social,económica, demográfica de la pobrezaen los jefes de hogar y los enfoquesde utilización de los modelos logit ylos modelos probit.
• Analizar el grado de afectación de losfactores de naturaleza cuantitativa
sobre el enfoque de proporcionesmuestrales del modelo probit y lapobreza en los jefes de hogar.
• Comparar una estimación del modelologit con una estimación del modeloprobit en un enfoque de casosindividuales, para cuantificar el aportede los factores explicativos de lapobreza en los jefes de hogar.
• Analizar las similitudes y diferenciasque puedan ser encontradas en ambosmodelos y como pueden verse estosreflejados y contrastados desde el casode la pobreza en los jefes de hogardel Perú.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 17
Centro de Investigación y Desarrollo
IV. MARCO TEORICO
4.1 BREVE FORMULACIÓN DEL CASO DE LA POBREZA EN EL PERÚ
4.1.1 ¿Qué es la pobreza?
La pobreza es una condición en la cualuna o más personas tienen un nivel debienestar inferior al mínimo socialmenteaceptado. En una primera aproximación,la pobreza se asocia a la incapacidad delas personas para satisfacer sus necesidadesbásicas de alimentación. Luego seconsidera un concepto más amplio queincluye la salud, las condiciones devivienda, educación, empleo, ingresos,gastos y aspectos más extensos como laidentidad, los derechos humanos, laparticipación popular, entre otros1.
En general, todas las definiciones apuntana la situación en que se encuentran laspersonas que no disponen de los medios("de producción", activos físicos,intelectuales, sociales, culturales,financieros y demás) que permitan sudesarrollo personal y reflejen el estilo devida de la formación social en su conjunto.El concepto de pobreza es evidentementerelativo y cambiante. Basta considerar lasdiferencias de aquello que define a unpobre en Suiza respecto de los satisfactoresconsiderados relevantes en el Perú, asícomo las características de la pobreza delsiglo XIX en plena revolución industrialversus la que presentan países como los
nuestros hoy en día en pleno tercermilenio.
4.1.2 Enfoques y métodos para lamedición de la pobreza
Existen 3 grandes enfoques para medir lapobreza. El primero es el enfoque de lapobreza absoluta, que toma en cuenta elcosto de una canasta mínima esencial debienes y servicios y considera como pobresa todos aquellos cuyo consumo o ingresoestá por debajo de este valor.
El enfoque de pobreza relativa consideraal grupo de personas cuyo ingreso seencuentra por debajo de un determinadonivel. Por ejemplo, en algunos países seconsidera como pobres a todos aquellosque tienen remuneraciones inferiores a lamitad del ingreso promedio (Criterioaplicado en sociedades que han logradoerradicar la pobreza absoluta)
El enfoque de la exclusión social, deabsoluta vigencia en Europa, prestaatención a las personas que no puedenacceder a determinados servicios comopor ejemplo el empleo, la educaciónsuperior, la vivienda propia, el empleo yotros.
Ahora dentro de lo correspondiente a losmétodos de medición, solo noscentraremos en el método de línea de
1/ INEI. Metodologías Estadísticas, Año 1-N°02 Metodología para la medición de la pobreza en el Perú.
18 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
pobreza. Una explicación al por qué de suelección se dará a continuación.
EL METODO DE LA LÍNEA DEPOBREZA-LP
Este método centra su atención en ladimensión económica de la pobreza yutiliza el ingreso o el gasto como medidasdel bienestar. Al determinar los niveles depobreza, se compara el valor per cápitade ingreso o gasto en el hogar con el valorde una canasta mínima denominada líneade pobreza.
Cuando se utiliza el método de línea depobreza por el consumo, se incorpora elvalor de todos los bienes y servicios queconsume el hogar, indistintamente de laforma de adquisición o consecución. Lautilización del gasto de consumo tiene laventaja de que es el mejor indicador paramedir el bienestar porque se refiere a loque realmente consume un hogar y no alo que potencialmente puede consumircuando se mide por el ingreso. Otroaspecto favorable es que el consumo esuna variable más estable que el ingreso,lo que permite una mejor condición de latendencia del nivel de pobreza.
Así como existen enfoques y métodos paramedir la pobreza, existen definiciones quenos permitirán centrar aún mejor la ideade nivel de pobreza que puede tener unapersona y/o un hogar en particular.
Pobreza Absoluta:Comprende a las personas cuyos hogarestienen ingresos o consumo per cápitainferiores al costo de una canasta total debienes y servicios mínimos esenciales.Línea de Pobreza Absoluta (LPA): Es elcosto de una canasta mínima debienes(incluido los alimentos) y servicios.
Pobreza Absoluta:Consumo Hogar < Costo Canasta BásicaConsumo (LPA)
Pobreza Extrema:Comprende a las personas cuyos hogarestienen ingresos o consumos per cápitainferiores al valor de una canasta mínimade alimentos.Línea de Pobreza Extrema (LPE): Es el costode una canasta mínima de alimentos.
Pobreza Extrema:Consumo Hogar < Costo Canasta BásicaAlimenticia (LPE)
Después de mostrar, a modo general,algunos enfoques y a grosso modométodos de medición de pobreza, que sibien es cierto no es uno de los objetivosexplícitos de esta investigación medirla,pretendemos con ello guiar al lector haciala concepción y formulación de unavariable que permita clasificar a unindividuo de acuerdo a su nivel depobreza, en otras palabras, si este poseeo no la condición de pobreza.
Según Sen (1992) la medición de pobrezarequiere realizar dos ejercicios distintospero interrelacionados: la identificación delos pobres por un lado y la agregación porotro. Este último es el usado para obtenerindicadores resumen del nivel(incidencia)de la pobreza. Para el caso de estainvestigación solo realizaremos en algunamedida el primer ejercicio.
Esto quiere decir que necesitaríamos deun método de identificación para construirlo que será la variable dependiente de lasestimaciones y es allí donde entra a tallarel MÉTODO DE LÍNEA DE POBREZA(LP),definido anteriormente. Con lo cual sedefine específicamente los valores que
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 19
Centro de Investigación y Desarrollo
podría tomar la variable en estudio: iguala 1 si es un hogar pobre y 0 si es un hogarno pobre, y como vamos a trabajar a nivelde individuos, tomamos, 1 si fuese un Jefede Hogar(JH) que pertenece a un hogarpobre y 0 si fuese un JH que no pertenecea un hogar pobre.
Obviamente, al trabajar con esta variabledependiente no se podrá conocer laintensidad de la pobreza2. Esta limitaciónpuede ser resuelta mediante el uso de lasmedidas FGT(Foster et al., 1984), quesurgen de la siguiente expresión:
* ( )i i
i
z yFGT H
z
α
α−= ∑ ECUACIÓN IV.1
Donde: Yi es el ingreso de la i-ésimafamilia u hogar, Zi es la línea de pobrezade ese hogar y a el parámetro de aversióna la pobreza.
Entonces, si a = 0 obtenemos, elporcentaje de pobres .
Si a = 1,obtenemos lo concerniente aBrecha de Pobreza.
1
1
* ( )i i
i
z yFGT H
z
−= ∑
Este es el denominado poverty gap deprofundidad o intensidad de la pobreza.A diferencia del anterior, esta medidamuestra la brecha existente entre elingreso de los hogares pobres y la líneade pobreza.
Si a = 2, arroja un indicador de severidadde la pobreza y que puede ser interpretadocomo la suma de dos componentes: labrecha de pobreza y la desigualdad entrelos pobres.
De acuerdo con lo anterior es posibleasignar a cada hogar un valor de intensidady de severidad de pobreza dado por lossupuestos acerca del parámetro a dedichas medidas. Esta forma de procederrequiere de métodos de estimacióndiferentes3, que no es motivo de estudioen este trabajo.
LOS ACTIVOS DE LOS POBRES EN ELPERÚ4
Tanto la distribución del ingreso como losniveles de pobreza han registradoimportantes modificaciones a lo largo delas últimas cuatro décadas en el Perú. Másallá de las diferencias metodológicasasociadas al cálculo de estos indicadores,la evidencia sugiere que en los últimos 40años se habría reducido la dispersión en ladistribución del ingreso. Asimismo, sehabría producido una importante reducciónen los niveles de pobreza.
De otro lado, un análisis de la distribuciónde activos durante los últimos 10 añosrevela en general una continuación de lastendencias de largo plazo. El niveleducativo medio sigue aumentando y ladesigualdad en el acceso a educación escada vez más baja. En cambio, en el casode los servicios públicos, si bien el acceso
2/ En términos de Sen (Sen, 1976), ante la necesidad de obtener una medida agregada de la pobreza, H, ocurre que no sesatisfacen los axiomas de monotonicidad y transferencia. El primero establece que toda medida de pobreza bien conformadadebe reflejar las variaciones del ingreso de los hogares situados por debajo de la LP. El segundo, que la medida de pobrezadebe ser sensible a las transferencias de ingresos entre pobres y no pobres.
3/ Paz, Jorge. La pobreza en Argentina: una comparación entre regiones disímiles. Unas, 2001.4/ Escobal, Javier; Saavedra, Jaime; Torero, Máximo. Los Activos de los pobres en el Perú. GRADE. 1998.
1N
1N
20 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
medio ha ido aumentando, los niveles dedesigualdad siguen siendo muy elevados.Asimismo, el acceso al crédito es muydiferenciado según los quintiles de gasto,mientras que el ahorro y los bienesfinancieros durables, que son activos quepueden fungir como colaterales, estánentre los activos peor distribuidos.Asimismo, reducciones en el tamaño dela familia tienen un impacto positivo ysignificativo sobre los activos privados. Enese sentido, la concepción que un mayortamaño de la familia implica un aumentode los recursos productivos de la familia,y por lo tanto un mayor bienestar, noencuentra sustento teórico.
Debido a la multidimensionalidad de lapobreza, su análisis a través de los jefesde hogar en función a sus factores deíndole cualitativo y cuantitativo, en elprimer caso reflejado a través de posesiónde activos privados como su nivel deeducación, su condición ocupacional ytamaño de la empresa donde trabaja, siposee algún otro empleo, y la influenciade aquellos factores inseparables de suhogar y también de naturaleza cualitativa,como el acceso a activos públicos comoagua y desagüe dentro de la vivienda, sialgún lugar dentro de la vivienda esdestinada para obtener ingresos juega unpapel fundamental.
Dentro de factores de naturaleza cualitativatambién resulta importante considerar laregión y área natural de procedencia deljefe de hogar como factor preponderantepara su condición de pobreza.
Con respecto a los factores de naturalezacuantitativa propios del jefe de hogar sonconsiderados los años de estudios, su
indicador proxy de experiencia laboral ysu edad como aquellos que puedendeterminar su condición. En la misma línea,factores correspondientes al hogar son lacantidad de miembros en el hogar, ingresoper cápita mensual, la cantidad de personasen edad de trabajar, serían aquellos quedeterminan una mayor probabilidad de serpobre.
4.2. LOS MODELOS LOGIT Y PROBITCON VARIABLE DEPENDIENTEDICOTÓMICA (VDD)
4.2.1.Modelos con VariableDependiente Dicotómica (VDD).
En muchas situaciones, el fenómeno quequeremos estudiar no es continuo, sinodiscreto. Por ejemplo, cuando queremosmodelar la participación del mercado detrabajo, la condición de pobreza de un Jefede Hogar, la decisión sobre si se hace unacompra o no. En el caso de la condiciónde pobreza existen estudios que sugierenque factores como la educación, la edad,el número de hijos y ciertas característicaseconómicas, sociales, demográficas, etc;que podrían ser relevantes para explicar siun individuo Jefe de Hogar está másafecto a adquirir la condición de pobreza.Pero, obviamente, algo falta si se aplicaen este caso el mismo tipo de modelo deregresión que utilizábamos para analizarel consumo o los costes de producción, oalgún otro fenómeno de naturalezacuantitativa.
Vamos a analizar algunos modelosconocidos como modelos de respuestacualitativa (RC), y lo que podemosmencionar es que tienen en común que
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 21
Centro de Investigación y Desarrollo
su variable dependiente es discreta, esdecir puede tomar valores como "no" o"sí" que pueden ser codificados como "0"ó "1"; o quizás más valores "0", "1", "2"según sus categorías, para representar losresultados cualitativos respectivos.
Pero reflejemos esto en ejemplosconcretos, el tipo de variable dependientey el fenómeno en estudio:
• Participación en el mercado detrabajo: Donde 0 es "no" y 1 significa"sí", donde la participación es Var.Dependiente nominal dicotómica, y serepresenta con 0 y 1 por comodidad.
• Opinión sobre cierto tipo delegislación: Donde0 sería "totalmente opuesto"1 para "opuesto"2 para "indiferente"3 para " a favor"4 para "totalmente a favor"Aquí vemos que se ordenan lasrespuestas no en función a su valorcuantitativo, sino por una cuestión degrado en la respuesta, en donde laOPINIÓN es Var. DependienteOrdinal.
• Área de trabajo escogida por unindividuo: Donde 0 es representar alvendedor, 1 para ingeniero, 2 paraabogado, 3 para político, y asísucesivamente, y es de allí quepodemos mencionar que AREA DETRABAJO es Var. Dependientenominal politómica5.
En ninguno de estos casos parece posible,en principio, utilizar el análisis de regresiónclásico. Sin embargo, en todos ellos esposible construir modelos que enlacen elresultado o la decisión a tomar a través desu aporte en la probabilidad de larealización del fenómeno bajo estudio; conun conjunto de factores, con la mismafilosofía que en regresión. Entonces lo quese hace es analizar cada uno de estosmodelos dentro de un marco general deLOS MODELOS DE PROBABILIDAD.
Pr(Ocurre suceso j) = Pr(Y=j) =F(efectos relevantes: parámetros)
Resulta conveniente agrupar estosmodelos en dos grandes clases: aquellosque siguen un enfoque binomial, esdecir, si el resultado o fenómeno dependede la elección o la situación en dosalternativas. Para ello podemos mencionaral respecto; que si tenemos a cada unode N individuos, casos u objetos quepueden ser clasificadosindependientemente en 1 de 2 categoríascomplementarias, ejemplo de ello puedeser cara o sello de un lanzamiento demonedas, pacientes curados o no curados,personas por sobre o debajo de un nivelde ingreso, etc. En este caso se tiene quecada individuo tiene la misma probabilidadp de estar en una de las dos categorías,por ejemplo si el Jefe de Hogar es pobre(0 £ p £ 1); y la prob. 1-p de encontrarseen la otra categoría complementaria, esdecir, si el Jefe de Hogar no es pobre.
Entonces la probabilidad de que X de losN individuos sean pobres es:
5/ Variable nominal politómica, es aquella que en sus categorías no denota ningún tipo de ordenamiento ni grado específico,otro ejemplo de ello lo constituye el estado civil (soltero, casado, viudo, conviviente, etc).
22 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Donde x=0,1,2,3...N.
[ ] (1 )N
x N x
x
P X x p p − = = − ECUACIÓN IV.2
Así como existen en los modelos elenfoque binomial, existe asimismo elenfoque multinomial, que es aquel quedepende de una elección o resultado demás de 2 alternativas y que puedenreflejarse en algunos de los ejemplosmencionados líneas antes y que resultanen algunos aspectos novedosos pero queson, en su mayor parte, extensiones delos casos binomiales.
Queremos dejar en claro aquí que en estainvestigación el enfoque que seguirá elmodelo será de tipo binomial, porqueplantear uno de tipo multinomialimplicaría, que los diversos niveles decondición de pobreza (no pobre, pobre ypobreza extrema), se encontrarían a unmismo nivel de selección, vale decir, queen el caso de pobreza absoluta y pobrezaextrema tendrían que considerarse comogrupos excluyentes uno del otro, lo cualno se da en este caso, pues la pobrezaextrema es una condición mucho másprecaria en todo aspecto que la pobrezaabsoluta . Es este entonces nuestro puntode partida para poder determinar ycuantificar el aporte de las variables ofactores que inciden sobre la probabilidadque un jefe de hogar se encuentre encondición de pobreza. En tal sentido losmodelos que más se adecuan en esta líneason el modelo logit con variabledependiente discreta dicotómica (a partirde ahora, VDD) y el modelo probit conVDD.
4.2.2. Formulación del modelo logity el modelo probit con variabledependiente dicotómica (VDD)
Empezaremos esta formulación a partir dela suposición de un modelo deprobabilidad de condición de pobreza paraJefes de Hogar (JH), donde:
Y=1 El JH se encuentra en condición depobreza
Y=0 El JH no se encuentra en condiciónde pobreza.
Vamos a suponer que un vector devariables explicativas o conjunto defactores que expliquen este fenómenovenga dada por:
X= Nivel de Educación, Analfabetismo,Dominio Geográfico, Experiencia,Estado Civil, Categoría Ocupacional,etc.
Podemos imaginar que la primera ideaintuitiva que gira alrededor del fenómenode la condición de pobreza es que estapodría ser explicada a través del conjuntode factores mencionados, y cuánto es queestos contribuyen individual y en formaconjunta a dicho fenómeno.
Entonces, autores como Green planteanla siguiente idea:
Sea:La probabilidad de que el Jefe de Hogarsea pobre:
[ 1] ( , )P Y F X β= =
ECUACIÓN IV.3
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 23
Centro de Investigación y Desarrollo
Y la probabilidad de que el Jefe de Hogarno sea pobre:
[ 0] 1 ( , )P Y F X β= = −
Donde el vector de parámetros(b) reflejael aporte o impacto que X (vector de var.explicativas) tiene como parte de la funciónde distribución acumulada sobre laprobabilidad. Por ejemplo uno de losfactores que podría interesarnos sería verel efecto que el nivel de educación tienesobre la probabilidad de ser pobre.
A partir de este punto la incógnita caesobre el lado derecho de dicha ecuacióny sobre cómo plantear un modeloadecuado para este.
Una solución a ello puede darse en unmodelo de regresión lineal.
( , ) ´F X Xβ β=ECUACIÓN IV.4
Tenemos que:
( / ) 0*Pr( 0) 1*Pr( 1)E Y X Y y= = + =( / ) ( , )E Y X F X β=
A partir de lo anterior podemos construir:Y = y = E[y/x] + [y-E[y/x]]
= F(x,b) + e
Y = b´X + eModelo de Probabilidad Lineal. ECUACIÓN IV.5
Pero este modelo de probabilidad linealpresenta algunos incovenientes:
(i) e presenta heterocedasticidad quedepende de b, esto es si:
Y= 0 -> b´X + e=0 -> e= -b´X , donde p(y=0)= 1-F
Y= 1 -> b´X + e=1 -> e= 1-b´X, donde p(y=1)= F
Entonces tendríamos queV(e) = (-b´X) (1-b´X)
ECUACIÓN IV.6
(ii) El incoveniente más serio es que nose puede asegurar que las prediccionesparezcan verdaderas probabilidades. Nose puede restringir b´X al intervalo[0,1], lo cual origina tanto varianzasnegativas como probabilidadesimposibles.
Entonces para un vector de regresoresdado, esperaríamos que [Gráfico IV.1]:
Gráfico IV.1
´ Pr( 1) 1xLim Yβ −>+∞ = =
´ Pr( 1) 0xLim Yβ −>−∞ = =
1
b´X
y
24 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Analizando el gráfico anterior, vemos quepara los requisitos especificadosanteriomente, en principio bastaría trabajarcon una Función de DistribuciónAcumulada definida sobre la recta real, ental sentido las funciones idóneas para talefecto vienen a ser la Normal y la Logística.
Es natural ahora preguntarse ¿Cuál de lasdos debe usarse?, la respuesta a esapregunta y otras que se han empezado aformar, van a ir siendo resueltas en lamedida de lo posible en la seccionessiguientes.
Supongamos ahora que en vez de utilizarla función lineal de probabilidad de X paracaracterizar esta condición, utilizamos unafunción monótona [F(b´x )] creciente delproducto b´x, es decir, variables explicativasy aportes. Esta formulación es más generalque la del modelo lineal de probabilidady, en consecuencia, el procedimiento deestimación de los parámetros así como laforma en que dichos valores debeninterpretarse, es ahora diferente.
- Al usar esta transformación, podemosver que basta tomar una función real Facotada entre 0 y 1 para que elproblema que se originaba sobre elrango de las probabilidadesdesaparezca. En efecto, ahora vemosque P = F(b´x) está siempre entre 0 y1, con independencia de los valoresque toman los factores explicativos ysus efectos marginales. Es por ello quelas funciones de distribución devariables aleatorias son candidatosimportantes a ser elegidas para estastransformaciones.
- Suponga que existe un indicador quedepende de las características
individuales: Ii=b´x , que determinala decisión tomada para cada individuoo la condición que este posee frente aun fenómeno dado. Es decir, elindividuo toma la decisión o seencuentra en el estado Yi=1 si el valorde su indicador es superior a un ciertovalor crítico I*, y la decisión contrariao se encuentre en el otro estado siYi=0. Es decir, el indicador Ii refleja elsentimiento del decisor frente a laopción indicada Yi=1, de modo quesi su predisposición, indicada por Ii essuficientemente grande (mayor queIi*), escoge dicha opción, y si no,elegirá la opción alternativa.
Por ser desconocido, consideramos elvalor crítico I* del indicador para cadaindividuo como una variable aleatoria.Entonces de acuerdo con estainterpretación, la probabilidad de queel individuo i-ésimo elija o posea lacondición Yi=1 viene dada por:
*( 1) ( ) ( ´ )i i i iP P Y P I I F xβ= = = ≤ =ECUACIÓN IV.7
Donde F es la distribución deprobabilidad de la variable aleatoria I*.
4.2.3. Caracterización de los modeloslogit y probit aplicados al casode la pobreza en el Perú.
4.2.3.1. El Modelo Logit
Supongamos el siguiente ejemplo, se tieneque Y (1 = jefe de hogar pobre, 0 = jefede hogar no pobre) en función al ingresofamiliar X(S/.) para un conjunto de familias.Se tiene la siguiente representación de lacondición de pobreza:
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 25
Centro de Investigación y Desarrollo
1 2( )
1( 1/ )
1 XPi E y Xi
e β β− += = =+
ECUACIÓN
IV.8
Para facilidad de la exposición, se escribe[ECUACIÓN IV.8] como:
1 2( )
1( 1/ )
1 XPi E y Xi
e β β− += = =+
donde iZ = 1 2( )Xβ β+
ECUACIÓN IV.9
La [ECUACIÓN IV.9] representa lo quese conoce como función de distribuciónlogística (acumulativa). Es fácil verificar quea medida que Zi se encuentra dentro deun rango de - ∞ a + ∞ , Pi se encuentradentro de un rango 0 a 1 y que Pi no estálinealmente relacionado con Zi (es decircon Xi), satisfaciendo así requerimientosque son considerados. Pero parece que alsatisfacer estos requerimientos se hacreado un problema de estimación porquePi es no lineal no solamente con X sinotambién en los β , como puede verseclaramente a partir de la [ECUACIÓNIV.8]. Esto significa que no se puede utilizarel procedimiento familiar MCO paraestimar los parámetros. Pero este problemaes más aparente que real porque la[ECUACIÓN IV.8] es intrínsecamentelineal, lo cual puede verse de la siguientemanera.
Si Pi, la probabilidad de ser jefe de hogarpobre, está dada por la [ECUACIÓN IV.9]entonces (1 - Pi), la probabilidad de jefede hogar no pobre.
11
1 ZiPi
e− =
+ ECUACIÓN IV.10
Por consiguiente, se puede escribir
1
1 1
ZiZi
Zi
Pi ee
Pi e−
+= =− + ECUACIÓN IV.11
Ahora Pi / (1-Pi) es sencillamente la razónde probabilidades (´Odds Ratio´) a favorde ser jefe de hogar pobre- la razón de laprobabilidad de que un jefe de hogar seapobre a la probabilidad de que no seapobre. Así, si Pi = 0.8, significa que lasprobabilidades son 4 a 1 a favor de que eljefe de hogar sea pobre.
Ahora, si se toma el logaritmo natural de[ECUACIÓN IV.11], se obtiene unresultado muy interesante, a saber,
1 2ln1
PiLi Zi X
Piβ β = = = + −
ECUACIÓN IV.12
es decir, Li, el logaritmo de la razón deprobabilidades no es solamente lineal enXi, sino también (desde el punto de vistade estimación) lineal en los parámetros, Les llamado Logit y de aquí el nombremodelo LOGIT para modelos como la[ECUACIÓN IV.12].
Obsérvense estas características delmodelo Logit:
(a) A medida que P va de 0 a 1 (es decir,
a medida que Z varía de -∞ a +∞ , elLogit L va de -∞ a +∞ ). Es decir,aunque las probabilidades (pornecesidad) se encuentran entre 0 y 1,los Logit no están limitados en esaforma.
(b) Aunque L es lineal en X, lasprobabilidades en sí mismas no lo son.
26 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Esta propiedad hace contraste con elmodelo de MPL, en donde lasprobabilidades aumentan linealmentecon X.
(c) La interpretación del modelo Logit es
el siguiente: 2β , la pendiente, mide
el cambio en L ocasionado por uncambio unitario en X, es decir, dicecomo el logaritmo de lasprobabilidades a favor de ser jefe dehogar pobre cambia a medida que elingreso cambia en una unidad, por
ejemplo de S/. 100. El intercepto 1βes el valor del logaritmo de lasprobabilidades a favor de ser jefe dehogar pobre si el ingreso es cero.
(d) Dado un nivel determinado deingresos, por ejemplo, X, si realmentese desea estimar la probabilidad mismade ser jefe de hogar pobre, y no lasprobabilidades a favor de ser jefe dehogar pobre , esto puede hacersedirectamente a partir de la[ECUACIÓN IV.8], una vez que se
disponga de las estimaciones de 1β y 2β .
(e) Mientras que el MLP supone que Piestá linealmente relacionado con Xi,el modelo Logit supone que ellogaritmo de la razón de probabilidadesestá relacionado linealmente con X.
4.2.3.2. EL MODELO PROBIT
Si se elige como función F la función dedistribución f de una variable normal (0,1),se tiene:
( / ) ( 1/ ) [ * ] ( ´ )P E y x P Y x P I I xβ= = = = ≤ =ΦECUACIÓN IV.13
De modo que:
1´ ( )x Pβ −= Φ
La probabilidad correspondiente a unvector X de factores que contribuyen aexplicar un fenómeno, como el de lapobreza es ahora:
2´
21
2
xt
P e d tβ
π−
− ∞
= ∫
ECUACIÓN IV.14
Como se ha podido apreciaranteriormente, para explicar elcomportamiento de una variabledependiente dicotómica, es preciso utilizaruna FDA seleccionada apropiadamente. Elmodelo Logit utiliza la función distribuciónlogística acumulativa. Pero esta no es laúnica FDA que se puede utilizar. Enalgunas aplicaciones, la FDA normal se haencontrado útil. El modelo de Estimaciónque surge de una FDA normal escomúnmente conocido como el modeloProbit, aunque algunas veces también esconocido como el modelo normit. Enprincipio, se puede sustituir la FDA normalpor la FDA logística y proceder de acuerdoal modelo Logit. Pero en lugar de seguireste camino se presentará el modelo probitbasado en la teoría de utilidad o de laperspectiva de selección racional con baseen el comportamiento, según el modelodesarrollado por McFadden.
Para motivar el modelo Probit supóngaseel ejemplo de condición de pobreza, laposesión del i-ésimo jefe de hogar de lacondición de pobreza o de no poseerla,medida a través de un índice imperfecto
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 27
Centro de Investigación y Desarrollo
de conveniencia Ii que está determinadopor una o varias variables explicativas, porejemplo, el ingreso Xi, de tal manera queentre mayor sea el valor del índice, mayorserá la probabilidad de que el jefe de hogarsea pobre. Se expresa el índice Ii, como:
1 2i iI Xβ β= +ECUACIÓN IV.15
¿Cómo se relaciona el Ii, índice imperfectode conveniencia con la condiciónespecífica de ser pobre? Sea Y=1 si esjefe de hogar pobre y Y=0 si no es. Ahorabien, es razonable suponer que para cadaindividuo hay un nivel crítico o umbraldel índice, que se puede denominar Ii*,tal que si Ii excede a Ii*, el jefe de hogares pobre, de lo contrario no lo es. El nivelcrítico Ii*, al igual que Ii, no es observable,y se supone que está distribuidonormalmente con la misma media yvarianza, y por lo tanto es posible nosolamente estimar los parámetros delíndice, sino también obtener algunainformación sobre el índice imperfecto de
la cual depende nuestra variableobservable.
Dado el supuesto de normalidad, laprobabilidad de que Ii* sea menor o igualque Ii, puede ser calculada a partir de laFDA normal estándar como:
*Pr( 1) Pr( ) ( )i i i iP Y I I F I= = = ≤ = =
2 21 2
2 21 1
2 2
ii XI t t
e dt e dtβ β
π π
+− −
−∞ −∞
= =∫ ∫
ECUACION IV.16
donde t es una variable normalestandarizada, es decir, t® N(0,1).
Puesto que Pi representa la probabilidadde que ocurra un evento, en este caso laprobabilidad de poseer la condición depobreza, ésta se mide por el área de lacurva normal estándar de -¥ a Ii, como semuestra en la figura siguiente [GRAFICOIV.2]:
*Pr( )i iI I≤Pi
1 2iI Xβ β= +
Pi
1( )i iI F P−=
Gráfico IV.2
28 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Ahora, para obtener información sobre Ii,el índice de utilidad, lo mismo que paralos coeficientes estimados se toma lainversa de [ECUACIÓN IV.7] para obtener:
1 21( )i iI F Pi Xβ β−= = +
ECUACIÓN IV.17
Donde 1F − es la inversa de la FDA
normal. El significado de todo esto puedeaclararse con la figura anterior [GRÁFICOIV.2], donde en la figura del lado izquierdose obtiene (de la ordenada) la probabilidad(acumulada) de ser jefe de hogar pobredado Ii* menor o igual que Ii, mientrasque en la parte derecha (de la abcisa) se
obtendría el valor de Ii, dado el valor dePi, es decir, evaluar la probabilidad en lainversa de la FDA Normal.
4.2.3.3. Similitudes y diferencias enambos modelos
Podemos ver que la distribución logística :es similar a la distribución normal, exceptopor sus colas, (la distribución Logística separece más a la distribución t con sietegrados de libertad).
Analicemos la siguiente gráfica [GRÁFICOIV.3], que compara ambas funciones dedistribución.
Gráfico IV.3
La FDA Normal es aquella gráficaalrededor(______) de la recta real másgruesa y la recta de segmentos (--------)viene a ser la FDA Logística y el eje verticalse desplaza entre 0 y 1.
De aquí podemos empezar a analizar cadauna de las 3 regiones formadas:
-20 -10 0 10 20
1
• La PRIMERA REGIÓN, la inferiorizquierda, muestra que para elfenómeno en estudio Y=1, porejemplo: si el Jefe de Hogar es pobre,las estimaciones del modelo Logitproducirían mayores contribucionespara la probabilidad de ser pobre enfunción a sus factores explicativos, queel modelo probit.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 29
Centro de Investigación y Desarrollo
• La SEGUNDA REGIÓN, la central,muestra que las 2 distribucionesgeneran estimaciones similares, es másautores como Amemiya dan unintervalo de variación para dichasestimaciones similares < -1.2, 1.2 >.
• La TERCERA REGIÓN, la superiorderecha, muestra que el modelo probitgeneraría mejores estimaciones de losaportes de las variables en laprobabilidad de ser pobre que elmodelo Logit.
Debemos hacer énfasis en que ambosmodelos presentan muchas similitudescon respecto a su representación deprobabilidad, visiblemente apreciable enla gráfica anterior, y con respecto a susestimaciones en la mayoría de aplicacionesparece que se llega a los mismos resultadospartiendo de una aplicación u otra.
Es de conocimiento que cabe esperar quelos 2 modelos originen predicciones oaportes diferentes en los factores si lamuestra contiene:
• Pocas respuestas afirmativas (Y=1), esdecir, pocas observaciones para JH(Jefe de Hogar) en condición depobreza; y del mismo modo, pocasrespuestas para (Y=0), vale decir,pocas observaciones para JH en statusde no pobreza
• Gran variación en una variableindependiente de importancia,especialmente si se cumple lomencionado en el párrafo anterior, porejemplo: presentar una variaciónconsiderable con respecto a los nivelesde educación de los JH de la poblaciónen estudio.
Por sencillez de cálculo pueden existirrazones prácticas para preferir una u otradistribución; pero desde el punto de vistateórico resulta difícil justificar esta elección.Amemiya (1981) analiza varios aspectosrelacionados con esta cuestión pero, entérminos generales, puede decirse queeste problema no se ha resuelto aún.
Los efectos marginales en ambosmodelos
Hay que considerar que el modelo deprobabilidad es un modelo de regresión:
E[y/x] = 0*[1-F(b´X)] + 1*[F(b´X)]= [F(b´X)]
Y que sea cual fuere la distribución quese utilice, es importante observar que losparámetros (b´X) del modelo, como losde cualquier modelo de regresión nolineal, no son necesariamente los efectosmarginales comunes analizados.
[ / ] ( ´ )( ´ )
( ´ )
E y x dF xf x
x d x
β β β ββ
∂ = = ∂ ECUACIÓN IV.18
Donde f(.) es la función de densidadasociada a la Función de distribución F(.).
Para la distribución normal:
[ / ]( ´ )
E y xx
xφ β β∂ =
∂ECUACIÓN IV.19
Siendo f (b´x) la función densidad normalestándar.
Para el caso de la distribución logística:
´
´ 2
[ ´ ]
( ´ ) (1 )
x
x
d x e
d x e
β
ββ
βΛ =
+ECUACIÓN IV.20
30 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Lo que es sumamente práctico. Así en elmodelo logit.
[ / ]( ´ )[1 ( ´ )]
E y xx x
xβ β β∂ = Λ − Λ
∂ECUACIÓN IV.21
Para interpretar el modelo estimado,resulta útil calcular estos efectosmarginales en varios valores de x: porejemplo en las medias de los regresoreso en otros puntos que puedan resultar deinterés.
Los modelos de variable dependientediscreta aparecen con frecuencia comomodelos con función índice, es decir,interpretamos el resultado de una eleccióndiscreta como un reflejo de una regresiónsubyacente. Pero el significado de esto loentenderemos a través de un ejemplo:
Supongamos que tenemos que tomar unadecisión para hacer una compraimportante.
Teoría: Consumidor hace cálculo Beneficiomarginal - Coste marginal : Obtener unautilidad y tomar una decisión..
Gráfico IV.4
DECISIÓN COMPRA
IMPORTANTE
BENEFICIO
COSTE
UTILIDAD
EMPLEA DINERO
OTRA COSA
REALIZA COMPRA
Podemos apreciar que el beneficiomarginal es evindentemente no observable(no tangible), modelizamos la diferenciaentre beneficio y coste con una variableno observable y cumple.
* ´y xβ ε= +ECUACIÓN IV.22
Suponemos que la distribución de(0,1)Nε → ó Logística, entonces, no
se observa el beneficio neto de la compra,sólo si esta se hace o no.
Y=1 si Y*>0 (*)Y=0 si Y*£0
Donde b´X, recibe el nombre de funcióníndice.
Cabe recalcar que se deben consideraralgunos aspectos en la construcción de (*):
• Primero: La hipótesis de varianzaunitaria es una normalización que nojuega ningún papel importante.Supongamos que la varianza de ε esen realidad 2σ y multipliquemosentonces los coeficientes por σ .Nuestros datos observados no varían:y es 0 ó 1, dependiendo únicamente
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 31
Centro de Investigación y Desarrollo
del signo de y*, no de la escala enque se midan los datos.
• Segundo: La hipótesis de que elumbral es 0, tampoco juega ningúnpapel si el modelo contiene términoconstante6.
La probabilidad del suceso Y=1, jefe dehogar pobre, se puede ver como sigue:
Pr( * 0) Pr( ´ 0)y xβ ε⟩ = + ⟩ =Pr( ´ ) 1 ( ´ )x F xε β β⟩ − = − −
Si la distribución es simétrica7, como loson la normal y la logística.
Pr( * 0) Pr( ´ ) ( ´ )y x F xε β β⟩ ⟨= =
De este modo se habría obtenido unmodelo estructural para la probabilidad ycomo esta depende de la FDA Normal oLogística.
Análisis de datos a través deproporciones muestrales
Cuando se analizan respuestas binarias, losdatos vendrán dados de una de las dosformas siguientes: o bien, tal y como seha considerado hasta ahora, de formaindividual (es decir, cada observación estáformada por la respuesta del individuo yun vector de regresores asociados a él[Yi, Xi ]), O bien de forma agrupada (esdecir, los datos consisten en proporcioneso recuentos de observaciones). Los datosen forma agrupada se obtienen
observando la respuesta de ni individuos,todos ellos con la misma xi. La variabledependiente observada será la proporción(P
i) de los ni individuos ij para los cuales
yij = 1. Una observación es por tanto [ ni,Pi, xi], i = 1,...,N. Los datos electoralesconstituyen un ejemplo típico8. En el casode datos dados en forma agrupada, puedenanalizarse la relación entre Pi y xi no sóloutilizando los estimadores de máximaverosimilitud, sino también métodos deregresión. La proporción observada Pi, esun estimador de la cantidad poblacional
( ´ )i iF xπ β= . Si consideramos esta
igualdad como un sencillo problema demuestreo en una población Bernoulli,utilizando los resultados básicos deestadística obtenemos que:
( ´ )i i i i iP F xβ ε π ε+= + = , siendo
( ) 0iE ε = , (1 )
( )i i
i
i
Varn
π πε −=
Este formato de regresión heterocedásticasugiere que los parámetros podríanestimarse utilizando una regresión demínimos cuadrados ponderados nolineales. Para no detallar más podemosdecir que este análisis y su estimacióncorrespondiente será abordada en lassecciones posteriores de estainvestigación. Lo que podemos mencionarpor ahora es que en la práctica surgen doscomplicaciones con respecto a los erroresen este enfoque. Primero, cuando laproporción se calcula utilizando unamuestra de gran tamaño, la varianza delestimador puede llegar a ser sumamentepequeña. Ello originará que en la regresión
6/ Ha no ser que haya poderosas razones, los modelos binomiales deben incluir constante (Green)7/ En distribuciones simétricas se tiene que: 1 - F(b´X) = F(-b´X)8/ Los estudios iniciales sobre modelos probit se desarrollaron en laboratorios. Cada observación consistía en n
i individuos que
recibían una cierta dosis xi, la proporción P
i respondían al tratamiento. Véase Finney (1971) y Cox (1970).
32 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
de mínimo chi-cuadrado los erroresestándar sean inverosímilmente pequeñosy los estadísticos t enormemente grandes.Por desgracia, todo esto es consecuenciade la estructura del modelo. A los mismosresultados se llega si se estima por máximaverosimilitud con datos de proporciones.
Segundo, es imposible obtener tanto elestimador de máxima verosimilitud comoalgún otro relacionado, si una de las dosproporciones es 0 ó 1. Se han sugeridovarias posibles soluciones específicas paraeste caso, la que con más frecuencia se
utiliza consiste en sumar o restar un valorconstante pequeño, por ejemplo, 0.001,al valor observado cuando éste sea 0 ó 1.
De lo anteriormente expresado, en estainvestigación se tratará de desarrollar unametodología que permita cuantificar elaporte de los factores asociados a lapobreza con su correspondienteprobabilidad de ser pobre para el jefe dehogar en los modelos Logit y Probit convariable dependiente dicotómica,utlizando criterios de enfoque a nivelteórico y práctico.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 33
Centro de Investigación y Desarrollo
V. HIPOTESIS DE INVESTIGACIÓN
• Los factores de naturaleza cuantitativacomo el ingreso per cápita mensual delhogar expresado a través de sus décilesde ingreso, los años de estudios deljefe hogar, etc, generan un modelocorrectamente ajustado a laprobabilidad de ser pobre de los jefesde hogar expresado a través de suestadístico de bondad de ajustepearson c 2 dejando de lado laslimitaciones del tamaño de muestra,en el enfoque de proporcionesmuestrales del modelo probit.
• Los factores explicativos de la pobrezaen los jefes de hogar de naturalezacualitativa y cuantitativa exclusivos deestos como el nivel de educación, eltipo de colegio de estudio, la categoríaocupacional, el tamaño de la firma
donde labora, la tenencia de otroempleo, el estado civil, su edad, suindicador de experiencia laboral; encombinación con los factores denaturaleza cualitativa y cuantitativaexclusivos del hogar como el indicadorde si el hogar dedica un espacio delhogar a generación de ingresos, lacantidad de miembros en el hogar, lacantidad de miembros pertenecientesa la PET, el ingreso per cápita mensual,el acceso a activos públicos de agua ydesagüe, no permiten generar modeloscorrectamente ajustados a laprobabilidad de ser pobre del jefe dehogar siguiendo el enfoque deobservaciones individuales o noclasificación en los modelos logit yprobit.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 35
Centro de Investigación y Desarrollo
VI. METODOS
6.1 Tratamiento de Errores en laadecuación de ambos modelos,análisis de factores explicativosobservables y no observables
Casi todos los modelos de elección binaria,excepto el modelo de probabilidad lineal,se estiman habitualmente por el métodode máxima verosimilitud. Cadaobservación se considera como realizaciónindividual de una variable aleatoria condistribución Bernoulli (es decir, binomialcon n=1). La probabilidad conjunta ofunción de verosimilitud, de un modelocon probabilidad de éxito F(b´X) yobservaciones independientes es:
1 1, 2 2, ...,Pr( )n nY y Y y Y y= = = =1 , 2 , ..., ..,Pr( 1 0 1, 0)i nY Y Y Y= = = =
0 1
[1 ( ´ )] ( ´ )i i
i iy y
F x F xβ β= =
= −∏ ∏ECUACIÓN VI.1
Podemos reescribir la fórmula anteriorcomo:
1
1
[ ( ´ )] [1 ( ´ )]i in
y y
i
L F x F xβ β −
=
= −∏ECUACIÓN VI.2
Esta es la función de verosimilitud para unamuestra de n observaciones.
1
ln [ ln ( ´ ) (1 )ln(1 ( ´ ))]i i i i
n
i
L y F x y F xβ β=
= + − −∑
Las condiciones de primer orden delproblema de maximización requieren que
1
ln(1 ) 0
(1 )
i i i
i i
i i
n
i
L y f fy x
F Fβ =
∂ −= + − = ∂ − ∑
ECUACIÓN VI.3
En la ecuación anterior y en lo que sigue,se utilizará el subíndice i para indicar quela función se evalúa en b´X, es decir, enel conjunto de factores explicativos alfenómeno. Al seleccionar una formaconcreta para Fi se obtiene un modeloempírico.
A menos que se utilice el modelo deprobabilidad lineal, las ecuacionescontenidas en la fórmula anterior serán nolineales y habrán de resolverse de modoiterativo.
6.1.1 Los métodos de estimaciónsegún enfoques
MODELO PROBIT
Estimación de mínimos cuadrados conenfoque de proporciones muestrales
El modelo original relaciona las frecuenciasobservadas pi, con las probabilidades (Pi)que resultan de las clasificaciones de losfactores explicativas, por ejemplo elingreso per cápita mensual, por medio de:
9
9/ Como vimos hace un momento en distribuciones simétricas 1-F(b´x)=F(-b´x). Definiendo q=2y-1, entonces lnL=SlnF(qb´x).
36 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
ip = ( )i iP u+
por lo que1 1( ) ( )i i ip P u− −Φ = Φ +
De aquí esta expresión pude aproximarsepor:
1 ``
1( )
( )i i i
i
p X uf X
ββ
−Φ → +
El modelo probit puede por tantoestimarse de modo aproximado por unaregresión de los llamados "probits"
muestrales 1( )ip−Φ sobre el vector Xi.
Se trata de calcular las frecuencias
muestrales pi, obtener los valores 1( )ip−Φa partir de la tablas de la distribución N(0,1)y estimar la regresión descrita.
Ahora bien, los residuos tienenheterocedasticidad, puesto que:
` ` 2
(1 )var( )
( ) [ ( )]
i i i
i i i
u P P
f X n f Xβ β−=
ECUACIÓN VI.4
Por lo que habrá que utilizar mínimoscuadrados generalizados.
1 1 1( ` ) `X X Xβ π− − −= Σ Σ
Con una matriz Σ diagonal, conelementos genéricos dados por [Ecuaciónvi.4] donde π es el vector de probitsmuestrales. Como la matriz Σ esdesconocida, hay que estimarla, para loque se podría utilizar: a) las frecuenciasobservadas pi, o bien b) las prediccionesPi obtenidas a partir de un modelo deprobabilidad lineal previamente estimado.
Estimación de máxima verosímilitudpara observaciones individuales
El procedimiento de estimación MV espreciso cuando no es posible agrupar lasobservaciones según los valores del vectorXi. En tal situación, carece de sentido hablarde proporciones muestrales. En dichoscasos, la estimación por MV evita losproblemas ya citados acerca de laestimación MCG del modelo lineal deprobabilidad. Por otra parte el estimadorde MV es eficiente, y se calcula sobre elmodelo original, sin necesidad de ningunaaproximación.
En el caso del MODELO PROBIT, lafunción de verosimilitud sería:
Reemplazando [Ecuación iv.9] en[Ecuación vi.1]
1
1
[ ( ´ )] [1 ( ´ )]i iN
y yL x xβ β −= Φ − Φ∏
Nótese que para cada individuo i eltérmino correspondiente en la función de
verosimilitud es simplemente ( ´ )xβΦ o
1 ( ´ )xβ− Φ , dependiendo de si Y=1,
jefe de hogar pobre, ó Y=0, jefe de hogarno pobre.
Por tanto la función logaritmo de laverosimilitud se obtiene del logaritmo dela expresión anterior, y tomando sus
derivadas con respecto al vector β se
tienen las k condiciones necesarias deoptimalidad:
1 1
(1 ) 01
i i
i i i i k
i i
N N
Y x Y xφ φ−+ − =Φ − Φ∑ ∑
ECUACIÓN VI.5
ó
,,
, ,
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 37
Centro de Investigación y Desarrollo
1
( ´ )( ) ( ´ ) 0
( ´ )[1 ( ´ )]i
i
N Y xS x x
x x
ββ φ ββ β
−Φ= =Φ −Φ∑
ECUACIÓN VI.6
donde S(b) denota el vector gradiente dela función de verosimilitud. Si derivamosde nuevo en la expresión anterior conrespecto al vector b, se obtiene la matrizHessiana, y tomando esperanza en esta ycambiando de signo se obtiene finalmentela matriz de información, I(b):
2
1
[ ( ´ ) ]( ) ´
( ´ ) [1 ( ´ )]i i
N xI x x
x x
φ βββ β
=Φ − Φ∑
ECUACIÓN VI.7
Conviene hacer hincapié en que en lasexpresiones anteriores N denota elnúmero total de observaciones, por lo queprescindiendo de clasificaciones, hay queconsiderar un sumando para cadaobservación muestral. En particular, enestos problemas es más sencillo utilizar elmétodo del scoring10, razón por la quehemos calculado directamente la matrizde información a partir de la matriz dederivadas segundas de la función deverosimilitud con respecto al vector b. Lainversa de la matriz de información seráademás la matriz de covarianzas delestimador de MV del vector b. Elprocedimiento de estimación de MVutilizaría:
2
1
[ ( ´ ) ]( ) ´
( ´ ) [1 ( ´ )]i i
N xI x x
x x
φ βββ β
=Φ − Φ∑
ECUACIÓN VI.8
que proporciona la corrección que hay queintroducir en el estimador del vector b encada iteración. Al sustituir las expresiones
de I(b) y S(b) antes obtenidas puede versefácilmente que si se hace el cambio devariables:
* ( ´ )
( ´ )(1 ( ´ ))
ij
ij
x xx
x x
φ ββ β
=Φ −Φ ,
j=1,2,....,K ECUACIÓN VI.9
que forma, para cada observación i, unvector de dimensión k, e:
* ( ´ )
( ´ )(1 ( ´ ))
i
iy x
yx x
ββ β
− Φ=Φ − Φ
ECUACIÓN VI.10
entonces la corrección a introducir en el
estimador 1nβ −
∧ coincide con los
coeficientes estimados por mínimos cuadradosordinarios en una regresión que utilizase yi*como variable a explicar, y xi* como vectorde variables explicativas, utilizando los
1nβ −
∧ para calcular *
ijx y yi*.
MODELO LOGITEstimación de máxima verosímilitudpara observaciones individuales.
La función de verosimilitud muestral es:Reemplazando [ECUACION IV.4] en[ECUACION VI.1]
1 0
( ´ ) [1 ( ´ ) ]Y i Y i
L F x F xβ β= =
= − =∏ ∏
1
( ( ´ ) )
´
1
[1 ]
N
Y i x
Nx
e
e
β
β
∑
+∏
o, lo que es lo mismo:
´
1 1ln ( ' ) ln(1 )i
N N xL Y x eββ= − + =∑ ∑ ∑10/ Especialmente diseñado para el caso en que se pretende obtener el EMV, este algoritmo se basa en la propiedad de que
la esperanza matemática de la matriz hessiana de la función de verosimilitud (es decir, la matriz de información cambiadade signo). Así se ha sugerido como aproximación, sustituir la matriz de derivadas segundas por la matriz de información,
teniéndose el llamado algoritmo de "scoring" 1 1 11[ ( )] ln ( )n n n nI Lθ θ θ θ− − −
∧ ∧ ∧ ∧−= + ∇
38 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
´
1 1( ´) ln(1 )i i
N N xYx eββ − +∑ ∑ECUACIÓN VI.11
y denotando por 1
´ ´i i
Nz Yx= ∑ un vector
fila 1 x k se tiene:
´
1ln ´ ln[1 ]
N xL z eββ= − +∑y
´
´1
ln( ) 0
1
i
k
xN
x
L e xS z
e
β
βββ
∂= = − =∂ +∑
ECUACIÓN VI.12
y este sistema de k ecuaciones no linealesdebería, en principio, resolverse porprocedimientos numéricos, para obtenerel vector de estimaciones b. La matriz deinformación es:
´
´1 1
´( ) (1 ) ´
1
i i
i i i i
xN N
x
e xxI xP P x
e
β
ββ = = −+∑ ∑
ECUACIÓN VI.13
Para estimar el valor b por el algoritmo del"scoring" se comienza de un estimador boy se actualiza por medio de:
1 0 0 01[ ( )] ( )I Sβ β β β−= +
En realidad, la matriz S(b) puede escribirsetambién:
´1 1 1( ) ( )
1
i
i i i i i
N N N
x
xS Y x Y P x
e ββ −= − = −+∑ ∑ ∑
donde ´
1
1i
ixP
e β−=+ , por lo que el
algoritmo puede describirse como sigue:
1. A partir de un estimador inicial 0β∧
,
calcular (1 )i iP P∧ ∧
− .
2. Transformar las variables:
* (1 )i i I ix x P P∧ ∧
= − ECUACIÓN VI.14
* ( )
(1 )
i i
i
i i
Y PY
P P
∧
∧ ∧
−=−
ECUACIÓN VI.15
y el cambio a introducir en el vector 0β∧
viene dado por los coeficientes estimadospor mínimos cuadrados ordinarios en unaregresión Yi* sobre el vector xi*.
El algoritmo se itera hasta conseguir suconvergencia, y se utiliza la inversa de lamatriz de información evaluada en elúltimo estimador obtenido comoestimación de la matriz de covarianzas deb. Por otra parte, los métodos de inferenciaque consideran esta matriz de covarianzasson válidos, ya que el estimador máximoverosímil resultante tiene distribuciónnormal asintótica. Las probabilidades deque un individuo con características Xiescoja la acción o se situe dentro delestado que hemos catalogado como Yi=1,(estar en condición de pobreza) se estimanmediante la expresión:
´
´1i
x
x
eP
e
β
β
∧=
+
Luego de mostrar como la teoría estadísticade ambos modelos propone su desarrollo,es aquí donde empezamos el trabajo deestudio empírico del fenómeno depobreza en su conjunto. Las variables aconsiderar fueron recopiladas de unseguimiento de investigaciones las cualesexisten en abundancia acerca del temade la pobreza11.
11/ La metodología desarrollada para la inclusión de variables se encuentra en el anexo metodológico al final de estainvestigación.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 39
Centro de Investigación y Desarrollo
VII. LA ENCUESTA NACIONAL DE HOGARES
La Encuesta Nacional de Hogares(ENAHO), es un programa continuo deencuestas, que inició el Instituto Nacionalde Estadística e Informática (INEI) a travésde la Dirección Nacional de Censos yEncuestas el año 1995.
A partir del año 1997, el INEI ha puestoen ejecución el Programa deMejoramiento de Encuestas y de laMedición de las Condiciones de Vida(MECOVI), bajo el auspicio financiero ytécnico del Banco Interamericano deDesarrollo (BID), Banco Mundial (BM) y laComisión Económica para América Latinay el Caribe (CEPAL), con el propósitocentral de fortalecer y mejorar el Sistemade Encuestas de Hogares, constituido porun conjunto de encuestas que se vienenrealizando trimestralmente, y querepresentan una de las principales fuentesde información para el análisis, evaluacióny seguimiento de la realidad demográfica,social y económica de la poblaciónperuana.
El Empleo y el Ingreso son módulos deseguimiento en todos los trimestres, puesson considerados los pilares para explicarlos cambios en las condiciones de vida.
En el segundo y cuarto trimestre seefectúan las Encuestas Panel con el fin deestudiar los cambios en las característicasde la población en el tiempo.
En el marco de los nuevos lineamientosde política de gestión para identificar lademanda real de información y encoordinación con los usuarios el INEI haidentificado la necesidad de contarprincipalmente con indicadores de empleoy condiciones de vida que permitancumplir con su principal misión.
OBJETIVOS
Objetivos Generales:
La encuesta del cuarto trimestre del 2001tiene los objetivos generales siguientes:
i. Generar indicadores anuales, quepermitan conocer la evolución de lapobreza, el bienestar y las condicionesde vida de los hogares.
ii. Efectuar diagnósticos (anuales) sobrelas condiciones de vida y pobreza dela población.
iii. Medir el alcance de los programassociales en la mejora de las condicionesde vida de la población.
iv. Servir de fuente de información ainstituciones públicas y privadas, asícomo a investigadores.
v. Permitir la comparabilidad coninvestigaciones similares en relación alas variables investigadas.
40 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Objetivos Específicos
Los objetivos específicos de la ENAHO2001 del cuarto trimestre son lossiguientes:
i. Determinar el grado de acceso aservicios básicos de la vivienda y delhogar y de los programas socialesorientados a la vivienda segúndiferentes estratos socio-económicos.
ii. Obtener indicadores de riesgo desalud debido al hacinamiento y lascondiciones sanitarias de los hogaressegún diferentes estratos socio-económicos.
iii. Caracterizar las estructurasdemográficas, según diferentes estratossocio-económicos, con el fin de medirla evolución y el impacto demográficode los programas sociales.
iv. Determinar el nivel educativo segúndiferentes estratos socio-económicos.
v. Determinar el grado de acceso a laeducación y el alcance de losprogramas sociales, según diferentesestratos socio-económicos.
vi. Caracterizar los niveles de empleo,según diferentes estratos socio-económicos.
vii. Determinar la estructura del ingreso delos hogares, teniendo en cuenta losingresos provenientes de los propioshogares y el efecto redistributivo delos programas sociales.
viii.Cuantificar el gasto de consumo de loshogares diferenciando el aporte de los
programas sociales según diferentesestratos socio-económicos.
ix. Obtener información sobre morbilidady acceso a los servicios de salud.
x. Evaluar el grado de conocimiento yutilización de los Programas Sociales yProyectos de Inversión Social.
xi. Caracterizar a los hogares en pobrezaextrema, pobres y no pobres enfunción a variables demográficas,educativas, otras sociales y económicasy el grado de acceso a los servicios
TEMAS A INVESTIGAR
- Módulo de Vivienda- Características de los miembros del
hogar- Módulo básico de Educación- Módulo básico de Salud- Módulo básico de empleo- Sistema de Pensiones- Uso de Computadora e Internet en el
Trabajo- Ingresos del sector formal e informal- Gastos- Módulo básico de Programa Social- Módulo Comunal para Informantes
Calificados- Módulo de Opinión
CARACTERISTICAS
La Investigación se desarrollará sobre labase de una muestra de hogares siendolos niveles de inferencia del diseñomuestral: Nacional, Urbano Nacional, RuralNacional, Resto Costa, Sierra, Selva y elArea Metropolitana de Lima y Callao.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 41
Centro de Investigación y Desarrollo
Los cuestionarios a emplearse serán losmismos del Cuarto Trimestre de 2000,además de un módulo de opinión.
Los informantes serán todos los residenteshabituales de 12 años y más de edad queconforman el hogar entrevistado.
La Unidad de Investigación: es el hogar,el cual está constituido por: 1) losintegrantes del hogar familiar, 2) lostrabajadores del hogar con cama adentro,reciban o no pago por sus servicios, 3) losintegrantes de una pensión familiar quetienen como máximo 9 pensionistas, y 4)las personas que no son miembros delhogar familiar pero que estuvieronpresentes en el hogar los últimos 30 días.
No serán investigados: 1) los integrantesde una pensión familiar que tiene de 10 amás pensionistas, y 2) los trabajadores delhogar con cama afuera.
7.1. CARACTERISTICAS DE LAMUESTRA
Población y Cobertura
El universo cubierto por la muestra de laENAHO es todo el territorio nacional. Esdecir, la población está definida como elconjunto de todas las viviendas particularesy sus ocupantes residentes del área urbanay rural del país.
Se excluye del estudio a la poblaciónresidente en viviendas tipo colectivascomo hospitales, cuarteles, comisarías,hoteles, centros de reclusión, etc.
Niveles de Inferencia de Resultados
A efectos de permitir el estudio de loscambios en las características de la
población en el tiempo, se ha consideradoque en la ENAHO 2001 Cuarto Trimestrese trabaje con una muestra del tipo Panely una muestra No Panel.
La muestra panel estará conformada porlos hogares entrevistados en la ENAHO2000 - Cuarto Trimestre. En el caso de lamuestra no panel, esta será totalmentenueva.
Muestra panel: El principal objetivo deluso de una muestra panel en una encuesta,es realizar un seguimiento de las unidadesde investigación, en este caso los hogaresy los miembros que habitan en ella en undeterminado período. Asimismo, estamuestra permite obtener estimaciones delas características socio-demográficas dela población para diferentes áreas, estratoso dominios de interés, paraposteriormente realizar comparaciones delas unidades investigadas con referencia ala anterior investigación.
Muestra no panel: A través de la muestraNo Panel, se puede obtener estimacionesde las características socio-demográficasde la población de estudio para diferentesáreas, estratos o dominios de interés.Además, esta muestra incluye las nuevasunidades estadísticas que se incrementanen el marco inicial de selección.
Metodología de Estimación
La metodología de estimación paraprocesar los datos de la ENAHO, involucrael uso de un peso o factor de expansiónpara cada registro que será multiplicadopor todos los datos que conforman elregistro correspondiente.
El factor final para cada registro tiene doscomponentes:
42 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
El factor básico de muestreo y los factoresde ajuste por la no entrevista.
El factor básico de expansión para cadahogar muestral es determinado por eldiseño de la muestra. Equivale al inversode su probabilidad final de selección, elmismo que es el producto de lasprobabilidades de selección en cada etapa.
El diseño de la muestra de la ENAHO,involucra hasta 3 etapas de muestreodonde las unidades son seleccionadas conprobabilidades proporcionales al tamaño(ppt) excepto la última etapa. En la últimaetapa se seleccionará un número deviviendas para cada conglomeradoteniendo en cuenta un intervalo deselección.
Errores de Muestreo
Trimestralmente, en la Encuesta Nacionalde Hogares se calculan los errores demuestreo de las estimaciones de lasprincipales variables investigadas en laencuesta.
El paquete estadístico utilizado en laENAHO para el cálculo de las varianzas esel CENVAR (Sistema de Cálculo deVarianzas), el cual provee los estimadoresde variabilidad muestral para parámetrospoblacionales, como: totales, medias ,razones y proporciones para los diferentesdominios de estimación.
Para cada parámetro especificado ydominio de estimación, CENVAR produceun cuadro de salida con los indicadoressiguientes:
- El valor estimado del parámetro(estimación puntual)
- El error estándar
- El coeficiente de variación (CV)- El intervalo con 95 por ciento de
confianza- El efecto del diseño (DEFT)- El número de observaciones sobre el
cual se basa la estimación
El algoritmo usado por el CENVAR se basaen el método de los estimadores de lavarianza de los conglomerados últimos.
Cuestionarios
Se emplearán 6 tipos de cuestionarios:
ENAHO 01. Cuestionario individual paraser llenado con información del jefe delhogar y con entrevista directa a losinformantes individuales. Comprende lascaracterísticas de la vivienda, del hogar yde los miembros del hogar, Gastos delHogar, Programas Sociales y OtrasTransacciones.
ENAHO 01A. Cuestionario individual paraser llenado con información del jefe delhogar y con entrevista directa a losinformantes individuales, investiga lascaracterísticas de Educación, Salud, Empleoe Ingreso, Sistema de Pensiones y Usode Computadora e Internet en el Centrode Trabajo.
ENAHO 01B. Cuestionario individual quees llenado por entrevista directa coninformación del Jefe del hogar, en esteMódulo de Opinión se investiga Nivel deVida/Situaciones Adversas, Participaciónciudadana, Percepción sobre lacomunidad, Seguridad y Violencia,ETNIA/RAZA y Educación de los Padres.
ENAHO 02. Cuestionario individual quees llenado por entrevista directa con cadaproductor agropecuario que conduce una
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 43
Centro de Investigación y Desarrollo
unidad agropecuaria. Se investiga losingresos del productor agropecuario, elrégimen de tenencia de las tierras, laposesión de títulos de propiedad, el destinode la producción y crianza, los gastosrealizados en la actividad agropecuaria yel crédito agropecuario.
ENAHO 03. Cuestionario aplicado ainformantes calificados del área rural oáreas periféricas de las ciudades, investigaacerca del acceso a servicios y programassociales, así como a los organismos quefinancian dichos programas.
ENAHO 04. Ingreso del TrabajadorIndependiente (Sector Informal).
7.2. Factores de relevancia para laexplicación de la pobrezaextraídos de la ENAHO IVtrimestre 2001
Variable dependiente
[CONDICIÓN DE POBREZA]pobreza PobrezaEscala Nominal Categórica
Codificación: 1 Pobre Extremo, 2 PobreNo extremo, 3 No PobreBase de datos: Sumaria
Esta variable es recodificada en una nuevavariable EpobreEscala Nominal DicotómicaCodificación: 0 No Pobre, 1 Pobre
Variables independientesCaracterísticas Sociodemográficas delJefe de Hogar
[NIVEL DE EDUCACIÓN]p301 Nivel educativo que aprobó
Conocer el grado de educación más altoaprobado por cada persona dentro delnivel educativo que alcanzó.Escala Ordinal
Base de datos: Educación (CAP. 300)Codificación: 1 Sin nivel, 2 Inicial, 3Primaria incompleta, 4 Primaria completa,5 Secundaria incompleta, 6 Secundariacompleta, 7 Sup. No Univ. Incompleta, 8Sup. No Univ. Completa, 9 Sup. Univ.Incompl., 10 Sup. Univ. Completa, 11Post-grado Universitario, 99 Missing value
La variable nivel educativo que aprobó(p301) fue recodificada en la variableadnivedu-Nivel Educativo aprobado.Escala ordinal.Codificación: 1 Sin nivel, 2 Primaria, 3Secundaria, 4 Sup. No Univ., 5 Sup. Univ.6 Post- Grado Univ.
Se creó la variable aest-Años de Estudiostotales. Para su construcción se considerólas variables p301 y p301b(años de estudiosque aprobó). Como es evidente,dependiendo del grado aprobado y losaños que aprobó, se generan la cantidadtotal de años estudiados. Ejem: Si es unjefe de hogar que llegó solo a secundariaincompleta (3 años aprobados), entonceslos años de estudios totales (aest = 6(primaria completa) + 3 (secundariaincompleta)).
[CENTRO DE ESTUDIOS]p301d Centro de EstudiosDeterminar si el colegio de procedenciadonde se estudio es de régimen estatal oparticular.Escala nominalBase de datos: Educación (CAP. 300)Codificación: 1 Estatal, 2 No estatal, 9Missing value
44 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
[EDAD]p208a Edad en añosDeterminar el período transcurrido entrela fecha de nacimiento de la persona y eldía de la entrevista.Variable cuantitativaBase de Datos: Características de losmiembros del hogar (CAP. 200)
[GÉNERO]p207 SexoDeterminar el sexo de los entrevistados.Identificados como hombre o mujer.Escala Nominal DicotómicaBase de Datos: Características de losmiembros del hogar (CAP. 200)Codificación: 1 Hombre, 2 Mujer
[ESTADO CIVIL]p209 Estado conyugalInvestigar sobre la naturaleza de laparticipación de la población en materiade comportamiento conyugal en especialdurante el período de madurez.Escala Nominal CategóricaBase de Datos: Características de losmiembros del hogar (CAP. 200)Codificación: 1 Conviviente, 2 Casado(a),3 Viudo(a), 4 Divorciado(a) ,5 Separado(a),6 Soltero(a)
[DOMINIO GEOGRÁFICO]dominio Dominio GeográficoEscala Nominal CategóricaBase de Datos: Identificador presente entodas las bases de datosCodificación: 1 Costa Norte , 2 CostaCentro, 3 Costa Sur, 4 Sierra Norte, 5 SierraCentro, 6 Sierra Sur, 7 Selva, 8 LimaMetropolitana
[GRANDES DOMINIOS ]gdomini Grandes Dominios Geog.Escala Nominal CategóricaCodificación: 1 Costa , 2 Sierra, 3 Selva, 4Lima Metropolitana
[ESTRATO]estrato Estrato GeográficoDeterminar la cantidad de viviendasalbergadas en cada estrato geográfico.Escala Nominal CategóricaBase de Datos: Identificador presente entodas las bases de datosCodificación: 1 Mayor de 100,000viviendas, 2 De 20,001 a 100,000viviendas, 3 De 10,001 a 20,000viviendas, 4 De 4,001 a 10,000 viviendas,5 De 401 a 4,000 viviendas, 6 Menos de400 viviendas, 7 AER compuestos, 8 AERsimples.
[AREA]urb_ru Área urbano-ruralEsta variable resulta de recodificar lavariable estrato cuyas 5 primeras categoríasproceden a conformar el área urbana y lascategorías de 6 a la 8 conformarían el árearural.Escala Nominal DicotómicaCodificaciòn: 1 Área Urbana, 2 Área Rural
[DOMINIO URBANO RURAL]domur_ru Grandes dominios por áreaurb o ru.Esta variable resulta del cruce de lasvariables gdomini (Costa, Sierra, etc) y área(urbano, rural).Escala Nominal categóricaCodificación: 11 Costa Urbana, 12 CostaRural, 21 Sierra Urbana, 22 Sierra Rural,31 Selva Urbana, 32 Selva Rural, 41 LimaUrbana
Características de la inserciónocupacional del JH
[EXPERIENCIA LABORAL]exper1 Indicador proxy de exper.laboralEste indicador resulta de restar a la edaddel jefe de hogar los años de estudios,
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 45
Centro de Investigación y Desarrollo
aunque no considera si el jefe de hogarha trabajado y estudiado a la vez, seaproxima en buena medida a laexperiencia laboral del jefe de hogar. Seresta "6" al final del indicador, pues es a laedad en que debería empezar el colegio.Variable cuantitativaPor ejemplo, un jefe de hogar con 45 añosy secundaria completa, tendrá:Exper1 = p208a - aest - 6 = 45 - (6+5) -6 = 28 años de experiencia laboral
[CATEGORÍA OCUPACIONAL]p507 Cargo en Centro Ocupacional.Conocer la relación del trabajador con suempleo, es decir, la forma que tienen lostrabajadores de insertarse en el mercadolaboral. Una primera distinción básica essi se trabaja en forma dependiente oindependiente, ya que en ambos casos sonmuy diferentes las relaciones económicasy laborales involucradas.Escala Nominal Categórica
Base de datos: Empleo e Ingresos (Cap.500)Codificación: 1 Empleador o patrono, 2Trabajador independiente, 3 Empleado, 4Obrero, 5 Trabajador Familiar noremunerado, 6 Trabajador del Hoga, 7Otro.
[TAMAÑO DE LA FIRMA]p512a Tamaño de la empresaDisponer de información sobre el volumende la fuerza de trabajo según el tamañodel establecimiento, el mismo queconjuntamente con otras características,son útiles para determinar el volumen dela población del sector informal.Escala OrdinalBase de datos: Empleo e Ingresos (Cap.500)
Codificación: 1 menos de 100 personas,2 De 100 a 499 personas, 3 De 500 y màspersonas.
[TRABAJO ADICIONAL]p514 Ocupación secundariaDeterminar el número de ocupados quetienen actividad secundaria, quedesarrollan simultáneamente con laactividad principal en la semana dereferencia, ya sea en forma dependienteo independiente.Escala Nominal DicotómicaBase de datos: Empleo e Ingresos (Cap.500)Codificación: 1 Si , 2 No
Características del hogar
[NUCLEOS EN EL HOGAR]nuchoga Cant. de núcleos en hogarDeterminar el número de núcleospresentes en cada hogar para intentarcaptar a cuántos hogares se alberga fueradel propio hogar del jefe de hogar, dentrode la misma vivienda.Variable cuantitativa
Base de datos: Generada a partir decaracterísticas de los miembros del hogar(cap.200)
[HIJOS EN EL HOGAR]hijxhog Cant. de hijos del jhDeterminar la cantidad de hijos presentesen el hogar.Variable cuantitativaBase de datos: Generada a partir decaracterísticas de los miembros del hogar(cap.200)
[MIEMBROS EN EL HOGAR]mieperhog Cant. de miembros en hogarDeterminar la cantidad de miembrospertenecientes al hogar, se excluyen a las
46 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
trabajadoras del hogar que nopermanecen más de 30 días en el hogar.Variable CuantitativaBase de Datos: Sumaria
[PERCEPTORES EN HOGAR]percephog Cant. de preceptores enhogar.Determinar la cantidad de preceptoresdentro de cada hogar.Variable CuantitativaBase de Datos: Sumaria
[INGRESO NETO TRIMESTRAL]inghog2d Ingreso neto trimestralTrimestralizar la información de ingresos,llevándola a un mismo período deinvestigación.Variable CuantitativaBase de Datos: Sumaria
[INGRESO PER CÁPITA M]ingperho Ingreso per cápita mens.del hogarDeterminar el ingreso per cápita mensualde los hogares.Variable CuantitativaBase de datos: Generada a partir deSumaria.
[ACCESO LUZ]p112 Tipo de alumbrado en su hogarDeterminar si el hogar dispone o no dealumbrado eléctrico. Asimismo seconocerá la cantidad de hogares quecarecen de servicio y permitirá establecerla relación que existe entre padecimientosrespiratorios y algunas formas de alumbradocomo el uso de kerosene y vela.Asimismo, las deficiencias en al agudezavisual, también pueden estar en relaciónal uso de alumbrado no eléctrico.Escala Nominal Categórica
Base de datos: Características de lavivienda y el hogar. (cap. 100)Codificación: 1 Electricidad, 2 kerosene(mechero/lamparin), 3 Petróleo/gas(lampara), 4 Vela, 5 Generador, 6 Otro.
[ACCESO AGUA]p110 Abastecimiento agua en hogarConocer la cantidad de personas y lugaresdonde se carece de este líquido vital, loque será de utilidad para la ejecución deprogramas de saneamiento.Escala Nominal CategóricaBase de datos: Características de lavivienda y el hogar. (cap. 100)Codificación: 1 Red pública, dentro de lavivienda, 2 Red pública, fuera de lavivienda, 3 Pilón de uso público, 4 Camión-cisterna u otro similar, 5 Pozo, 6 Río,acequia, manantial o similar, 7 otro.
[ACCESO A RED SANITARIA]p111 El servicio higiénico estaconectadoConocer si el hogar dispone o no deservicio higiénico, su ubicación y formade eliminación de los residuos humanos.Permitirá tener una apreciación másgeneral respecto a la calidad de vida delos habitantes; y es un componenteelemental en la determinación delbienestar social. Además permitiráconocer las posibilidades de contaminaciónen la comunidad en general y las causasque producen la hepatitis y la tifoidea.Escala Nominal CategóricaBase de datos: Características de lavivienda y el hogar. (cap. 100)Codificación: 1 Red pública dentro de lavivienda, 2 red pública fuera de la vivienda,3 pozo séptico, 4 pozo ciego o negro/letrina, 5 río, acequia o canal, 6 no tiene
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 47
Centro de Investigación y Desarrollo
Si se desea obtener más información sobreotras variables de medición de condicionesde vida y pobreza, se puede consultar"Variables investigadas en la ENAHO-2001IV TRIMESTRE .INEI - MECOVI"
VARIABLES INDICADORAS
Se generaron variables indicadoras paratrabajar sobre los modelos de probabilidaddel jefe de hogar y poder captar el efectode las categorías de las variables en escalasnominales sobre sus categorías base . Elmismo proceder se efectuó para lasvariables en escalas ordinales.
En tal sentido el nivel educativo agrupadofue dividido en 5 indicadoras, donde lacategoría que está fuera de riesgo es elPost-Grado Univ.
• DSINNIV = 1Si JH no tiene nivel educativo y 0 enotro caso
• DPRIM = 1Si JH tiene primaria y 0 en otro caso
• DSECUND = 1Si JH tiene secundaria y 0 en otro caso
• DSUPNU = 1Si JH tiene educ. sup no univ. y 0 enotro caso
• DSUPUN = 1Si JH tiene educ. sup. Univer. y 0 enotro caso
Variable indicadora de colegio estatal.
• DCOLEGIO = 1Si JH a estudiado en colegio estatal y 0en otro caso
La variable categoría ocupacional generaría4 variables categóricas, donde se considera
que la categoría empleador o patrono esla categoría base.
• DINDEP = 1Si JH es trabajador independiente y 0en o.c.
• DEMPLEADO = 1Si JH es empleado y 0 en o.c.
• DOBRERO = 1Si JH es obrero y 0 en otro caso
• DOTRO = 1Si JH se encuentra en otra situaciónocupacional
Se generan variables indicadoras paradominio en área urbana y rural.
• DCORU = 1Si JH habita en Costa urbana y 0 enotro caso
• DSIEUR = 1Si JH habita en Sierra urbana y 0 enotro caso
• DSELUR = 1Si JH habita en Selva urbana y 0 enotro caso
La variable en escala ordinal Tamaño de lafirma genera dos variables indicadoras,tomando como categoría base el tamañode la firma de 500 y más personas.
• DME100 = 1Si JH trabaja empresa con menos de100 personas y 0 o.c.
• DME499 = 1Si JH trabaja empresa con 100 a 499personas y 0 o.c.
Variable indicadora de si el JH tiene ejerceuna actividad secundaria
48 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
• DOEMP = 1Si JH tiene otro trabajo y 0 en otro caso
De igual manera el estado civil generaría5 variables indicadoras, donde tomaríamoscomo categoría base cuando el jefe dehogar es soltero.
• DCONVI = 1Si JH es conviviente y 0 en otro caso
• DCASAD = 1Si JH es casado y 0 en o.c.
• DVIUDO = 1Si JH es viudo y 0 en o.c.
• DDIVOR = 1Si JH es divorciado y 0 en o.c.
• DSEPAR = 1Si JH es separado y 0 en o.c.
Generamos variables indicadoras cuandoel hogar tiene conexión de servicioshigiénicos a red pública dentro devivienda.
• DSHDV = 1Si SS.HH. hogar - conectados a redpública dentro de vivienda y 0 en o.c.
De la misma manera, se generan unavariable indicadora cuando el hogar notiene ss.hh. dentro del hogar.
• DSHNO = 1Si hogar no tiene SS.HH. dentro dehogar y 0 en o.c.
Para el caso de abastecimiento de aguadentro de la vivienda a través de redpública, generamos la variable indicadora.
• DAGUDV = 1Si abastecimiento de agua es través dered pública dentro de vivienda
Variable indicadora que defina si elalumbrado público en la vivienda es travésde kerosene.
• P1122 = 1Si el tipo de alumbrado en la viviendaes a través de kerosene
Variable indicadora que define si se utilizaespacio de la vivienda que destine ingresospara el hogar.
• P115 = 1Si se utiliza espacio en la vivienda quedestine ingresos al hogar.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 49
Centro de Investigación y Desarrollo
VIII. CRITERIOS DE APLICACIÓN DE LOS MODELOSLOGIT Y PROBIT CON VDD APLICADOSAL CASO DE LA POBREZA EN EL PERÚ
8.1 Estudio a nivel descriptivo yexploratorio de variablescualitativas y cuantitativas queincidan en la pobreza en el Perú12
Empezaremos esta parte de nuestrainvestigación describiendo aquellasvariables que nos brindan posiblesexplicaciones de la pobreza en un marcogeneral y de los individuos Jefe de Hogaren este caso en particular. Entre ellas seencuentran aquellas de caráctersociodemográfico como el género, laedad, el estado civil, el nivel de educación,el alfabetismo (variables de naturalezacualitativa), medidas en algunos casos enescala nominal - dicotómica como el sexodel jefe de hogar (Hombre-Mujer) y enotros casos nominal - politómica como elestado civil (Soltero-Casado-Conviviente-etc).
En otro tipo de escalas se encuentranaquellas que denotan un orden ascendenteen sus categorías como lo es el nivel deeducación (Sin Nivel- Educación Primaria-etc.) alcanzado por el Jefe de Hogar.
Además encontramos variables denaturaleza cuantitativa como lo constituyen
la edad y el indicador proxy de experiencialaboral , que no considera aquel caso enel que el Jefe del Hogar, ha estudiado ytrabajado, sino solo aquel tiempo en elcual el Jefe de Hogar solo trabaja.
Uno de los objetivos que perseguimos yque esta implícito dentro de estainvestigación es dejar en claro queestamos trabajando con variables adiferentes escalas, mencionadas comoejemplos líneas antes, y que dependiendode estas escalas determinarán laimplementación y ejecución de lasmetodologías que sirvan de herramientaspara una explicación de la pobreza en elPerú en particular.
EDUCACIÓN
Una de las características de la pobreza esque esta se encuentra asociada a nivelesbajos de educación alcanzados por el Jefede Hogar. Podemos ver [Cuadro VIII.1]como dentro de aquellos Jefes de Hogarsin nivel educativo y nivel educativoprimario, el 72.5% y el 61.3% seencuentran en condición de pobreza,respectivamente.
72.5% 61.3% 40.0% 19.3% 8.2% .2% 46.8%
27.5% 38.7% 60.0% 80.7% 91.8% 99.8% 53.2%100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
pobre
no pobre
estado pobreza
Total
sin nivel primaria secundaria sup. no univ. universitaria post univers.
Nivel Educativo Agrupadoa
Total
Porcentage de columnasa.
12/ Debemos de recordar que si bien el objetivo de nuestra investigación gira en torno a los modelos logit y probit, vemos que nopodemos ser ajenos a aquellos previos fundamentales de análisis descriptivo para poder seguir avanzando sobre niveles de análisismás complejos, como lo podrían constituir el análisis multivariado y los modelos de probabilidad con enfoques binomial.
Cuadro VIII.1 Perfil del Jefe de Hogar según Nivel Educativo y Estado pobreza
50 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
En el caso de los que tienen nivel educativosecundaria, se aprecia que el estado depobreza se encuentra repartido para susdos categorías, con 40% para el caso dejefes de hogar pobres y con 60% para elcaso de no pobreza. Un panoramadiferente y en sentido opuesto se da enlos niveles superiores donde en el casode jefes de hogar con nivel educativosuperior no universitario el 80.7% seencuentran en estado de no pobreza. Enuna tendencia creciente mucho mayor yestado de no pobreza se encuentranaquellos jefes de hogar que tiene nivelescomo el universitario y el post-grado, con91.8% y 99.8% para la primera y segundarespectivamente.
En función del comportamiento entre elestado de pobreza y el nivel educativo deljefe de hogar nos toca ahora analizar elgrado de relación que estas tienen, ydefinir más aún este comportamiento anivel poblacional. Analizando el cuadroque muestra el Test Chi-Square [CUADROVIII.2] podemos ver que la hipótesis denulidad que supone independiente elnivel educativo y la condición de pobrezadel jefe de hogar es rechazada para unvalor de c2 = 859730.5 y un nivel designificancia (p-valor =0.000), por lo tantoa medida que el jefe de hogar vaadquiriendo un mayor nivel de educación,éste obtiene mas capacidades para irabandonando la condición de pobreza,más aún si tiene niveles de educaciónsuperiores.
859730.5 5 .000954693.3 5 .000
842469.1 1 .000
5834837
Pearson Chi-SquareLikelihood RatioLinear-by-LinearAssoc iation
N of Valid Cas es
Value dfAsymp. Sig.
(2-sided)
Cuadro VIII.2 Chi-Square Test
Una respuesta a la pregunta de ¿cual es elgrado de asociación? Se puede apreciaren el cuadro [CUADRO VIII.3] SymmetricMeasures donde los Coeficientes decorrelación de Spearman (0.375), Gamma(0.567) y Kendall´s tau-c (0.409) denotanun fuerte grado de asociación, pues nos
dan la idea de la asociación que debe darseentre el nivel socioeconómico y el niveleducativo, hablando de la población en suconjunto. Debemos de tomar en cuentaque estamos aislando en alguna medida elfenómeno de pobreza y poniéndolo soloen términos del nivel educativo.
Cuadro VIII.3 Symmetric Measures
. 346 .000
. 409 .000
. 567 .000
. 375 .0005834837
Kendall's tau-bKendall's tau-c
GammaSp earman Correlation
Ordinal byOrdinal
N of Valid Cases
Value Ap prox. Sig .
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 51
Centro de Investigación y Desarrollo
ESTADO CIVIL - SEXO DEL JEFE DEHOGAR
A continuación analizaremos elcomportamiento y la relación existenteentre el sexo del jefe de hogar y el estadocivil que posee. Se puede apreciar[CUADRO VIII.4] que dentro de lacondición de pobreza, los jefes de hogarhombres constituyen el 96.4% del estado
civil conviviente, en igual sentido seencuentra los jefe de hogar casados quevienen a estar constituidos en un 97.7%por los hombres. La figura cambia para lasotras categorías de estado civil, donde parael estado civil viuda, divorciada, separaday soltera, las mujeres constituyen el76.36%, el 70.86%, el 84.13% y el 50.48,para cada categoría y en ese ordenrespectivamente.
0
10
20
30
40
50
60
70
80
90
100
Sin Nivel Prim aria Secundaria Superior No
Universitaria
Universitaria Post -Grado
Pobre
N o Pobre
Gráfico VIII.1Perfil del Nivel Educativo según estado de pobreza del jefe del hogar
Cuadro VIII.4Perfil de jefe de hogar según género y estado civil o conyugal en estado de pobreza
96.4% 97.7% 23.6% 29.1% 15.9% 49.5% 81.2%3.6% 2.3% 76.4% 70.9% 84.1% 50.5% 18.8%
100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
HombreMujer
Sexo
Total
estadopobrezapobre
Conviviente Casado Viudo Divorciado Separado SolteroCual es su estado civil o conyugal
a
Total
Porcentage en columnasa.
Resultado de la incorporación de losefectos de diseño vemos [CUADROVIII.5] que según el Chi-Square Tets,obtenemos el coeficiente Pearson c² (5)= 1685365 y un p-valor=0.000, nos
permite rechazar la hipótesis que formulala independencia de ambas variables, esdecir, que existe relación significativa entreel estado civil y el sexo del jefe de hogaren condición de pobreza.
PORC
ENTA
JE
NIVEL EDUCATIVO
52 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
El grado de asociación del cual estamoshablando lo podemos observar en el cuadrosiguiente Symetric Measures [CUADROVIII.6], donde coeficientes como el decontingencia (CC) con un valor de 0.615, el Phi = 0.781 y el Cramer´s V=.781denotan un alto grado de asociación13, locual nos muestra que la pobreza afectaen todos los estados civiles sean estos en
condición de pareja (casado-conviviente),como sería en el caso de los jefes de hogarhombres. En aquellas situaciones en lasque la mujer tiene que responder comojefe de hogar y "no tendría pareja" (Viuda-Divorciada-Soltera-etc.), podría motivar unmayor riesgo para la adquisición de lacondición de pobreza.
1685365 5 .0001478553 5 .000
2764186
Pearson Chi-SquareLikelihood Ratio
N of Valid Cases
estado pobrezapobre
Value dfAsymp. Sig.
(2-sided)
Cuadro VIII.5 Chi-Square Test
Cuadro VIII.6 Symmetric Measures
.781 .000
.781 .000
.615 .0002764186
PhiCramer's VContingency Coefficient
NombyNom
N of Valid Cases
estadopobrezapobre
Value Approx. Sig.
Al analizar las mismas variables para losjefes de hogar no pobres, podemosobservar [CUADRO VIII.7] uncomportamiento parecido al de los jefesde hogar en estado de pobreza. Es decir,para los jefes de hogar con estado civil deconvivencia y casado, los hombres
constituyen el 94.1% y el 97.2% dentrode cada categoría respectivamente. Paralos jefes de hogar en los estados civilesviudo, divorciado y separado, las mujeresconstituyen el 67.8%, el 60.2% y el67.8% de cada categoría y en ese ordenrespectivamente.
Cuadro VIII.7Perfil de jefe de hogar según género y estado civil o conyugal en estado de no pobreza
94.1% 97.2% 32.2% 39.8% 32.2% 62.1% 78.2%5.9% 2.8% 67.8% 60.2% 67.8% 37.9% 21.8%
100.0% 100.0% 100.0% 100.0% 100.0% 100.0% 100.0%
HombreMujer
Sexo
Total
estadopobrezanopobre
Conviviente Casado Viudo Divorciado Separado SolteroCual es su estado civil o conyugal
a
Total
Porcentage de Columnasa.
13/ Debemos de considerar que si bien estos coeficientes nos confirman los grados de asociación de variables estos poseenlimitaciones como el caso del coeficiente de contingencia, que a pesar que nos puede expresar que un valor de ceroconfirma la no asociación de variables, no posee la propiedad en el caso extremo de un grado de asociación total, es decir,igual a 1. Para más detalle consultar Siegel , Sidney.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 53
Centro de Investigación y Desarrollo
Se confirma la relación significativa ydiferente de cero existente entre el sexoy el estado civil del jefe de hogar, esto enel Chi-Square Test [CUADRO VIII.8], através de los coeficientes de Pearson c²(5)=1356731, el c ² de la razón deverosimilitud (likelihood ratio)= 1327980
con resultados en el mismo sentido debidoal tamaño de la población. A través de susignificancia (0.000) que permite rechazarla hipótesis que sostiene la independenciadel sexo y el estado civil del jefe de hogardentro de cada categoría de pobreza.
Cuadro VIII.8 Chi-Square Test
1356731 5 .000
1327980 5 .000
3144673
Pearson Ch i-Squar e
Likelihood Ratio
N of Valid Cases
estado pobrezano pobre
Value dfAsymp. Sig.
(2-sided)
De lo explicado anteriormente, resultainteresante ver que a pesar que exista unarelación entre el sexo del jefe de hogar ysu correspondiente estado civil, la pobrezade los jefes de hogar del Perú ya no solo
capta a los hogares con jefes de hogarmujeres sin pareja, ahora en el año 2001ya ha captado a los jefes de hogar conpareja, ya sea formal o informal.
Cuadro VIII.9 Symmetric Measures
.657 .000
.657 .000
.549 .000
3144673
Phi
Cramer's V
ContingencyCoefficien t
Nom byNom
N of V alid Cases
estado pobrez ano pobre
Value Appro x. Sig .
0
20
40
60
80
100
CONVIVIE NT E CAS ADO VIUDO DIVOR CIADO SE PAR ADO S OLT E R O
Mujer
Hombre
PORC
ENTA
JE
ESTADO CIVIL
Gráfico VIII.2Perfil del Jefe de Hogar según Género y Estado Civil
condición de no pobreza
54 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
0
20
40
60
80
100
CONVIVIENT E CAS ADO VIU DO DIVOR CIADO SEPAR ADO S OLT E RO
Mujer
Hombre
AREAS DE RESIDENCIA - REGIÓNNATURAL
La pobreza en nuestros días haconquistado todos los ámbitos del vastoterritorio peruano, lo cual sumado acondiciones de focalización mal llevadasen la década pasada permitió que aquellosque se encontraban en estado de pobrezano fueran quienes recibieran la ayuda y losmedios adecuados paleativos para subsisitir.
En el año 2001, podemos ver [CUADROVIII.10] que en condición de pobreza los
jefes de hogar del área urbana constituyeel 84.3% para la región de la costa. Enun nivel porcentual menor pero igual deconsiderable, la región de la sierra estáconstituida en un 75.9% por jefes dehogar del área rural. Si bien para el árearural en la región selvática los jefes dehogar pobres son alrededor del 58% , noes tan evidente la diferencia como en elresto de regiones, debido a que en el áreaurbana se encuentra un 42.1% en estadode pobreza.
PORC
ENTA
JE
ESTADO CIVIL
Gráfico VIII.3Perfil del Jefe de Hogar según Género y Estado Civil
condición de pobreza
Cuadro VIII.10Perfil de jefe de hogar según Area y Región Natural en estado de pobreza
84.3% 24.1% 42.1% 47.4%
15.7% 75.9% 57.9% 52.6%
100.0% 100.0% 100.0% 100.0%
urbano
rural
Urbano_Rural
Total
estadopobrezapobre
costa sierra selva
regiones naturalesa
Total
Porcentage de Columnasa.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 55
Centro de Investigación y Desarrollo
Resulta dramático evidenciar cómo lacondición de pobreza afecta en mayormedida a aquellos que menos accesotienen en cuanto a activos públicos deinfraestructura, educación, salud, etc; queson justamente aquellos jefes de hogar
que se encuentran en la sierra rural delPerú, a pesar de que se sostenga enalgunas investigaciones que la brecha deacceso a estos activos se ha ido reduciendoen los últimos años.
PORC
ENTA
JE
REGION NATURAL
Gráfico VIII.4Perfil del Jefe de Hogar según Área y RegiónNatural de residencia - Condición de pobreza
0
1 0
2 0
3 0
4 0
5 0
6 0
7 0
8 0
9 0
C OS TA SIE R R A S E LV A
U rb an o
R ur al
La relación entre estas variables essignificativa a un nivel de confianza del95%. Esto como sabemos podemosdeducirlo del rechazo de la hipótesis quesupone la independencia del área (urbanoo rural) y la región natural de residencia
del jefe de hogar [CUADRO VIII.11],ambos en escala nominal para la condiciónde pobreza, al haber obtenido valores delcoeficiente de Pearson c²(2) = 819652.7y un p-valor = 0.000, esto con unasignificancia (a) de 5%.
Cuadro VIII.11 Chi-Square Test
819652.7 2 .000
879899.6 2 .000
2764184
Pearson Chi-Square
Likelihood Ratio
N of Valid Cases
estado pobreza01pobre
Value dfAsymp. Sig.
(2-s ided)
El grado de asociación que se encuentraen estas variables se puede apreciar en elcuadro [CUADRO VIII.12] SymmetricMeasures, el cual nos muestra loscoeficientes de asociación Phi=0.545,
Cramer´s V = 0.545, y el ya conocidocoeficiente de contingencia (CC)=0 .478,que a pesar estos últimos de mostrar unalto grado de relación entre 2 variablesmedidas en una escala simple como es la
56 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
nominal, puede mostrarnos cómo vadeterminando en alguna medida suinfluencia en la condición de pobreza que
posee el jefe de hogar y cómo esta entraráa tallar dentro la probabilidad que elindividuo obtenga dicha condición.
.545 .000
.545 .000
.478 .000
2764 184
P hi
Crame r's VCon tinge ncyCoe fficient
Nom b yNom
N of Vali d Cases
estad opobrezapobre
V alu e Approx. S ig.
Cuadro VIII.12 Symmetric Measures
ANÁLISIS CUANTITATIVO
Si bien hemos mostrado relaciones convariables importantes que en principio nosmuestran panoramas independientes dela pobreza y el efecto que sobre lacondición del jefe de hogar ejercen estasvariables de naturaleza cualitativa,extrayéndolas del fenómenomultidimensional en su conjunto,podemos también detenernos porinstantes dado que no es objetivo de estainvestigación analizar como cierto tipo deactivo de capital humano se comportandentro de las distintas condiciones depobreza, entre ellos, años de estudios deljefe de hogar.
AÑOS DE ESTUDIOS DEL JEFE DEHOGAR
Uno de los indicadores que muchosconsideran de suma importancia al analizarla pobreza, es el de los años de estudiosdel jefe de hogar. Para el año 2001podemos observar [CUADRO VIII.13] queel activo de capital humano referente alos años de estudios del jefe de hogar esbajo, basta solo con observar que para el
estado de pobreza el promedio de añosde estudios se encuentra alrededor de 5,pequeño en comparación a que los jefesde hogar en condición de no pobrezatienen en promedio alrededor de 10 añosde estudios.
Dada la heterogeneidad y dispersión delas poblaciones en estudio, el tomar comovalor del promedio de años de estudioslos valores obtenidos, resulta erróneo. Ental sentido deberemos optar por lamediana como mejor medida de ajuste aesta variable. Se puede apreciar que enpromedio, el jefe de hogar pobre estaríaalcanzando el grado de primaria (6 años),diferencia sustantiva con respecto a losaños alcanzados por el jefe de hogar nopobre que podría estar alcanzando alcompletar el nivel de secundaria con los11 años en promedio de estudio que estetendría. No debemos además olvidar queestamos considerando su conducta desdela idea de un corte transversal hecho enel tiempo y deben ser consideradas susimplicancias respectivas, en caso sedecidiese, probarla con alguna otra variabley analizar su comportamiento.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 57
Centro de Investigación y Desarrollo
Más allá de que la desigualdad existenteentre los dos grupos sea evidente, esinteresante confirmar cómo a través de laprueba de diferencia de mediasconfirmamos tal. El [CUADRO VIII.14] nosmuestra en primer lugar el estadístico deLevene14, el cual nos permite rechazar laidea de igualdad de poblaciones pobre yno pobre. Como ya probamos la diferenciaexistente entre los años de estudios dejefes de hogar pobres y no pobres, con eltest de equivalencia de mediasrechazamos tal hipótesis, primero tomandola fila de varianzas diferentes, que ya hasido probada y luego podemos ver que la
diferencia de medias es distinta de cero(3.92), debido a un t = - 1026.487 y unasignificancia de 0.000, lo cualestadísticamente hablando nos permiterechazar la idea de igualdad de medias alnivel poblacional.
Probada esta diferencia de medias nos tocaahora mostrar cómo la diferencia en añosde estudios se hace cada vez más notoriaa medida que el jefe de hogar seencuentra en pobreza extrema, pobrezano extrema y no pobreza, la cual serámostrada por única vez, dado que no esfin primordial de esta investigación.
Cuadro VIII.13Cuadro de años de estudio del Jefe de Hogar según Condición de Pobreza
5.36 2.60E-03
5.17
6.00
4.30
.345 .001
-.870 .003
9.29 2.80E-03
9.38
11.00
4.93
-.298 .001
-.842 .003
Promedio
Promedio sin 5% VE
Mediana
Desviacion Std.
Asimetría
Kurtosis
Promedio
Promedio sin 5% VE
Mediana
Desviacion Std.
Asimetría
Kurtosis
Estado Pobrezapobre
no pobre
Años deestudios JH
Statistic Std. Error
57766.511 .000 -1017.677 5834834 .000 -3.92 3.86E-03
-1026.487 5834386 .000 -3.92 3.82E-03
Asumiendovarianzas iguales
Sin asumirvarianzas iguales
Años deestudiosjh
F Sig.
Levene's Test forEquality of Variances
t df Sig. (2-tailed)Mean
DifferenceStd. ErrorDifference
t-test for Equality of Means
14/ Sabemos que el estadístico de Levene es resistente a la ausencia de normalidad de una distribución analizada, en tal sentidose propone como más idóneo para medir la homogeneidad de las varianzas.
Cuadro VIII.14Prueba de Levene para igualdad de varianzas y diferencia de medias
en los años de estudios del JH
58 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
310310915531961178530N =
No PobrePobre No Extrem oPobre E xtrem o
10
9
8
7
6
5
4
3
Una prueba a la afirmación anterior, lapodemos confirmar con la tendenciacreciente de la diferencia en los años deestudios del jefe de hogar a los diversosniveles de pobreza que este posee.Además de confirmada la diferencia enlos promedios de años de estudios, la
brecha diferenciadora y por ende el accesoal capital humano importantísimo en laépoca actual se hace cada vez más grandeporque resulta evidente que haber pérdidoun año de estudios en la década pasadano es igual que perder un año en laactualidad.
IC 9
5% -
Año
s de
est
udio
s jh
POBREZA
Gráfico VIII.5Tendencia del Promedio de años de estudio del jh
según estado de pobreza
Cases weighted by FACTOR
8.2 Formulación y adecuación de losmodelos Logit y Probit con VDD,en función de sus enfoques y lasvariables o factores explicativosmás significativos
Como ya vimos en capítulos anteriores, ladiferenciación teórica de ambos modelosaún no ha sido descubierta en su totalcabalidad, se mencionó que Amemiya(1981) intenta hacer aproximaciones haciala resolución de este problema pero engeneral no se obtuvieron resultadosconcretos.
Si bien tenemos la necesidad de mostraresta diferenciación, partimos ahora de un
criterio eminentemente práctico. Sesostiene que el ANÁLISIS PROBIT15 estáestrechamente ligado a la regresiónlogística. Es que si usamos latransformación logit estaríamos calculandoesencialmente la regresión antesmencionada. En general, el análisis probitcon enfoque de proporciones muestralessería más apropiado para diseño deexperimentos, en función a que suprocedimiento mide la relación entre lapotencia de un estímulo y la proporciónde casos que presentan una respuesta aese estímulo.
Se materializa esta idea a través de unejemplo, querer saber qué tan efectivo
15/ SPSS para Windows, Realease 10.0.7 (2000)
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 59
Centro de Investigación y Desarrollo
es un nuevo pesticida para liquidarinsectos, ¿cual sería la concentración letalefectiva a usar? Uno podría diseñar unexperimento en el cual se exponenmuestras de insectos a diferentesconcentraciones del insecticida, es decir,tener el número de insectos expuestos endicha concentración y entonces determinarel número de insectos muertos bajo talefecto. Aplicando un análisis probit a estosdatos, uno puede determinar la potenciade la relación entre la muerte de losinsectos y la dosis de pesticida adecuadoy determinar cuál es el grado deconcentración apropiado del insecticidaque me permitiría estar seguro de mataral 95% de los insectos expuestos.
Como resulta evidente, se está realizandoun enfoque cuantitativo, confirmado estoademás en la línea seguida por autorescomo Green o Gujarati al formular susmodelos de probabilidad. Pero comopuede apreciar se limita al hecho deinclusión de pocas variables, más aúnsiendo estas de índole cuantitativo yporque necesariamente tendría queobtener la frecuencia de observacionesque implican en primer lugar a las variablesindependientes, vale decir por ejemplocantidad de jefes de hogar dentro de losdeciles de ingreso, luego determinar lacantidad de jefes de hogar pobres dentrode cada décil, para poder saber la tasa derespuesta a ese nivel de ingreso dentrode la variable dependiente (la condiciónde pobreza). Si se decidiera incluir másvariables independientes se tiene quetomar en cuenta que debemos obtenerlas frecuencias que resultan del cruce deestas. Imaginarse tan solo el cruce losdiversos valores del ingreso per cápita conel estado civil, la cantidad de miembrosde la familia y con los tipos de accesos aactivos públicos como la luz, agua, entreotros, empiezan a figurar la inviabilidad deesta aplicación.
Aquí es donde se producirán limitacionesen la aplicación de este enfoque debido a
que si bien se pueden obtener el crucede ellas, no esta regido a parámetros demedición exacta y continua, pues lapobreza es un fenómeno de escalamultidimensional. Sería interesante podersaber si la mezcla de escalas determinanun nivel de medición que me permitieseacceder a la probabilidad exacta de serpobre.
A parte de la condición de que lasobservaciones deben ser independientes.Si tenemos un gran cantidad de estas paralas variables independientes, la Chi-cuadrado (c²) y los estadísticos de bondadde ajuste pueden no ser válidos.
Retomando la diferenciación de ambosmodelos, podemos mencionar que laregresión logística con enfoque de casosindividuales es más apropiada para estudiosobservacionales. Usada también parasituaciones en las cuales uno quiere sercapaz de predecir la presencia o ausenciade una característica o resultado basadoen valores de un conjunto de variablespredictoras. Los coeficientes del modelologit pueden ser usados para estimar OddsRatios (`Razón de probabilidades`) paracada una de las variables independientesen el modelo. La regresión logística y porende el modelo logit, es aplicable a unrango mayor de situaciones deinvestigación. Adicionalmente, como enotras formas de regresión, lamulticolinealidad de las variablesindependientes si no es manejable puedegenerar estimadores sesgados o inflar elerror estándar.
8.2.1 Metodologías de estimación delos modelos de probabilidad
MODELO DE PROBABILIDAD DE LAPOBREZA EN EL JEFE DE HOGAR
A continuación mostramos la metodologíade estimación del modelo de probabilidaddel jefe de hogar pobre del Perú, para el
60 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
año 2001, tomada una muestra aleatoriade alrededor del 50% (8233) de los jefesde hogar de la encuesta nacional dehogares según los factores consideradosde importancia en la condición de pobrezade éste y obtenidos según la informaciónde la ENAHO 2001 -IV TRIMESTRE,Condiciones de Vida y Pobreza.
Enfoque de ObservacionesIndividuales
Coeficientes para el modelo logit
El [CUADRO VIII.15] contiene loscoeficientes estimados (bajo la columnaencabezada por B) y los estadísticosasociados al modelo que predice laprobabilidad de ser pobre del jefe dehogar del Perú en el año 2001 en funcióna características individuales del jefe dehogar como el no tener nivel educativo,
edad, su indicador de experiencia laboral,indicador de condición ocupacional,tamaño de la firma, otro empleo; ycaracterísticas asociadas al hogar como elingreso per cápita mensual, la cantidad demiembros, y el indicador PET del hogar,además si la conexión de agua y servicioses a través de red pública dentro de lavivienda. Las variables (sinnivel, costaurbana, costa rural, sierra urbana, sierrarural, selva urbana, selva rural, obrero,menos100pe, otroemple, conviviente,sehigdviv, y las cuatro últimas variables)son indicadoras, codificadas con 0 y 1. Elvalor de 1 para OBRERO indica que el jefede hogar tiene condición ocupacional deobrero, el valor de 1 para MENOS100PEindica que el tamaño de la firma en la quetrabaja es de menos de 100 personas, elvalor de 1 para OTROEMPLE indica queel jefe de hogar posee actividadsecundaria por la que percibe ingresos.
.911 .231 15.548 1 .000 2.488 1.582 3.913
-.072 .011 41.221 1 .000 .931 .910 .951
-1.189 .167 50.439 1 .000 .304 .219 .423
.570 .098 33.642 1 .000 1.768 1.459 2.144
.899 .121 55.483 1 .000 2.458 1.940 3.114
-.807 .125 41.844 1 .000 .446 .349 .570
.070 .010 49.495 1 .000 1.072 1.051 1.093
.584 .189 9.540 1 .002 1.793 1.238 2.598
.451 .092 23.940 1 .000 1.570 1.311 1.881
.324 .095 11.606 1 .001 1.383 1.148 1.666
-.226 .085 7.090 1 .008 .798 .675 .942
-.011 .000 876.865 1 .000 .989 .988 .990
.517 .031 283.825 1 .000 1.677 1.579 1.781
-.313 .040 60.764 1 .000 .731 .676 .791
.269 .080 11.274 1 .001 1.308 1.118 1.530
-.388 .093 17.414 1 .000 .678 .565 .814
.270 .089 9.281 1 .002 1.310 1.101 1.558
-.168 .082 4.137 1 .042 .846 .719 .994
.627 .092 46.847 1 .000 1.873 1.565 2.241
.288 .083 11.916 1 .001 1.334 1.133 1.571
.761 .379 4.035 1 .045 2.141
SINNIVEL
EDAD
COSTA URBANA
SIERRA URBAN
SELVA URBANA
SELVA RURAL
INDEXPLABO
COLEGESTA
OBRERO
MENOS100PE
OTROEMPLE
INPERCAM
MIEPERHO
PETHOGAR
CONVIVIENTE
SEHIGDVIV
NOSERVHIGIE
AGUAVIV
ALUMKEROSE
EMPVIVINGRE
Constant
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Cuadro VIII.15 Variables en la ecuación
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 61
Centro de Investigación y Desarrollo
Dados estos coeficientes, la ecuación parala probabilidad de ser pobre del jefe dehogar se puede escribir como sigue:
Pr(Jefe de Hogar Pobre) =
1
1 ZiPi
e−=+
ECUACIÓN VIII.1
Donde:
Zi = 0.761 + 0.911(sinnivel) -0.072(edad) - 1.189(costa urbana) +0.570(sierra urbana) + 0.899(selvaurbana) - 0.807(selva rural) +0.07(indexplabo) + 0.584(colegesta) +0.451(obrero) + 0.324(menos100pe) -0.226(otroemple) -0.011(inpercam) +0.517(mieperhog) - 0.313(pethogar) +0.269(conviviente) -0.388(sehigdviv) +0.270(noservhigie) - 0.168(aguaviv) +0.627(alumkerose) + 0.288(empvivingre).
ECUACIÓN VIII.2
Aplicando esto a un jefe de hogar sin nivelde educación con 60 años de edad deLima con un indicador de experiencialaboral de 54 años, desocupado, con uningreso per cápita mensual de s/.143.00,con 4 miembros en su hogar, con 3personas en la PET , que no es conviviente,que no use el kerosene como tipo dealumbrado en su hogar, que poseeconexión a red pública dentro de lavivienda tanto de agua como dealcantarillado y no emplea parte de lavivienda para ingresos dentro del hogar.
Zi = 0.761 + 0.911(1) -0.072(60)...........-0.388(1) + 0.270(0) -0.168(1) + 0.627(0) + 0.288(0)
ECUACIÓN VIII.3
Entonces la probabilidad de ser pobre deljefe de hogar es:
Pr(Jefe de hogar pobre) = 0.65847ECUACIÓN VIII.4
Basados en este estimado, podemospredecir que el jefe de hogar con estascaracterísticas es pobre. En general, si laprobabilidad estimada del evento esmenor a 0.5, podemos decir que elevento no va a ocurrir. Si la probabilidades mejor que 0.5, podemos decir que elevento va a ocurrir y por lo tanto como enel ejemplo, que el jefe de hogar es pobre.
Prueba de hipótesis sobre loscoeficientes
Para tamaños de muestra grande, la pruebade que un coeficiente es 0 es basada enel estadístico de Wald, el cual tiene unadistribución chi-cuadrado. Cuando unavariable tiene un grado de libertad, elestadístico de Wald es el cuadrado del ratiodel coeficiente entre su error estándar. Paravariables categóricas, el estadístico deWald tiene sus grados de libertadequivalentes a uno menos el número decategorías.
Por ejemplo, en el [CUADRO VIII.15] elcoeficiente de sin nivel de educación es0.911 y su error estándar es 0.231 (en elcuadro la columna llamada S.E.). Elestadístico de Wald es (0.911/0.231)2 ó15.548. El nivel de significancia para elestadístico de Wald es mostrada en lacolumna Sig. En nuestro caso todas lasvariables obtenidas en el modelo resultanser significativamente diferentes de cero,para un nivel de significancia de 0.05.
62 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Otra manera ver de este análisis, es a travésde la prueba asociada a su efecto:
Ho : b (SINNIV) = 0, lo cual quiere decirque el efecto de no tener educación esirrelevante, pero obteniendo un valor parael estadísitico Wald de 15.548 y unasignificancia de 0.000, rechazábamos esahipótesis nula afirmando que tal efecto essignificativamente distinto de cero y portal razón relevante para la probabilidad deser pobre del jefe de hogar.
De la misma manera podemos afirmar, porejemplo, con respecto a la significanciade la cantidad de miembros en el hogar,obteniendo un valor de 283.825 para elestadístico de Wald, que se obtiene deelevar al cuadrado la división delcoeficiente entre su respectivo ErrorEstándar de estimación, demás estámencionar la relevancia de esta variable yconfirmar el efecto positivo (0.517) quejuega dentro de la probabilidad de serpobre del jefe de hogar.
Desafortunadamente, el estadístico deWald posee una propiedad indeseable.Cuando el valor absoluto del coeficientede regresión llega a ser demasiado grande,el error estándar también lo es. Estoproduce que el estadístico de Wald, seamuy pequeño, por tal motivo noestaríamos rechazando la hipótesis nula deque el coeficiente es 0, cuando en realidadsí deberíamos. De allí que cuandotenemos un coeficiente grande, uno nodebería de confiar en el estadístico deWald para prueba de hipótesis. En vez deello, se debería construir un modelo conla variable y otro sin variable y basar laprueba de hipótesis en el cambio del logde la función verosimilitud. (Hauck &Donner, 1977).
Interpretación de los coeficientes
Para entender la interpretación de loscoeficientes de esta regresión,consideramos un reordenamiento de laecuación para el modelo logístico. Estepuede ser escrito como unreordenamiento en términos de lasrazones (´Odds´) de ocurrencia de unevento. (Las Odds (´razón deprobabilidades´) de ocurrencia de unevento es definido como el ratio de laprobabilidad de que ocurra un eventosobre la probabilidad de que no ocurra unevento. Por ejemplo, la odds de obtenercara en un lanzamiento de una monedasería 0.5/0.5 = 1. Similarmente, la oddsde obtener un corazón en una reparticiónde cartas será 0.25/0.75 = 1/3. No debeconfundirse este significado técnico de laodds con su uso informal de un simplepromedio de probabilidad)
Escribimos el modelo logístico en términosdel logaritmo de las odds, llamada comosabemos logit:
0 1 1 ......
Pr( )log( )
Pr( )p p
jhpobreX X
jhnopobreβ β β= + + +
ECUACIÓN VIII.5
De la ecuación anterior, el coeficientelogístico puede ser interpretado como uncambio en el log odds asociado con uncambio unitario en la variableindependiente. Por ejemplo, del[CUADRO VIII.15] podemos ver que elcoeficiente para sinnivel es 0.911. Esto nosindica que cuando el jefe de hogar noposee nivel educativo y los valores de lasotras variables independientes semantienen constantes, el log odds (razónde probabilidades) se incrementa en un0.911.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 63
Centro de Investigación y Desarrollo
La ecuación de regresión puede ser escritaen términos de los odds como:
Pr ( )
Pr ( )
ob jhpobre
ob jhnopobre=
0 1 1 ...... 0 1 1...X pXp X pXpe e e eβ β β β β β+ + + =
ECUACIÓN VIII.6
En e radica el poder de Bi, que es el factorpor el cual la razón de probabilidades(´Odds´) cambia cuando la i-ésimavariable independiente se incrementa enuna unidad. Si Bi positivo, este factor va aser mayor que 1, lo cual significa que laOdds se incrementa; si Bi es negativo, elfactor va a ser menor que uno, lo cualsignifica que la Odds decrece. Cuando Bies 0, el factor equivale a 1, lo cual significaque la odds no cambia.
En ese sentido resultó interesante vercomo al ser obrero es 1.6 veces másprobable ser pobre que no serlo, es decir,la Odds a favor de ser jefe de hogar pobrecambia positivamente en 100 (1.570 - 1)%=57% al tener condición ocupacional deobrero. De la misma manera pudimos daruna lectura parecida, pero con los criteriosadecuados del caso, al afirmar que el tenerabastecimiento de agua dentro de lavivienda a través de red pública le reducela probabilidad de ser pobre al jefe de
hogar, es decir, que su Odds se reduce ocambia negativamente en 100(0.846-1)%= 15.4%, y como mencionamosanteriormente la probabilidad de ser jefede hogar pobre sería menor con respectoa la probabilidad de ser no pobre.
Otra de las variables que resulta de interés,es la del número de miembros del hogar,donde se puede apreciar que dicha variableaumenta positivamente el logit de laprobabilidad de ser pobre con respecto ano serlo en 0.517. Es decir, que la Odds(´razón de probabilidades´) a favor de serpobre cambia posivitivamente en100(1.677-1)%= 67.7% al producirse elaumento de 1 persona en la cantidad demiembros del hogar.
Determinación de la bondad de ajustedel modelo
Existen varios caminos para determinar deun modo u otro la calidad de ajuste delmodelo a los datos.
Tabla de clasificaciónUn camino para determinar que tan biennuestro modelo ajusta los datos escomparar nuestras predicciones con losresultados observados. El [CUADROVIII.16] muestra la tabla de clasificaciónpara el modelo obtenido.
3400 701 82.9
519 3550 87.2
85.1
Observedno pobre
pobre
Estado pobreza
Overall Percentage
no pobre pobre
Estado pobreza PercentageCorrect
Predicted
El punto de corte es .50a.
Cuadro VIII.16 Tabla de Clasificación a
64 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Del cuadro anterior vemos que 3400 jefesde hogar no pobres fueron correctamenteclasificados por el modelo como jefes dehogar en estado de no pobreza.Similarmente, 3550 jefes de hogar pobresfueron correctamente clasificados enestado de pobreza. Los elementos fuerade la diagonal de la tabla nos dicen cuántosjefes de hogar fueron incorrectamenteclasificados. Un total de 1220 jefes dehogar fueron mal clasificados- 701 jefesde hogar no pobres y 519 jefes de hogarpobres. De los jefes de hogar no pobresel 82.9% fueron correctamenteclasificados. De los jefes de hogar pobresel 87.2% fueron correctamenteclasificados. Del total, el 85.1% de los8170 jefes de hogar tomados para seranalizados fueron correctamenteclasificados.
Bondad de ajuste del modelo
Observando que tan bien clasifica elmodelo los casos observados es uno delos caminos para determinar la potenciadel modelo logit y la regresión logística.
Otro camino de acceso a la bondad deajuste del modelo es examinar que tanbien los resultados de la muestra actualnos dan los parámetrosestimados. La probabilidad de los resultadosobservados, dados los parámetrosestimados, es conocida como laverosimilitud (´likelihood´). Como laverosimilitud es un número pequeñomenor que uno, se usa generalmente -2veces el logaritmo de la verosimilitud (-2LL) como una medida para verificar quetan bien el modelo estimado ajusta losdatos. Un buen modelo es aquel que tieneuna alta verosimilitud obtenida de losresultados observados. Lo cual se traduciríaen un pequeño valor para -2LL. (Si unmodelo ajusta perfectamente, laverosimilitud es 1, y -2 veces el loglikelihood es 0).
Ahora, para el modelo logit y de regresiónlogística de los jefes de hogar, un modelocon solo la constante nos da un -2LL iguala 11325.9 como se muestra en el[CUADRO VIII.17].
11325.900 -.008Iteración
1Step 0-2 Log likelihood Constant
Coefficients
Constante es incluida en el modelo.a.
Inicial -2 Log Likelihood(-2LL): 11325.900b.
Estimación terminada en iteración N° 1 porquelog-likelihood decrece en menos de .01%.
c.
Cuadro VIII.17 Historia de Iteración a,b,c
Bondad de ajuste con todas lasvariables
El [CUADRO VIII.18] nos muestra labondad de ajuste para el modelo con todaslas variables independientes [CUADROVIII.15]. Para este modelo el valor de -2LL
es 5683.192, el cual es menor que el -2LL para el modelo solo con la constante.La bondad de ajuste puede apreciarseademás en los estadísticos R2 de Cox &Snell (0.499) y de Nagelkerke (0.665), quenos explican el porcentaje de variaciónexplicada por el modelo.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 65
Centro de Investigación y Desarrollo
Existen otros estadísticos [CUADROVIII.19] que nos permiten abordar el ajustedel modelo. Ellos son llamados X2 para elmodelo, el bloque y el paso de iteración.Para el caso de los jefes de hogar, la X2del modelo es la diferencia entre -2LL parael modelo solo con la constante y -2LLpara el modelo con todas las variablesindependientes. Es decir, se prueba lahipótesis nula que sostiene que el modelocon solo la constante es mejor que elmodelo con todos los factores incluidos,es decir:
c²(20 g.l.) = -2 (LnL(solo con cte.) -LnL(con factores covariantes)) = 11325.9- 5683.192 = 5642.707, la cual frente aun c²(20 g.l., 5%)=31.41, rechaza lahipótesis nula de que el efecto de todaslas variables explicativas incluidas, excepto
la constante, es 0. De allí que podemosafirmar que este modelo es mejor ymantener L = b´X. La misma manera deproceder se realiza para una comparaciónentre diversos modelos que incluyen unacantidad diversa de factores explicativos.Este estadístico es comparable a la pruebaF para la regresión clásica. Los grados delibertad para c² modelo son la diferenciaentre el número de parámetros de los dosmodelos.
Con respecto a la c² del paso (Step), serefiere al cambio en -2LL para este últimopaso en la construcción del modelo.Probaría la hipótesis nula que el efecto deeste paso no es significativamentediferente de 0, lo cual es rechazado deacuerdo a su significancia de 0.042
5683.192 .499 .665Step20
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Cuadro VIII.18 Model Summary
Cuadro VIII.19 Omnibus Test of Model Coefficients
4.126 1 .0425642.707 20 .000
5642.707 20 .000
StepBlock
Model
Step 20Chi-square df Sig.
Con respecto a la c² del bloque sería elcambio en -2LL entre los sucesivos bloquesen la construcción del modelo. Prueba lahipótesis nula que los coeficientes para elconjunto de variables adicionadas en elúltimo paso son 0. En el caso de los jefesde hogar, consideramos solo dos modelos:el modelo solo con la constante y elmodelo con todas las variables
independientes [CUADRO VIII.15], portal motivo la c² del modelo y del bloquetienen los mismos valores. Si se consideransecuencialmente otros modelos a parte deestos dos, usando los métodos deselección de variables Fordward oBackward, las c² para el modelo y para elbloque van a ser diferentes.
66 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Métodos de diagnóstico
Cuando se construye un modeloestadístico, es importante examinar lacalidad de los resultados obtenidos. Enregresión lineal, observamos una variedadde residuales, medidas de influencia eindicadores de colinealidad. Existenherramientas valiosas, para identificarpuntos donde el modelo no puede ajustarbien, puntos que ejercen fuerte influenciasobre los coeficientes estimados, yvariables que son altamente relacionadasunas con otras. En regresión logística y elmodelo logit existen diagnósticoscomparables que deberían ser usados paradetectar problemas.
El residual es la diferencia entre laprobabilidad observada del evento y laprobabilidad predicha del evento basadoen el modelo. Por ejemplo, si predecimosque la probabilidad de ser pobre es 0.75para un jefe de hogar pobre, su residuales 1 -0.75 = 0.25.
El residual estandarizado (standardizedresidual) es el residual dividido por unestimado de su desviación estándar. En estecaso será:
(1 )
i
i
i i
residualZ
P P=
−ECUACIÓN VIII.7
Para cada observación, el residualestandarizado puede además serconsiderado una componente delestadístico de bondad de ajuste c². Si eltamaño de muestra es grande, el residualestandarizado debería aproximarse a unadistribución normal, con media 0 ydesviación estándar de 1.
Para cada observación, la deviance escalculada como:
-2*log (probabilidad calculada para elgrupo observado)
ECUACIÓN VIII.8
La deviance es calculada tomando la raízcuadrada del estadístico anterior yadicionándole un signo negativo si elevento no ocurre para dicha observación.Por ejemplo, la deviance para un jefe dehogar no pobre y una probabilidadcalculada de 0.45 de ser no pobre es
2log(0.45) 0.833Deviance= − − = −ECUACIÓN VIII.9
Valores grandes para la deviance indicanque el modelo no ajusta bien laobservación. Para tamaños de muestragrande, la deviance es aproximadamenteuna distribución normal.
El Studentized residual para cadaobservación es el cambio en la deviancedel modelo si el caso es excluido.Discrepancias entre la deviance y elstudentized residual pueden identificarcasos inusuales. Una gráfica deprobabilidad normal de los studentizedresiduals puede ser muy útil.
El logit residual es el residual para elmodelo si la predicción esta en la escalalogit.
(1 )
i
i
i i
residualLogitresid
P P=
−ECUACIÓN VIII.10
El leverage en la regresión logística es enmuchos aspectos análogo al leverage en
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 67
Centro de Investigación y Desarrollo
la regresión de mínimos cuadrados. Losvalores de leverage son siempre usadospara detectar observaciones que tienengran impacto en los valores predecidos. Adiferencia de la regresión lineal, los valoresleverage en esta regresión dependen delas puntuaciones de la variabledependiente y del diseño de la matriz. Losvalores de los leverage están restringidosentre 0 y 1. Su valor promedio es p/n,donde p es el número de parámetrosestimados en el modelo, incluyendo laconstante, y n es el tamaño de la muestra.
La Cook´s distance es la medida de lainfluencia de una observación. Nos dicecuánto afecta no solo en el residual paraesta observación, sino también sobre elresidual del resto de observacionesrestantes cuando se elimina dicho caso.La Cook´s distance (D) depende de suresidual estandarizado, así como de suleverage. Esta definido como:
*
2(1 )
i i
i
i
Z hD
h=
−ECUACIÓN VIII.11
Donde Zi es su residual estandarizado y hies su leverage.
Otra medida de diagnóstico útil es elcambio en los coeficientes del modelocuando una observación es retirada delmodelo, o DFBeta. Se puede calcular elcambio en cada coeficiente, incluyendola constante. Un ejemplo sería el cambioen el primer coeficiente cuando el caso ies borrado
( )1 1 1( )( ) iiDfBeta B B B−=
ECUACIÓN VIII.12
Donde B1 es el valor del coeficiente
cuando todas las observaciones sonincluidas en el modelo y B1(i) es el valordel coeficiente cuando la i-ésimaobservación es retirada. Valores grandesde cambio identifican observaciones quedeben ser examinadas.
Diagnósticos de gráficas
Todos los estadísticos descritos hasta ahorapueden ser grabados para este análisis enla matriz de casos/variables. Cuando seconsidere conveniente, se puedenobtener gráficas de probabilidad normalusando el procedimiento de exploracióny gráficas de diágnóstico usandoprocedimientos gráficos.
El [GRÁFICO VIII.6] muestra la gráfica deprobabilidad normal Q-Q y la gráfica Q-Q de desviaciones respecto a la normal.En el caso de la gráfica izquierda Q-Q(Quantiles reales y teóricos de unadistribución normal) de probabilidadnormal, los valores correspondientes a unadistribución normal teórica vienenrepresentados por la recta y los puntos sonlos valores de la deviance de los jefes dehogar. Como vemos estos puntos, en sumayoría, están próximos a la recta, lo cualindica que el ajuste es aceptable. Confirmaesto la suposición hecha con respecto alos tamaños de muestra grande. Para elcaso de aquellos valores de deviance muysuperiores a 2, el modelo no ajusta muybien dichas observaciones, pero se debeconsiderar que estos correspondenprobabilidades de mala clasificación de losjefes de hogar, en tal sentido, se puedeoptar por su eliminación o por el análisisde los estadísticos de Cook´s y DfBetaspara ver la influencia de dichasobservaciones.
68 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Con respecto a la gráfica Q-Q del ladoderecho de desviaciones de la normal,recoge las deviances de los jefes de hogarrespecto de la recta. Si la muestra procedede una población normal, los puntos debenfluctuar alrededor de "0" y no seguir unpatrón determinado. Como se pude
apreciar con respecto a la mayoría deobservaciones sus desviaciones fluctúanalrededor de "0", lo que confirma la ideade distribución normal para tamaños demuestra grandes por parte de lasdeviances.
6420-2-4
4
2
0
-2
-46420-2-4
3.0
2.5
2.0
1.5
1.0
.5
0.0
-.5
Valores Observados
Gráfico VIII.6
Gráfica Normal Q-Q para Deviance Gráfica Q-Q Desviaciones dela Normal Valores Deviance
Valo
res
Espe
rado
s D
. Nor
mal
Valores Observados
Des
v. d
e D
. Nor
mal
Una gráfica de los residuales estandarizadospara cada observación se muestra en la[GRÁFICA VIII.7], allí podemos ver comolos residuales toman valores grandes fuera
del rango de variación permitido.Hablamos específicamente para aquelloscasos donde sus residuales toman valoressuperiores a 3.
1000080006000400020000
6
4
2
0
-2
-4
Gráfico VIII.7Gráfica de Residuales Estandarizados
Res
idua
l Sta
ndar
d
Observaciones
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 69
Centro de Investigación y Desarrollo
En la [GRÁFICA VIII.8] se muestra queno existen en general casos que tenganun valor de leverage muy diferenciadorunos de otros, cumpliéndose en primerlugar el rango de variación sobre el cualvaría, 0 y 1. En segundo lugar, si se quiere
ser estricto, el mayor valor diferenciadorque se encontró para el leverage seencuentra alrededor de 0.02, lo que nonos llevaría a afirmar que dicho caso tieneun gran impacto sobre los valorespredichos.
1000080006000400020000
.03
.02
.01
0.00
Gráfico VIII.8Gráfica de Leverage por Observación
Valo
res
Leve
rage
Observaciones
En la [GRÁFICA VIII.9] se muestra queexisten algunos casos que tienen sustancialimpacto en la estimación del coeficientede la variable indicadora sin nivel educativo( casos 4656 y 7198), los valores paraDfbeta sinnivel de estas observaciones seencuentran alrededor de -0.04 - valoresextremos. Examinando la data se revelaque el primer caso (4656), más próximo a-0.06, es un jefe de hogar sin nivel deeducación, de la selva rural, hombre de41 años, conviviente pero en estado deno pobreza, que trabaja solo en suactividad principal. En el caso de la segundaobservación (7198), valor más próximo a-0.04, es un jefe de hogar con primaria,
de la costa urbana, mujer de 50 años, enestado de pobreza no extrema, trabajadoraindependiente con solo actividad principal.Podemos ver que estos dos casos soninusuales de acuerdo a las relacionesobtenidas en el [CUADRO VIII.15].
Si retirásemos el caso 4656 del análisis, elcoeficiente de la variable sinnivel deeducación cambiaría de 0.911 a -0.04731,con lo cual se vería perjudicado, y seconvertiría en un mal predictor o variableexplicativa. Lo mismo sucede siretirásemos el caso 7198, con lo cual elcoeficiente variaría de 0.911 a -0.03660,con los efectos del caso ya conocidos.
70 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
1000080006000400020000
.04
.02
0.00
-.02
-.04
-.06
Enfoque de proporciones muestrales
Modelo probit
En primer lugar intentaremos ejemplificara qué nos referimos con la idea de tasasde respuesta o de proporciones
muestrales dentro de este análisis.Supongamos que se desea estimar lacondición de pobreza del individuo enfunción a sus deciles de ingreso, en talsentido correspondería obtener lasiguiente información [CUADRO VIII.20]
Gráfico VIII.9Gráfica de DfBeta SINNIVEL por Observación
DFB
ETA
SIN
NIV
Observaciones
Deciles deIngreso
Jefes de hogaren deciles (Ni)
Jefes de hogar pobresen deciles (ni)
Decil I 1789 1737Decil II 1811 1711Decil III 1782 1554Decil IV 1705 1211Decil V 1702 855Decil VI 1730 531Decil VII 1623 264Decil VIII 1582 154Decil IX 1498 89Decil X 1293 21
Cuadro VIII.20
Como aquí se tiene las probabilidades (Pi)o proporciones muestrales de ser jefe dehogar pobre según decil de ingreso(ninperca), obviando las limitaciones quela técnica posee en cuanto al tamaño de
observaciones que deben entrar en elanálisis, estimamos un modelo deprobabilidad de ser pobre del jefe dehogar en función al décil de ingreso.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 71
Centro de Investigación y Desarrollo
P R O B I T A N A L Y S I S
MODEL InformationONLY Normal Sigmoid is requested.
Parameter estimates converged after 11 iterations.Optimal solution found.
Parameter Estimates (PROBIT model: (PROBIT(p)) = Intercept + BX): Regression Coeff. Standard Error Coeff./S.E.
NINPERCA -.00678 .00013 -53.42949
Intercept S.Error Intercept/S.E. EPOBRE
.72278 .00094 767.70752 pobre
.75554 .00057 1322.62124 no pobre
Pearson Goodness-of-Fit Chi Square = 9392340.38 DF = 16512 P = .000Parallelism Test Chi Square = 9300657.30 DF = 1 P = .000
Dado que el nivel de significancia de labondad de ajuste del estadístico Pearson-c² es pequeño, empiezan a evidenciarserazones para dudar del modelo.
Se puede apreciar [CUADRO VIII.21] queel modelo parece no ajustarcorrectamente las probabilidadesobservadas de los jefes de hogar enfunción a su décil de ingreso.
Cuadro VIII.21 Frecuencias Observadas y Esperadas
EPOBRE NINPERCA Number ofSubjects
ObservedResponses
ExpectedResponses
Residual Prob
0 6.00 1730.0 531.0 1319.386 -788.386 .762650 8.00 1582.0 154.0 1199.852 -1045.852 .758440 3.00 1782.0 1554.0 1370.164 183.836 .768890 6.00 1730.0 531.0 1319.386 -788.386 .762650 5.00 1702.0 855.0 1301.590 -446.590 .764740 9.00 1498.0 89.0 1132.967 -1043.967 .756320 3.00 1782.0 1554.0 1370.164 183.836 .768890 6.00 1730.0 531.0 1319.386 -788.386 .762650 5.00 1702.0 855.0 1301.590 -446.590 .764740 4.00 1705.0 1211.0 1307.430 -96.430 .76682
En ese sentido tendríamos que laecuación con respecto a la condición depobreza:
(PROBIT(p)) = Intercept + BX(PROBIT(p)) = .72278 -.00678*
NINPERCA
72 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
El resultado obtenido debe ser tomadocon cuidado en el sentido del cambio quese produciría sobre el probit de laprobabilidad de ser pobre. Ésta debe sertransformada para llegar a la cantidad sobrela cual variaría en la distribución normal(Un aumento hacia los deciles más ricosreduce el valor de la transformación probitalrededor de un 0.6%).
Resulta interesante mostrar como existeuna relación en algún sentido lineal ,presente entre las transformaciones probit(Z) en la distribución normal y lasprobabilidades de la variable respuesta, esdecir, la frecuencia relativa con respectodel jefe de hogar pobre en el decilcorrespondiente, podemos ver [GRÁFICOVIII.10] la relación inversa en el estadode pobreza de las transformaciones probity el decil de ingreso, es decir, como amedida que se da un aumento de losdéciles, por ende del nivel de ingreso per
cápita, la probabilidades de ser pobreasociadas al jefe de hogar y sutransformación probit disminuyen.
No debemos olvidar algunas de lasconsideraciones que hicimos al empezareste análisis donde se sostuvo que algunosde los estimadores pueden resultar noútiles cuando manejamos tamaños demuestra bastante grandes, en este sentidoresultaría importante el modelo logit conobservaciones individuales para este tipode condicionamientos, además si no sehubiese procedido a agrupar la muestrapor niveles o valores del estímulo (decilesde ingreso), se podría haber aplicado esteúltimo, y haber obtenido lascuantificaciones de aportes en laprobabilidad de que un jefe de hogar seaclasificado como pobre o no, en función asu nivel de educación, la cantidad de hijosque este tiene, si este accede a luz eléctricadentro de su hogar, etc.
Gráfico VIII.10Tasa de Respuesta
TRA
MSF
OR
MA
CIO
NES
PR
OBI
T
DECILES DE INGRESO
1 21 086420
3
2
1
0
-1
-2
-3
es tado pobrez a
no pobre
pobre
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 73
Centro de Investigación y Desarrollo
ANÁLISIS DEL MODELO SOBRE LAPROBABILIDAD DE POBREZA EN ELJEFE DE HOGAR DEL PERÚ PARA ELAÑO 2001
EL MODELO LOGIT (Observacionesindividuales)Con respecto al cuadro siguiente, se vana analizar 3 modelos, el modelo nº 1, queno incorpora los efectos de diseño de lamuestra, con el objetivo de mostrar enque medida varían la inferencia a nivelpoblacional comparada con los modelosque sí incorporan los factores de expansión,en este caso los modelos nº 2 y nº 3, enel caso del modelo nº 2, se expande lamuestra tomada para construir lametodología (muestra aleatoria de 8233hogares) y en el caso del modelo nº3 setoma el resto de la muestra (8282 hogares)
para medir la validez y confiabilidad de laestimación realizada en la metodología.
La probabilidad de ser un jefe de hogarpobre para el año 2001 [CUADRO VIII.22]vendría a estar fuertemente ligada a laausencia de activos de capital humanocomo el de no tener nivel de educaciónalguno, contribuyendo este a elevar el logitde su probabilidad de ser pobre en un94.7% (MODELO Nº 1), creciendo hastaun 114.8% (MODELO Nº 2) yreduciéndose hasta un 78.5% (MODELON° 3). Resulta interesantísimo y no puedeser dejado de lado por su significancia,ver que ser un jefe de hogar que harecibido su educación en colegio estatalaumenta el logit de su probabilidadalrededor de un 60%, manteniendo elefecto de las demás variables constantes
E P O B RE Co ef. P > z C oe f. P > |t | C oe f. P > | t|
S IN N IV E L 0 .9 47 0.0 00 1.14 8 0 .0 00 0.78 5 0 .001
E DA D -0 .07 0.0 00 - 0.08 3 0 .0 00 - 0.06 8 0 .000
A.R U RA L -0 .996 0.0 00
S IE R R A 0 .8 52 0.0 00
S E L V A 0 .5 73 0.0 00
CO S T A U RB - 0.35 8 0 .0 04 - 0.39 2 0 .001
CO S T A R UR - 1.38 8 0 .0 00 - 1.45 6 0 .000
S IE R R A U R B 0.23 2 0 .0 94
S IE R R A R U R - 0.17 2 0 .2 77 - 0.57 1 0 .000
S E L V A R U R - 0.99 1 0 .0 00 - 1.11 3 0 .000
IN D E X P L AB 0 .0 69 0.0 00 0.07 9 0 .0 00 0.07 0 0 .000
CO L E G E S T A 0 .6 01 0.0 00 0.80 2 0 .0 00 0.50 2 0 .009
O BR E R O 0 .4 44 0.0 00 0.38 6 0 .0 01 0.48 5 0 .000
M E NO S 1 0 0 P E 0 .3 51 0.0 00 0.33 3 0 .0 11 0.23 8 0 .026
O TR O E M P L -0 .223 0.01 - 0.27 9 0 .0 19
IN P E R C AM -0 .011 0.0 00 - 0.00 9 0 .0 00 - 0.01 1 0 .000
M IE P E R H O 0 .5 15 0.0 00 0.53 9 0 .0 00 0.48 2 0 .000
P E T HO G AR -0 .318 0.0 00 - 0.32 2 0 .0 00 - 0.25 0 0 .000
CO N V IV IE N 0 .2 67 0.0 00 0.32 0 0 .0 02 0.11 6 0 .243
S E H IG D V IV -0 .416 0.0 00 - 0.36 9 0 .0 03 - 0.51 5 0 .000
NO S E HIG 0 .2 86 0.0 00 0.31 7 0 .0 10 0.22 3 0 .048
AG U AV IV -0 .139 0.0 00 - 0.23 5 0 .0 23
ALU M K E R O 0 .5 93 0.0 00 0.66 6 0 .0 00 0.63 9 0 .000
E M P V IV I -0 .284 0.0 00 - 0.14 3 0 .1 89
CO N S T 1 .2 36 0.0 00 1.12 7 0 .0 08 1.39 4 0 .000
O bs e rv a c i on e s 81 70 O bs e rv a c io n e s 8 170 O bs e rv a c io n e s 8 20 2
LR ch i-s q u a r e 5 60 4.5 Ta m . P o b la c 29 249 40 Ta m . P o b la c 2 909 895
P ro b > c h i 2 0.0 00 F( 2 1 , 2 5 9 3) 3 8.40 0 F( 1 7 , 2 60 7 ) 49.5 30
S eu do R a jus t 0.4 90 P ro b > F 0 .0 00 P ro b > F 0 .000
CC 8 4.01 0 CC 84 .1 CC 84 .6
S ig n if ica n c ia : 5 %
Fu e n te : E N AH O IV TR I M . 2 00 1 E la b o ra c ió n :C ID E
M O D E LO N ° 1 M O D E LO N° 2 M O D E LO N° 3
Cuadro VIII.22Incidencia en la probabilidad de ser pobre a nivel nacional
74 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
para el primer modelo; en el caso de losmodelos 2 y 3 , aumentan alrededor deun 80% y un 50% respectivamente.Como ya se habrá podido percibir, elposeer coeficientes positivos sobre elmodelo logit de probabilidad beneficia entérminos absolutos a la probabilidad de serpobre comparada con su complementariaen una razón de probabilidades.
En el aspecto de la situación ocupacionalen que se encuentra el jefe de hogar,podemos mencionar que estar encondición de obrero aumenta el logit desu probabilidad de ser pobre entre un 39%y un 49% en los 2 últimos modelosrespectivamente. Una situación muydistinta poseería el jefe de hogar quetendría otra ocupación, donde el efectoen el logit de su probabilidad de ser pobredesciende entre un 22% y un 27% en los2 primeros modelos, manteniendoconstante el efecto del resto de variables,mientras que en el tercero resultaría nosignificativo.
La idea de una reducción del tamaño dela familia para reducir su probabilidad deser pobre es sustentada aquí, en funcióndel hecho de que un aumento demiembros en el hogar estaríacontribuyendo entre un 52% y un 54%en los 2 primeros modelos y en un 48%en el tercer modelo, a elevar el logit desu probabilidad, siempre que se mantengael efecto del resto de variables constantes.
Con respecto a activos públicos a los quepodría acceder el hogar, la no tenencia deacceso a servicios higiénicos en suvivienda, aparte de detectar una condiciónprecaria, provoca un incremento en sulogit de probabilidad de alrededor de un29% y 32% en el primer y segundomodelo respectivamente, en el caso del
tercero, el incremento es de alrededor deun 22%; distinto el panorama y más aúnde seguro en su condición, cuando esteposee conexión a red pública dealcantarillado dentro de su vivienda,reduciendo así su logit en un 41.6%.(MODELO Nº 1), hasta un 36.9%(MODELO Nº 2) y hasta un 51.5%(MODELO N° 3), con lo cual se sigueratificando a la condición de inaccesibilidada servicios públicos como un factor muyimportante dentro de la condición depobreza que puede poseer el jefe dehogar.
Observando la parte estadística el primermodelo presenta estimaciones seudo - R²del 50% y un porcentaje de clasificaciónde 84.01%. En el caso de los modelos 2 y3, al incluir los factores de expansióntratamos con tamaños de población dealrededor de 2`924,940 y 2`909,895hogares, para el primero y segundorespectivamente; el porcentaje de correctaclasificación para estos modelos fluctúaentre un 84.1 (modelo nº2) y un 84.6(modelo nº3).
Debemos hacer hincapié en un aspectoque puede generar discusión en el sentidoteórico estadístico estricto. En el primermodelo existen influencias negativas enla probabilidad, es decir, que si el jefe dehogar pertenece al área rural suprobabilidad de ser pobre decrece en un99.6%, mientras que si este pertenece alas regiones naturales de la sierra y de laselva sus probabilidades aumentanalrededor de un 85% y un 57%. Esteresultado es producido por lamulticolinealidad existente en la relaciónentre región natural y área de residenciadel jefe de hogar, cuya relación fue probadaen la parte de análisis descriptivo[CUADRO VIII.10], Una de las medidas
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 75
Centro de Investigación y Desarrollo
tomadas para contrarrestar este efecto fueel de retirar esas variables y colocar otrasindicadoras que representan a las regionesnaturales y el área de residencia del jefede hogar, vale decir costa urbana. sierrarural, etc, por mencionar algunosejemplos; lo que sucede allí con lasprobabilidades de ser pobre es que estasse reducirían, es decir, que las otrasregiones tienen comportamientosdiferenciadores con respecto a ingresos ygastos, sueldos, salarios, condiciones deacceso muy por debajo de los que sepresentan en Lima. En tal sentido, lascaracterísticas diferenciadoras másespecificas de cada región determinanaplicaciones de modelos inherentes a cadauna.
Dadas las características de estainvestigación metodológica, no se haprofundizado aún más en la generaciónde tales modelos, pues los objetivosbuscados están más orientados hacia laparte de diferenciación de enfoques ymétodos de estimación de los modeloslogit y probit, y más específicamente haciael enfoque de proporciones individualesen estos dos últimos modelos estimados.
EL MODELO PROBIT
De la misma manera que en el modelologit, realizamos la estimación de 3modelos, donde en el primer caso no seemplean los efectos de diseñoprovenientes de la encuesta compleja quees la ENAHO. En el caso de los modelosn° 2 y n° 3, como se mencionó líneasantes, en el primero se trabaja con lamuestra aleatoria con la que se construyóla metodología (8233 hogares) y queconstituye el 50% del total deobservaciones, para que luego dichaestimación sea evaluada en cuanto a
validez y confiabilidad con el resto de casos(8282 hogares), y aplicando en cada unode ellos los factores de ponderacióncorrespondientes.
Siguiendo el enfoque de estimaciónmáximo-verosímil, procedimos a estimarel modelo de probabilidad de un jefe dehogar pobre apoyados en la suposición quela distribución de los errores sigue unadistribución normal debido a la grancantidad de observaciones manejadas.Podemos observar [CUADRO VIII.23],que no tener nivel de educación algunotiene un efecto positivo sobre laprobabilidad de ser un jefe de hogarpobre, aumentando el probit alrededor deun 53% y un 68% en los 2 primerosmodelos y en un 42.3% en el tercero.
Planteamos aquí la misma idea dediscusión del modelo logit, acerca de lamulticolinealidad con respecto al área yregiones naturales de residencia, sobre quémedida asumir, para el caso del modelon°1 sin aplicación de factores de expansión.
La dimensión regional es importante, esdecir, el hecho de vivir en zonas urbanascomo rurales de la costa sierra y selva(modelos n° 2 y n° 3), controlando por elresto de variables (algunas de las cualestratan de enfocarse en la capacidad deconsumo y de generación de ingresos delhogar), estarían reduciendo la probabilidadde ser pobre, pues los ingresos por trabajoserían superiores a los de las otras regionesy el monto de la canasta básica en zonasrurales es tremendamente menor que enzonas urbanas y sobre todo comparadascon la categoría base que sería Lima. Elloestaría explicando por qué el solo hechode vivir en la costa rural, luego de controlarel efecto por el resto de variablesindicadas, reduce el probit de la
76 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
probabilidad en un 83% en el segundomodelo y en un 80.5% en el caso deltercero.
En el caso de la sierra rural se reduciría elprobit de la probabilidad en un 11% y22.4% en el segundo y tercer modelorespectivamente, comparadas siempre conla categoría base que es Lima. Donde seestán apreciando brechas bastante notoriases en la selva rural, que comparadas conLima se estaría reduciendo el probit de suprobabilidad en 60.2% (modelo n° 2) y61.6% (modelo n°3).
Algunos resultados obtenidos en el mismosentido que en el modelo Logitanteriormente estimado recibirían igualinterpretación, como el hecho de destinar
dentro de la vivienda un espacio paraobtener ingresos, reduce el probit de suprobabilidad entre un 18.1% (modelo n°1,sin considerar factor de expansión) y11.7% (modelo n° 2, considerandofactores de expansión), pero que en el casodel tercer modelo resulta siendo nosignificativo. Además se mantiene la ideade que otro empleo para obtener ingresos,reduce su probit de probabilidad en unapequeña medida, alrededor de un 12.2%(modelo n° 1) y 15.6% (modelo n° 2).Nuevamente en el caso del tercer modeloresultaría no significativa.
Queda definitivamente claro que el accesoa activos públicos beneficia al jefe de hogary al hogar en su conjunto en una reducciónde su probabilidad de ser pobre,
E P O B R E C o e f. P > z C o e f. P > |t | C oe f . P > | t |
S IN N IV E L 0 .5 34 0 .000 0 .683 0 .0 00 0 .423 0 .00 2
E DA D -0 .0 45 0 .000 - 0.05 0 0 .0 00 - 0.04 8 0 .00 0
A .R U RA L -0 .5 40 0 .000
S IE R R A 0 .5 00 0 .000
S E L V A 0 .3 07 0 .000
C O S T A U R B - 0 .23 2 0 .0 01 - 0.23 3 0 .00 0
C O S T A R U R - 0 .83 0 0 .0 00 - 0.80 5 0 .00 0
S IE R R A U R B
S IE R R A R U R - 0 .11 1 0 .1 75 - 0.22 4 0 .01 3
S E L V A R U R - 0 .60 2 0 .0 00 - 0.61 6 0 .00 0
IN D E X P L A B 0 .0 43 0 .000 0 .048 0 .0 00 0 .048 0 .00 0
C O L E G E S T A 0 .3 33 0 .001 0 .469 0 .0 00 0 .284 0 .01 0
O B R E R O 0 .2 06 0 .000 0 .178 0 .0 08 0 .250 0 .00 0
M E NO S 1 00 P E 0 .2 43 0 .000 0 .222 0 .0 03 0 .168 0 .00 4
O TR O E M P L -0 .1 22 0 .010 - 0.15 6 0 .0 26
IN P E R C A M -0 .0 05 0 .000 - 0.00 4 0 .0 00 - 0.00 5 0 .00 0
M IE P E R H O 0 .3 04 0 .000 0 .309 0 .0 00 0 .304 0 .00 0
P E T H O G A R -0 .2 00 0 .000 - 0.19 5 0 .0 00 - 0.18 0 0 .00 0
C O N V I V IE N 0 .1 51 0 .001 0 .187 0 .0 02 0 .091 0 .12 1
S E H IG D V IV -0 .2 84 0 .000 - 0.28 2 0 .0 00 - 0.32 8 0 .00 0
N O S E H I G 0 .1 68 0 .001 0 .184 0 .0 09 0 .139 0 .03 1
A G U A V IV -0 .0 73 0 .117 - 0.10 7 0 .0 80
A LU M K E R O 0 .3 57 0 .000 0 .382 0 .0 00 0 .389 0 .00 0
E M P V IV I -0 .1 81 0 .000 - 0.07 9 0 .2 18
C O N S T 0 .5 92 0 .002 0 .595 0 .0 12 0 .590 0 .00 8
O bs e rv a c i on e s 8 170 O b se rv a c i on e s 8 170 O b se r v a c io n e s 820 2
LR ch i-sq u a r e 54 70 .3 Ta m . P o b la c 29 249 40 T am . P o bl ac 2 90 989 5
P ro b > ch i 2 0 .000 F( 20 , 2 5 94 ) 4 5 .38 0 F ( 1 7 , 2 6 07 ) 63 .940
S eu do R a jus t 0 .483 P ro b > F 0 .0 00 P r o b > F 0 .00 0
C C 8 4 .0 C C 83 .4 C C 8 4 .3
S ig n if ic a n c ia : 5%
Fu e n te : E N AH O IV TR IM . 20 0 1 E la b o rac ió n :C ID E
M O D E L O N ª 1 M O D E L O N ª 2 M O D E LO N ª 3
Cuadro VIII.23Incidencia en la probabilidad de ser pobre a nivel nacional
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 77
Centro de Investigación y Desarrollo
reduciéndola en 28.2% (MODELO N° 2)y hasta 32.8% (MODELO N° 3) cuandose tiene acceso a servicios de alcantarilladodentro de vivienda, y un 10.7%(MODELO N° 2) cuando se tieneabastecimiento de agua dentro de lavivienda del hogar, siendo no significativaesta variable en el caso del modelo n° 3.
Según lo anteriormente mostrado, laelección por alguno de los dos modelosconforme al enfoque de estimación deobservaciones individuales no esdiferenciable. Sobre todo si recalcamos laidea que la gran cantidad de observacionestratadas sesgan la idea de la distribución
normal de los errores, podría primar comocriterio para la elección del modelo probitsegún este enfoque.
Desde el punto de vista práctico, laelección del modelo logit y de lacorrespondiente regresión logísticahabilitaría una mayor cantidad deherramientas de control de la bondad deajuste del modelo estimado y por endeuna mejor validación de éste, en tal sentidose propondría como el más idóneo, parael cálculo del modelo de probabilidad deljefe de hogar pobre del Perú, en el año2001.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 79
Centro de Investigación y Desarrollo
IX. CONCLUSIONES
El presenta trabajo de investigación abordalos modelos logit y probit aplicados en lainvestigación social para el caso de lapobreza en el Perú, durante el año 2001,desde la formulación de la condición dela pobreza en el Perú y algunos activospertenecientes a los jefes de hogar y alhogar que pertenece bajo esta condición.Para luego sentar las bases (enfoqueteórico) sobre los cuales se construyó losmodelos y se adaptaron a este caso enparticular; de allí que se puede concluir,desde el punto de vista práctico, queaspectos como el acceso a activos públicosbenefician al desarrollo de activos privadosde los jefes de hogar a través de undecrecimiento en su probabilidad de serpobre. Demás esta confirmar el aumentoen una gran medida sobre la probabilidadde ser pobre cuando el jefe de hogar notiene nivel de educación alguno, etc.
1. Con respecto a la hipótesis quesostiene que los factores de naturalezacuantitativa como el ingreso per cápita,a través de sus deciles de ingreso, etc;ajustarían correctamente un modelopara la probabilidad de pobreza en eljefe de hogar del Perú se rechazaría,en primer lugar, porque expresado através del estadístico de bondad deajuste Pearson X² mostraría dudasacerca de las probabilidades generadas,y por ende no se convertiría en el másidóneo sobre el cual trabajar. Ensegundo lugar, dada la naturaleza delfenómeno de la pobreza en estudio,excluirla de sus factores de naturaleza
cualitativa, los cuales no hacen posiblela viabilidad de este enfoque según losindicadores existentes, resultaríacontraproducente y por tal motivo elmodelo probit con variabledependiente dicotómica con enfoquede proporciones muestrales no es elmás adecuado para la estimación de laprobabilidad de ser pobre del jefe dehogar en función a sus factoresdeterminantes.
2. Con respecto a la hipótesis quesostiene que los factores explicativosde la pobreza de los jefes de hogardel Perú de naturaleza cualitativa ycuantitativa exclusivos del jefe dehogar como el nivel de educación, eltipo de colegio de estudio, la categoríaocupacional, el tamaño de la firmadonde labora, la tenencia de otroempleo, el estado civil, su edad, suindicador de experiencia laboral; encombinación con los factores denaturaleza cualitativa y cuantitativaexclusivos del hogar como el indicadorde si el hogar dedica un espacio delhogar a generación de ingresos, lacantidad de miembros en el hogar, lacantidad de miembros pertenecientesa la PET, el ingreso per cápita mensual,el acceso a activos públicos de agua ydesagüe, etc, no generan modeloscorrectamente ajustados seríarechazada porque, en primer lugar, lasprobabilidades de correcta clasificaciónpara los modelos estimados seencuentran alrededor del 84% en el
80 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
modelo logit y en el modelo probit,ambos con enfoque de observacionesindividuales. En segundo lugar, laobtención de efectos significativos enlos factores de naturaleza cualitativa ycuantitativa mencionados líneas antesy exclusivos al jefe y al hogar, a travésde las estimaciones de sus respectivosestadísticos de Wald y significancias
obtenidas, en el caso del modelo logit,y de sus respectivos efectos en latransformación probit, en el caso delmodelo del mismo nombre, viabilizanuna explicación del fenómeno de lapobreza en función a los determinantesantes mencionados.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 81
Centro de Investigación y Desarrollo
X. RECOMENDACIONES
• Si se estuviese interesado en el análisisprobit con variable dependientedicotómica desde el enfoque deproporciones para el estudio de lapobreza bajo ciertos factores como elnivel de educación, el área deprocedencia, acceso a ciertos tipos deactivos públicos deberían en primerlugar reducirse las cantidades deobservaciones a estudiar para no afectara los estimadores, y en segundo lugar,tratar de generar variables-estímulos(cruce de variables explicativas) quepuedan seguir un enfoque cuasi-cuantitativo, de tal manera de que sepueda determinar la medida de cambioexacto en la obtención de la condiciónde pobreza. En tal sentido y dada lalimitación de este enfoque, se puedepasar al estudio de niveles másavanzados, como los modelos probitcon variable dependiente ordinal omodelos con enfoques multinomiales.
• Si además de intentar obtener aportesde variables explicativas, estáintentando predecir un modelo declasificación idóneo a sus criterios, elmodelo logit ampliamente difundidoaporta una mayor variedad de
herramientas de validación de labondad de ajuste del modelo y nodejaría de lado su funcióndiscriminadora, beneficiosa en estecaso en el que la variable dependienteposee solo dos categorías.
• Si bien no ha sido empíricamentemostrado en esta investigación, sugierola inclusión de una mayor cantidad devariables de naturaleza cuantitativa enmodelos probit con enfoque deobservaciones individuales, pues sonvariables más idóneas a ser sometidasa pruebas de normalidad y análisis máscomplejos; además porque suparticipación en bloques nos permitiríaobtener cambios exactos a los cualesresponderían los jefes de hogarpobres. No deben dejar deconsiderarse las variables de naturalezacualitativa, pues son fundamentalespara la explicación de fenómenossociales y podrían plantearseindicadores más idóneos para captar loscambios de naturaleza cualitativa de losindividuos, y no solo expresarse enpresencia o ausencia de factores deriesgo.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 83
Centro de Investigación y Desarrollo
XI. BIBILIOGRAFÍA
- �CATEGORICAL DATA ANALYSIS�,Agresti, Alan.Florida, Wiley, 1990.
- �ESTADÍSTICA MULTIVARIANTE ENLAS CIENCIAS DE LA VIDA�.Carrasco, José Luis; Hernán, MiguelAngel.CIBEST. España, Editorial Ciencia, 1993.
- �MÁS ALLÁ DE LA FOCALIZACIÓN,RIESGOS DE LA LUCHA CONTRA LAPOBREZA EN EL PERÚ�Chacaltana J., Juan.PERÚ, Consorcio de InvestigaciónEconómica y Social, 2001.
- �IMPACTO DE LOS SERVICIOSPÚBLICOS DE SALUD SOBRE LAPRODUCTIVIDAD Y LA POBREZA�,Cortez Valdivia, Rafael.Lima, INEI, 2000.
- �BIOESTADÍSTICA�.Díaz, Gabriela; Gunther, Bruno.Chile, Mediterráneo, 1994.
- �LOS ACTIVOS DE LOS POBRES ENEL PERÚ�.Escobal, Javier; Saavedra, Jaime;Torero, Máximo.Lima, GRADE. 1998.
- �EL ANÁLISIS DE DATOS ENMÉTODO DE SELECCIÓNDICOTÓMICA DE LA VARIABLECONTINGENTE�,Fasciolo, Graciela.Mendoza, 1997.
- �ANÁLISIS ECONOMÉTRICO�.Green, William H.Prentice Hall. 1998.
- �ECONOMETRÍA�,Gujarati, Damodár N.Colombia, McGraw-HILL, 1997
- �METODOLOGÍA DE LAINVESTIGACIÓN�.Hernández, Roberto; Fernández,Carlos; Baptista, Pilar.México. McGraw Hill, 1994.
- �MÉTODOS MULTIVARIADOSAPLICADOS AL ANÁLISIS DEDATOS�.Johnson,México, ITP, 2000.
- �ESTUDIO SOBRE DETERMINANTESDEL ACCESO A LOS SERVICIOS DESALUD EN EL PERÚ�,Lama More, Antonio.Lima, INEI, 2000.
- �LIMITED-DEPENDENT ANDQUALITATIVE VARIABLES INECONOMETRICS�.Maddala G. S.New York, Cambridge University Press,1996.
- �SPSS ADVANCE STATISTICS�,Majira J. Norusis.Chicago, SPSS Inc, 1994
84 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
- �METODOLOGÍA, GUÍA PARAELABORAR DISEÑOS DEINVESTIGACIÓN EN CIENCIASECONÓMICAS, CONTABLES YADMINISTRATIVAS�,Méndez Alvarez, Carlos.Colombia, Editorial McGraw -HILL.,1995.
- �MULTIVARIATE ANALYSIS:SOCIOLOGY 203�,Department of Sociology, University ofCalifornia, Riverside.
- �EVALUACIÓN DE LOS PROGRAMASDE COMPLEMENTACIÓNALIMENTARIA, GASTO ENALIMENTOS Y CONDICIONES DEVIDA EN EL PERÚ EN EL PERÍODO1998-1999�,Navarro Levano, José Carlos.Lima, INEI, 2001.
- �EL RETO 2001, COMPETIR Y CREAREMPLEO�,Ortiz de Zevallos, Felipe yKuczynski, Pedro Pablo.Lima, El Comercio, 2001.
- �LA POBREZA EN ARGENTINA: UNACOMPARACIÓN ENTRE REGIONESDISÍMILES, BUENOS AIRES, 2DAREUNIÓN ANUAL SOBRE POBREZAY DISTRIBUCIÓN DEL INGRESO-LACEA/BID/BM/�Paz, Jorge A.Universidad Torcuato Ditella, 2001.
- �POBREZA Y ECONOMÍA SOCIAL -ANÁLISIS DE UNA ENCUESTA ENNIV-1997.LA EDUCACIÓN Y LAPROBABILIDAD DE SER POBRE EN ELPERÚ DE HOY, LA APLICACIÓN DEUN MODELO PROBIT DE MÁXIMAVEROSIMILITUD�,Shack Yalta, Nelson Eduardo.Perú, DESA, 1999.
- �ANÁLISIS ESTADÍSTICO CON SPSSPARA WINDOWS�.Visauta Vinacua, B.España, Mc Graw Hill, 1998.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 85
Centro de Investigación y Desarrollo
XII. Anexos
ANEXO 1. Informe metodológico
ANEXO 2. Indices de ecuaciones, cuadros y gráficos
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 87
Centro de Investigación y Desarrollo
ANEXO 1 INFORME METODOLÓGICO
Fuentes de información utilizada.
Para cumplir con los objetivos de lainvestigación se tomó en consideración lainformación de la ENCUESTA NACIONALDE HOGARES 2001 - IV TRIMESTRE, aquímencionamos algunas de suscaracterísticas, que son de importanciarelevante para nuestra investigación y quenos permitiron comprobar algunas ideasreferentes a los factores determinantes dela pobreza en el Perú, y como estosbeneficiarían o afectarían, los criterios deutilización de modelos logit y probit. Paradicho propósito se analizarán variablesrelacionadas con el Jefe de Hogar, en susaspectos sociodemográficos y de inserciónocupacional.
Como sabemos, el fenómeno de lapobreza no afecta solo a los jefes de hogar, esta trae consigo una afectación alconjunto familiar, por lo tanto usar solocomo unidad de análisis al individuo y noconsiderar al hogar, puede llevar asignificativos sesgos sobrestimados alrespecto, pero que constituye un puntode partida fundamental en razón alcomportamiento de la sociedad yespecíficamente de la familia peruana, ydel rol que este juega dentro y sobre eldesarrollo de su hogar, además de teneren cuenta que estamos desarrollando unainvestigación que devela una metodologíasobre los modelos mencionadosanteriormente.
POBLACIÓN OBJETIVO: Fueron lasviviendas particulares y sus residenteshabituales (miembros permanentes delhogar), excluyéndose a los residentes en
viviendas colectivas (hoteles, cárceles,asilos, etc).
MARCO DE LA MUESTRA: La muestra esprobabilística, de áreas, estratificada,multietápica e independiente en cadadepartamento.
La muestra es probabilística porque lasunidades han sido seleccionadas mediantemétodos al azar, lo cual permite efectuarinferencias a la población en base a la teoríade probabilidades.
La muestra es de áreas, porque laprobabilidad de la población de serseleccionada, está asociada a áreasgeográficas.
La muestra es estratificada, porquepreviamente a la selección, la poblaciónse ha dividido en estratos, con el objetode mejorar su representatividad.
En la primera y segunda etapa se utiliza laselección sistemática con probabilidadproporcional al tamaño (PPT) de viviendas.
En la última etapa (selección de lasviviendas) la selección es sistemática simplecon arranque aleatorio.
COBERTURA GEOGRAFICA:Nacional, Urbana y Rural (24departamentos y la Provincia Constitucionaldel Callao).
TAMAÑO DE MUESTRA: El tamañototal de la muestra en el ámbito nacionales de 18,863 viviendas particulares, dentrode los cuales tomamos a 16515 Jefes deHogar y sus respectivos hogares.
88 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
METODOLOGÍA PARA LA INCLUSIÓNDE VARIABLES EN LA ESTIMACIÓN DEMODELO LOGIT DE POBREZA
En primer lugar se emplea un modelosemiautomático de selección de variables(Forward Stepwise Wald).
Block 0: Beginning Block
En el paso 0 se cuenta con un modeloconfigurado solo por el término
independiente. Sobre el se estudiará laadición o no de las demás variables, conun nivel de significación tanto de entradadel 0.05 y de salida 0.10. En [CUADROA.1] de historia de iteración obtenemosun -2 Log likelihood = 11325.900resultante de su función de verosimilitudy un valor para la constante de -0.008.
11325.900 -.008Iteration
1Step 0
-2 Loglikelihood Constant
Coefficients
Constant is included in the model.a.
Initial -2 Log Likelihood: 11325.900b.
Estimation terminated at iteration number 1 becauselog-likelihood decreased by less than .010 percent.
c.
A partir de aquí se debe comparar el valorque se obtenga en -2 Log likelihood enlos modelos con las nuevas variablesincluídas, de tal manera, que contrastemosla hipótesis nula de que el modelo sincovariables (factores de riesgo de pobreza),es tan bueno como el modelo que lascontiene. La importancia del modelo y delconjunto de variables significativas esvalidado posteriormente con el test decoeficientes del modelo (Ómnibus Test forModel Coefficients), [CUADRO A.6] en
este caso, que rechaza o no dichahipótesis.
El modelo con la constante posee una tablade clasificación del 50.2%, esto quieredecirnos que solo la constante, ya estaclasificando como pobres a 5 de cada 10,apreciable en el [CUADRO A.2]. Pero elvalor asignado al coeficiente de laconstante es de -0.008, el cual no poseeefecto significativo alguno, pues susignificancia es de 0.723 [CUADRO A.3].
Cuadro A.1 Iteration History a,b,c
4101 0 100.04069 0 .0
50.2
Observedno pobre
pobre
estado pobreza01
Overall Percentage
Step 0no pobre pobre
estado pobreza01 PercentageCorrect
Predicted
Constant is included in the model.a.
The cut value is .500b.
Cuadro A.2 Classification Table a,b
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 89
Centro de Investigación y Desarrollo
También viene acompañado de su errorestándar y el c² de Wald, que prueba eneste caso la significancia individual que enesta caso particular no se da; además demostrar el Odds Ratio (´Razón de
probabilidades´), que será fundamental enla determinación de la cantidad de vecesque un jefe de hogar puede ser más pobrecon respecto a no serlo respecto de lapresencia o no de un factor.
Cuadro A.3 Variables in the Equation
-.008 .022 .125 1 .723 .992ConstantStep 0B S.E. Wald df Sig. Exp(B)
Antes de terminar este paso y proceder alsiguiente, observemos [CUADRO A.4], serealiza un análisis de las variables todavíafuera de la ecuación a través de su p-valoro significancia, que indica la importanciarelativa que cada una de ellas tendría encaso de entrar al modelo descrito. Seseleccionará, entre las variables aquellacuya significancia se encuentre bajo elnivel 0.05, tomando también en
consideración su score, en este nuestrocaso, sería DSHDV CON P =0.000, esdecir la variable indicadora sobreabastecimiento de red de alcantarilladodentro de la vivienda.
Así finaliza el paso 0 del Forward Stepwisede Wald que se ha limitado a estudiar elmodelo de partida.
Cuadro A.4 Variables not in the Equation a
188.492 1 .000
55.014 1 .000
223.726 1 .000
.152 1 .697
15.617 1 .000
836.127 1 .000
.371 1 .542
50.785 1 .000
446.997 1 .000
8.833 1 .003
.075 1 .785
31.997 1 .000
528.833 1 .000
21.192 1 .000
860.534 1 .000
819.967 1 .000
33.780 1 .000
180.384 1 .000
1307.200 1 .000
674.480 1 .000
669.772 1 .000
1114.157 1 .000
57.575 1 .000
DSINNIV
P208A
DCOURB
DCORU
DSIEUR
DSIERU
DSELUR
DSELRU
DLIUR
EXPER1
DCOLEGIO
DOBRERO
DME100
DOEMP
INPERCAM
MIEPERHO
PETHOGAR
DCONVI
DSHDV
DSHNO
DAGUDV
P1122
P115
VariablesStep0
Score df Sig.
Residual Chi-Squares are not computed because of redundancies.a.
90 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
Block 1: Method = Forward Stepwise(Wald)
PASO 1: Variable ingresada DSHDV
Al ingresar la variable indicadora sobreabastecimiento de alcantarillado dentro dela vivienda, vemos que obtenemos un -2Log likelihood = 9973.258, ver[CUADRO A.5], obtenido este de la
función de máxima versosimilitud, menorcon respecto al modelo solo con constante(11325.900), además tenemos un Cox &Snell-R² de 0.153 y un valor de Nagelker0.203 que nos indica el grado devariabilidad explicada por el modelo, enesta caso demasiado baja, y que por eselado podemos seguir intentando buscar unmodelo más ideoneo.
Cuadro A.5 Model Summary
9973.258 .153 .203
5683.192 .499 .665
Step1
20
-2 Loglikelihood
Cox & SnellR Square
NagelkerkeR Square
Se observa en el [CUADRO A.6] siguiente(Test Omnibus) o prueba de loscoeficientes del modelo, que arrojaefectos significativos sobre el ingreso dedicha variable y por lo tanto rechazamosla hipótesis nula de que el modelo sólocon la constante es igual de bueno que el
modelo con la constante y DSHDV (tipode acceso a alcantarillado), esto en funciónde la chi-square obtenida que es de1352.641 es mayor comparada con aquellachi-square (1 g.l., 5%)=3.84, en talsentido el modelo obtenido hasta esemomento es el más adecuado.
Cuadro A.6 Omnibus Test of Model Coefficients
1352.641 1 .000
1352.641 1 .0001352.641 1 .000
4.126 1 .042
5642.707 20 .0005642.707 20 .000
Step
BlockModel
Step
BlockModel
Step 1
Step 20
Chi-square df Sig.
El modelo estimado sería: Ln (p/1-p)= ß0
+ ß1*DSHDV = 0.668 - 1.753*DSHDV,apreciable en el [CUADRO A.9], dondeya apreciamos que el tener conexión a red
pública de alcantarillado dentro de lavivienda produce un efecto negativo sobreel logit de la probabilidad de ser pobre.
21.938 8 .005
525.158 8 .000
Step2
20
Chi-square df Sig.
Cuadro A.7 Hosmer and Lemeshow Test
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 91
Centro de Investigación y Desarrollo
Si bien el Test de Hosmer y Lemershow[CUADRO A.7] deberían ser atentididosen el siguiente paso que incluye unanueva variable, este no será tratado envirtud de que el resto de procedimientosson similares en cada iteración, por esosolo nos detendremos aquí a afirmar quefrente a un valor de chi-squeare de 21.938y una significación 0.005 esta última se vareduciendo a medida que se vanaumentando más variables en el modelo.La comparación se hace respecto a unachi-square (8 g.l., 5%)=15.51 obtenidode tabla de aquí el test rechaza la hipótesisde nulidad.
Volviendo al paso 1 encontramos que estemodelo ya tiene un porcentaje declasificación general del 69.5% obtenidode su tabla [CUADRO A.8], de aquí mismola subclasificación hecha para la condiciónde pobreza de los jefes de hogar pobresobtiene un 79.8% de subclasificación.
Con respecto a los estimadores de loscoeficientes tenemos que el término
independiente 0.688 y el coeficiente delacceso a red pública de alcantarilladodentro de la vivienda -1.753 formulan elmodelo de probabilidad de pobreza[CUADRO A.9], el cual por alguna de lasrazones de índole estadística y empíricase queda corto al intentar brindarexplicaciones del fenómeno en suconjunto y proceder al análisis de lossiguientes pasos de iteración.
De la misma manera que en el paso 0, seanalizan las variables que están fuera delmodelo en este paso (1), antes deproceder al siguiente [CUADRO A.10],viendo su significancia (p-valor < 0.005),para su ingreso al modelo y además suscore, en tal sentido algunas de lascandidatas a ingresar serán MIEPERHO (0.000, 962.249), INPERCAM (0.000,561.907), P1122 (0.000, 393.466), perocomo es evidente de la ingresante en elsiguiente paso será el total de miembrosen el hogar (MIEPERHO).
Cuadro A.8 Classification Table a
2436 1665 59.4
823 3246 79.8
69.5
3400 701 82.9
519 3550 87.2
85.1
Observedno pobre
pobre
estado pobreza01
Overall Percentage
no pobre
pobre
estado pobreza01
Overall Percentage
Step 1
Step 20
no pobre pobre
estado pobreza01 PercentageCorrect
Predicted
The cut value is .500a.
El mismo análisis se realiza en cada unode los siguientes pasos de iteración, ental sentido, para ser una lectura másdinámica se presenta el primer paso deiteración y el último donde se detiene laestimación del modelo.
PASO 20: Variable ingresada DAGUDVLa variable ingresante en este paso, ver[CUADRO A.9], es si el tipo deabastecimiento de agua en la vivienda esa través de red pública. Las hipótesis acercade la validación de un adecuado modelo
92 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
frente a uno que no contiene factoressignificativos es fácil de verificar en el TestÓmnibus, ver [CUADRO A.7], y quepermite aceptar este último como mejormodelo frente a aquel que solo contieneel término constante.
Confirmada la idea anterior se puederedondear esta, es decir, confirmar elhecho de que nos encontramos frente aun modelo con un desajuste menor,además de obtener un grado declasificación general de alrededor del 85%,ver [CUADRO A.8] .
Este será el último paso ha realizarse en laestimación del modelo de probabilidad deser jefe de hogar pobre. Primero dejandoen claro que no es el único y definitivosobre el cual trabajar para estructurar
explicaciones de este fenómenomultidimensional, esto desde el punto devista empírico y porque además debemosde dejar en claro que si bien nosaproximamos en una buena medida a larealidad con la herramienta estadística estano resulta ser determinante y menosreemplazante de esta.
Segundo, que desde el punto de vistaestadístico, ninguna de las variablesrestantes tiene una significación adecuadapara ingresar al modelo [CUADRO A.10],en tal sentido, la estimación es detenida,y se empiezan a realizar los análisismostrados en capítulos anteriores en elmismo sentido de haber ingresado laprimera variable, pues este ha sido unproceso continuo durante toda la iteración.
MODELOS EN CADA PASO DE ITERACIÓN
Cuadro A.9 Variables in the Equation
-1.753 .050 1212.252 1 .000 .173 .157 .191
.668 .030 490.482 1 .000 1.950
.911 .231 15.548 1 .000 2.488 1.582 3.913
-.072 .011 41.221 1 .000 .931 .910 .951
-1.189 .167 50.439 1 .000 .304 .219 .423
.570 .098 33.642 1 .000 1.768 1.459 2.144
.899 .121 55.483 1 .000 2.458 1.940 3.114
-.807 .125 41.844 1 .000 .446 .349 .570
.070 .010 49.495 1 .000 1.072 1.051 1.093
.584 .189 9.540 1 .002 1.793 1.238 2.598
.451 .092 23.940 1 .000 1.570 1.311 1.881
.324 .095 11.606 1 .001 1.383 1.148 1.666
-.226 .085 7.090 1 .008 .798 .675 .942
-.011 .000 876.865 1 .000 .989 .988 .990
.517 .031 283.825 1 .000 1.677 1.579 1.781
-.313 .040 60.764 1 .000 .731 .676 .791
.269 .080 11.274 1 .001 1.308 1.118 1.530
-.388 .093 17.414 1 .000 .678 .565 .814
.270 .089 9.281 1 .002 1.310 1.101 1.558
-.168 .082 4.137 1 .042 .846 .719 .994
.627 .092 46.847 1 .000 1.873 1.565 2.241
.288 .083 11.916 1 .001 1.334 1.133 1.571
.761 .379 4.035 1 .045 2.141
DSHDV
Constant
Step1
a
DSINNIV
P208A
DCORU
DSIEUR
DSELUR
DSELRU
EXPER1
DCOLEGIO
DOBRERO
DME100
DOEMP
INPERCAM
MIEPERHO
PETHOGAR
DCONVI
DSHDV
DSHNO
DAGUDV
P1122
P115
Constant
Step20
t
B S.E. Wald df Sig. Exp(B) Lower Upper
95.0% C.I.for EXP(B)
Variable(s) entered on step 1: DSHDV.a.
Variable(s) entered on step 20: DAGUDV.t.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 93
Centro de Investigación y Desarrollo
VARIABLES EXCLUIDAS EN CADA PASO DE ITERACIÓN
Cuadro A.10 Variables not in the Equation
69.683 1 .000
13.868 1 .00029.125 1 .00039.325 1 .000
.985 1 .321259.136 1 .000
.699 1 .4031.023 1 .312
125.821 1 .000
8.835 1 .003.090 1 .764
13.894 1 .000206.545 1 .000
3.052 1 .081
561.907 1 .000962.249 1 .000
158.062 1 .00079.704 1 .000
107.207 1 .000
33.928 1 .000393.466 1 .000
16.562 1 .000
1.150 1 .283.005 1 .942
1.496 1 .221
DSINNIV
P208ADCOURB
DCORUDSIEURDSIERU
DSELURDSELRU
DLIUREXPER1DCOLEGIO
DOBRERODME100
DOEMPINPERCAMMIEPERHO
PETHOGARDCONVIDSHNO
DAGUDVP1122
P115
VariablesStep1
DCOURBDSIERU
DLIUR
VariablesStep20
Score df Sig.
Residual Chi-Squares are not computed because of redundancies.a.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 95
Centro de Investigación y Desarrollo
ANEXO 2INDICES DE ECUACIONES, CUADROS Y GRAFICOS
INDICE DE ECUACIONES
CAPÍTULO IV
ECUACIÓN IV.1 Indicadores de Pobreza (Foster-Greer-Thordecke)ECUACIÓN IV.2 Función de Distribución BinomialECUACIÓN IV.3 Probabilidad de ser pobre del jefe de hogar en función a una FDA.ECUACIÓN IV.4 Modelo de regresión lineal asociado a una FDAECUACIÓN IV.5 Modelo de probabilidad linealECUACIÓN IV.6 Heterocedasticidad del modelo lineal de probabilidad.ECUACIÓN IV.7 Probabilidad de poseer una condición o presencia de fenómeno
asociada a una FDAECUACIÓN IV.8 Probabilidad asociada a la Función de Distribución LogísticaECUACIÓN IV.9 Transformación de la probabilidad de FDA LogísticaECUACIÓN IV.10 Probabilidad del evento complementario, Y=0, o ausencia de la
condición o fenómeno.ECUACIÓN IV.11 Razón de Probabilidades (`Odds ratio´)ECUACIÓN IV.12 Modelo Logit. Logaritmo de la razón de probabilidades en función
a factores explicativos y sus aportes.ECUACIÓN IV.13 Probabilidad asociada a la FDA Normal.ECUACIÓN IV.14 Probabilidad del evento en función a una FDA normal y su
representación matemática.ECUACIÓN IV.15 Índice imperfecto de convenienciaECUACIÓN IV.16 Probabilidad asociada al índice imperfecto de conveniencia y una
FDA Normal.ECUACIÓN IV.17 Linealidad del modelo probitECUACIÓN IV.18 Efectos marginales asociados a una FDA.ECUACIÓN IV.19 Efectos marginales para la Función de Distribución NormalECUACIÓN IV.20 Derivadas parciales respecto de los coeficientes de los factores en
la FDA Logística.ECUACIÓN IV.21 Efecto marginal para la FDA LogísticaECUACIÓN IV.22 Diferencia de beneficio-coste con una var. Observable
CAPÍTULO VI
ECUACIÓN VI.1 Probabilidad conjunta de un modelo de probabilidad .ECUACIÓN VI.2 Reformulación de la función de verosimilitud.ECUACIÓN VI.3 Condiciones de primer orden del problema de maximización.
96 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
ECUACIÓN VI.4 Heterocedasticidad de los errores en el enfoque de proporcionesmuestrales
ECUACIÓN VI.5 Condiciones necesarias de optimalidad de los coeficientes bECUACIÓN VI.6 Vector gradiente de la función de verosimilitudECUACIÓN VI.7 Matriz de información en función de la matriz Hessiana.ECUACIÓN VI.8 Método Scoring para estimación de Máxima Verosimilitud.ECUACIÓN VI.9 Transformación de la variable dependiente Xij en el modelo probitECUACIÓN VI.10 Transformación de la variable dependiente Yi en el modelo probit.ECUACIÓN VI.11 Logaritmo de la verosimilitud de "n" observaciones en el modelo
logitECUACIÓN VI.12 Vector gradiente de la verosimilitud en el modelo logitECUACIÓN VI.13 Matriz de información del modelo logit.ECUACIÓN VI.14 Transformación de la variable dependiente Xi en el modelo logit.ECUACIÓN VI.15 Transformación de la variable dependiente Yi en el modelo logit
CAPÍTULO VIII
ECUACIÓN VIII.1 Probabilidad del jefe de hogar pobre con FDA Logística.ECUACIÓN VIII.2 Estimación del modelo Logit de probabilidad en función de sus
factores explicativos.ECUACIÓN VIII.3 Análisis de un caso particular de jefe de hogar para el modelo
logit.ECUACIÓN VIII.4 Probabilidad asociada al jefe de hogar con un caso específico.ECUACIÓN VIII.5 Logit de la probabilidad de ser pobre frente a no ser pobre de
acuerdo a sus factores explicativos.ECUACIÓN VIII.6 Ecuación de regresión en términos de Odds Ratios (´Razones de
probabilidad`)ECUACIÓN VIII.7 Residual estandarizadoECUACIÓN VIII.8 Deviance de observaciones en presencia de pobreza.ECUACIÓN VIII.9 Deviance de observaciones en ausencia de pobreza.ECUACIÓN VIII.10 Logit residual del modelo de prob. de los jefes de hogar.ECUACIÓN VIII.11 Medida de influencia de cada observación.ECUACIÓN VIII.12 Cambio en el primer coeficiente al retirar la observación "i".
INDICE DE CUADROS
CAPÍTULO VIII
CUADRO VIII.1 Perfil del jefe de hogar según nivel educativo y estado de pobrezaCUADRO VIII.2 Test Chi-cuadrado (X2) de independencia entre el nivel educativo
y el estado de pobreza.CUADRO VIII.3 Cuadro de medidas simétricas sobre el grado de relación entre el
nivel educativo y el estado de pobreza.
LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL · 97
Centro de Investigación y Desarrollo
CUADRO VIII.4 Perfil del jefe de hogar según género y estado civil en condiciónde pobreza.
CUADRO VIII.5 Test Chi-cuadrado (X2) de independencia entre el género y elestado civil en condición de pobreza del jefe de hogar.
CUADRO VIII.6 Cuadro de medidas simétricas sobre el grado de relación entre elgénero y el estado civil del jefe de hogar pobre.
CUADRO VIII.7 Perfil del jefe de hogar según género y estado civil en condiciónde no pobreza.
CUADRO VIII.8 Test Chi-cuadrado (X2) de independencia entre el género y elestado civil en condición de no pobreza del jefe de hogar.
CUADRO VIII.9 Cuadro de medidas simétricas sobre el grado de relación entre elgénero y el estado civil del jefe de hogar no pobre.
CUADRO VIII.10 Perfil del jefe de hogar según área y región natural en estado depobreza
CUADRO VIII.11 Test Chi-cuadrado (X2) de independencia entre el área y la regiónnatural en condición de no pobreza del jefe de hogar.
CUADRO VIII.12 Cuadro de medidas simétricas sobre el grado de relación entre elárea y la región natural en estado de pobreza del jefe de hogar.
CUADRO VIII.13 Cuadro de los años de estudios del jefe de hogar según condiciónde pobreza
CUADRO VIII.14 Prueba de Levene para la igualdad de varianzas y diferencia demedias en los años de estudios por condición de pobreza.
CUADRO VIII.15 Cuadro de factores explicativos de la pobreza de los jefes de hogaren el modelo logit con enfoque de observaciones individuales.
CUADRO VIII.16 Tabla de correcta clasificación de Jefes de hogar.CUADRO VIII.17 Historia de IteracionesCUADRO VIII.18 Cuadro de estadísticos de bondad de ajuste del modeloCUADRO VIII.19 Cuadro de evaluación de los coeficientes del modelo.CUADRO VIII.20 Frecuencia de jefes de hogar según deciles de ingreso y jefes de
hogar pobres en cada decil de ingreso para el modelo probit conenfoque de proporciones muestrales.
CUADRO VIII.21 Frecuencias observadas y esperadas de los jefes de hogar en basea modelo probit estimado.
CUADRO VIII.22 Incidencia en la probabilidad de ser pobre a nivel nacional del jefede hogar según el modelo logit con enfoque de observacionesindividuales.
CUADRO VIII.23 Incidencia en la probabilidad de ser pobre a nivel nacional del jefede hogar según el modelo probit con enfoque de observacionesindividuales.
ANEXO
CUADRO A.1 Historia de iteración en el paso 0.CUADRO A.2 Tabla de clasificación en el paso 0.CUADRO A.3 Cuadro de variables incluidas en el paso 0 (solo cte.)
98 · LOS MODELOS LOGIT Y PROBIT EN LA INVESTIGACION SOCIAL
Centro de Investigación y Desarrollo
CUADRO A.4 Cuadro de variables excluidas en el paso 0.CUADRO A.5 Cuadro de resumen de modelos en los 1 y 20.CUADRO A.6 Cuadro de evaluación de los coeficientes de los modelos generados
en el paso 1 y el paso 20.CUADRO A.7 Cuadro de prueba de Hosmer y Lemershow en las iteraciones o
pasos 1 y 20.CUADRO A.8 Tablas de correcta clasificación de los modelos generados en los
pasos 1 y 20.CUADRO A.9 Cuadro de variables incluidas en cada paso de iteración.CUADRO A.10 Cuadro de variables excluidas en cada paso de iteración.
INDICE DE GRÁFICOS
CAPÍTULO IV
GRÁFICO IV.1 Gráfica de los límites de probabilidad asociado a la presencia delevento.
GRÁFICO IV.2 Gráfica de región asociada a su probabilidad y en función al índiceimperfecto o de utilidad.
GRÁFICO IV.3 Gráfica de comparación de la FDA Logística y Normal.GRÁFICO IV.4 Decisión de compra en base al consumidor
CAPÍTULO VIII
GRÁFICO VIII.1 Gráfica del perfil del nivel educativo según estado de pobreza deljefe de hogar
GRÁFICO VIII.2 Gráfica del perfil del jefe de hogar según género y estado civil encondición de no pobreza.
GRÁFICO VIII.3 Gráfica del perfil del jefe de hogar según género y estado civil encondición de pobreza.
GRÁFICO VIII.4 Gráfica del perfil del jefe de hogar según área y región natural encondición de pobreza.
GRÁFICO VIII.5 Gráfica de la tendencia del promedio de años de estudios del jefede hogar según estado de pobreza.
GRÁFICO VIII.6 Gráfica de distribución normal y desviaciones respecto de ladistribución normal de las Deviances obtenidas para cada JH.
GRÁFICO VIII.7 Gráfica de residuales estandarizados según observaciones.GRÁFICO VIII.8 Gráfica de Leverages obtenidos según observaciones.GRÁFICO VIII.9 Gráfica de la influencia de observaciones sobre el coeficiente del
indicador sinnivel (sin nivel de educaión).GRÁFICO VIII.10 Gráfica de transformaciones probit según deciles de ingreso