universidad nacional de ingenierÍaacreditacion.uni.edu.pe/wp-content/uploads/2017/05/...de akaike...
TRANSCRIPT
1
Efectos del truncamiento y censura de la variable dependiente en los modelos de regresión multinivel de 2 etapas
Design of a Two-Stage Multilevel Regression Model with Truncation and Censoring of the Dependents Variables
TÌTULO DE TESIS
Huanca Huamaní Milagros Luz
Asesor:
LIMA, 2016
UNIVERSIDAD NACIONAL DE INGENIERÍA FACULTAD DE INGENIERÍA ECONÓMICA, ESTADÍSTICA Y CCSS.
ESCUELA PROFESIONAL DE INGENIERÍA ESTADÍSTICA
Ejecutor:
Luis Sánchez
2
DEDICATORIA
Dedico esta tesis al Señor Dios por darme fortaleza en el día a día para poder
culminar satisfactoriamente lo que empiezo y ánimo a no quedarme en el mismo
lugar sino avanzar porque la superación es agradable para él.
Les dedico esta tesis también a mis padres Daniel Huanca Barriga y Gloria
Huamaní Choquichanca por animarme a seguir adelante y apoyarme en las
decisiones que tomo.
3
AGRADECIMIENTOS
Agradezco a mis profesores Richard Fernández por animarnos y empujarnos a la
realización de la tesis en el curso Taller de Tesis. Con sus consejos y disciplina, el
avance de la tesis fue bueno.
Así mismo agradezco al profesor Luis Sánchez quien no dudó en apoyarme como
guía en la elaboración de la presente tesis.
Finalmente, quiero agradecer a mi amigo Manuel Valdivia por sus consejos de
cómo organizarme con los tiempos y apoyo constante.
4
RESUMEN
Se ha demostrado que los datos truncados y censurados afectan la
estimación de los parámetros por MCO en los modelos de regresión lineal(Zuehlke
& Kassekert, 2008). También se sabe que los modelos multinivel constituyen la
metodología de análisis más adecuada para tratar datos “jerarquizados” o
“anidados” (Murillo, 2008). Los modelos multinivel son considerados ampliaciones
de los modelos de regresión lineal clásicos.
Lo que se hizo en esta investigación es estudiar el efecto marginal de la
variable dependiente truncadas y censuradas en los modelos de regresión
multinivel de 2 etapas en los siguientes criterios: criterio de información de Akaike
(AIC), criterio de información de Akaike corregido (AICC) y criterio de información
de Akaike consistente (CAIC) en los modelos de regresión multinivel de 2 etapas.
Esto bajo el esquema de 2 escenarios: En el primer escenario se trabajó con una
muestra de 200 registros y diferentes proporciones de censura y truncamiento
como son 10, 20 𝑦𝑦 30%. Esto teniendo en cuenta que se considera una censura
alta desde el 20%. En el segundo escenario, se fijó una proporción de censura y
truncamiento del 10% para diferentes tamaños muestrales como son 50, 200 y
600 registros.
Se concluyó que el hecho de que la variable dependiente se encuentra
censurada o truncada tiene efectos (en diferencias porcentuales) sobre los
criterios de información Akaike (AIC), criterios de información de Akaike corregido
(AICC) y criterios de información de Akaike consistente (CAIC) pues estos valores
tienden a disminuir hasta 12% en el caso de truncamiento y aumentar hasta 190%
en el caso de censura.
5
Índice CAPÍTULO I ....................................................................................................................................... 1
ANTECEDENTES ............................................................................................................................ 1
1.1. Investigaciones ................................................................................................................. 1
1.2. Aspectos generales .......................................................................................................... 4
CAPÍTULO II ..................................................................................................................................... 7
PLANTEAMIENTO DEL PROBLEMA ........................................................................................... 7
2.1. Descripción del problema .................................................................................................... 7
2.2. Formulación del problema ................................................................................................... 8
2.2.1. Problema general .......................................................................................................... 8
2.2.2. Problemas específicos .................................................................................................. 8
2.3. Objetivos ................................................................................................................................ 9
2.3.1. Objetivo general ............................................................................................................. 9
2.2.2. Objetivos específicos .................................................................................................... 9
2.4. Hipótesis ............................................................................................................................... 10
2.4.1. Hipótesis general ......................................................................................................... 10
2.4.2. Hipótesis específicas .................................................................................................. 10
2.5. Justificación ......................................................................................................................... 11
2.6. Matriz de Consistencia ....................................................................................................... 12
CAPÍTULO III .................................................................................................................................. 13
MARCO TEÓRICO ......................................................................................................................... 13
3.1. Técnicas a usar ................................................................................................................... 13
3.1.1. Modelo de regresión multinivel .................................................................................. 13
3.2.2. Datos censurados y truncados .................................................................................. 30
3.3. Terminología básica ........................................................................................................... 32
CAPÍTULO IV .................................................................................................................................. 34
METODOLOGÍA ............................................................................................................................. 34
4.1. Población en estudio .......................................................................................................... 34
4.2. Fuentes de información ..................................................................................................... 35
4.3. Definición de variables ....................................................................................................... 35
4.4. Procedimientos estadísticos ............................................................................................. 36
CAPÍTULO V ................................................................................................................................... 37
6
RESULTADOS ................................................................................................................................ 37
5.1. Análisis descriptivo de las variables ................................................................................ 37
5.1.1. Análisis descriptivo del escenario 1 .......................................................................... 37
5.1.2. Análisis descriptivo del escenario 2 .......................................................................... 40
5.2. Análisis de indicadores del modelo ...................................................................................... 43
5.2.1. Análisis indicadores del escenario 1 ........................................................................ 43
5.2.2. Análisis indicadores del escenario 2 ........................................................................ 46
CONCLUSIONES ........................................................................................................................... 51
RECOMENDACIONES.................................................................................................................. 53
COSTEO Y PRESUPUESTO ....................................................................................................... 54
DIAGRAMA DE GANTT ................................................................................................................ 55
REFERENCIAS BIBLIOGRÁFICAS ............................................................................................ 56
ANEXOS .......................................................................................................................................... 57
1
CAPÍTULO I
ANTECEDENTES
1.1. Investigaciones
• Los modelos multinivel como herramienta para la investigación educativa(Murillo, 2008)
En el artículo presentado por Murillo en el año 2008 se pretende realizar una
introducción a los modelos de regresión multinivel haciendo una aplicación en la
investigación educativa de carácter cuantitativo. Así, se presenta, en primer lugar,
un análisis de los fundamentos de los modelos multinivel en donde se declara que
la principal característica de los modelos multinivel es que aportan un entorno
natural dentro del cual se pueden comparar teorías sobre relaciones estructurales
entre variables en cada uno de los niveles en los que se organizan los datos. En
segundo lugar, se analiza el proceso de modelaje detalladamente, y se finaliza
reflexionando sobre de las aportaciones y utilidades de esta metodología de
análisis dentro de las cuales se destaca la identificación de patrones y el
reconocimiento de grupos específicos de alumnos con fracaso escolar que
necesitan estudios intensivos.
2
• Modelos censurados, truncados y con selección muestral(Álvarez, 2008)
Los objetivos de esta publicación son mostrar la diferencia entre muestras
truncadas y censuradas, explicar por qué la estimación por MCO de un modelo
lineal es sesgada e inconsistente en tales circunstancias y proponer métodos para
estimar muestras en las que la variable dependiente es continua pero limitada
(bien por censura o truncamiento).La solución a este problema es plantear un
modelo híbrido que utilice la especificación PROBIT para investigar por qué
algunas observaciones toman valor 0 y otras no y, para aquellas observaciones
tales que Y* > 0, un modelo de regresión que nos cuantifique la relación.El modelo
TOBIT recoge esos dos aspectos.
• A comparative study of MLwiN, HLM, SPSS and Stata (Martinez, 2014)
Hoy en día contamos con diferentes programas estadísticos para la
estimación de los Modelos Multinivel, o Modelos Jerárquicos. En este artículo se
realiza una comparación entre los cuatro programas más utilizados para ello, el
MLwiN, el HLM, el SPSS y el Stata. La estrategia de análisis es hacer una
ejemplificación de su uso y, a partir de la misma, describir sus ventajas y
limitaciones en el desarrollo de los Modelos Multinivel. Los resultados revelan que,
aunque esencialmente muestran los mismos resultados, existen diferencias en
torno a la cantidad de niveles de análisis que soportan, el tratamiento de los
residuos, o el método de estimación de los componentes de la varianza asignado
por defecto. Con todo ello, el investigador podrá guiar sus pasos en el desarrollo
de los Modelos Multinivel y tomar una decisión fundamentada en torno a qué
programa utilizar en función de las necesidades propias de su estudio.
• Multilevel models applications to the analysis of longitudinal data (García de Yébenes, Zunzunequi, Mathieu , Rodríguez Lazo, & Otero, 2002)
Este trabajo es una introducción al análisis de medidas repetidas en estudios
longitudinales. Se utiliza un marco analítico con dos etapas, ajustando modelos
jerárquicos lineales con dos niveles. El primer nivel corresponde a la ocasión
(tiempo) de medida y el segundo al individuo.
3
Estos modelos estadísticos proceden de las ciencias sociales, en las que se
han utilizado durante más de 25 años para analizar datos en organizaciones con
múltiples niveles. Su aplicación permite estudiar los cambios en alguna
característica de interés (estado de salud o factor de riesgo) y analizar las
circunstancias que explican la variabilidad en las trayectorias individuales. En este
trabajo se introducen los conceptos básicos de este método: variabilidad entre
individuos y dentro de cada individuo a lo largo del tiempo, modelo del nivel
individual para describir la trayectoria de cada individuo y modelo «entre
individuos» para describir cómo cambian las trayectorias entre individuos, efectos
fijos y efectos aleatorios, modelos decrecimiento lineal y cuadrático. Para ello se
ha realizado un análisis de los cambios en la función cognitiva de una cohorte de
personas mayores, el estudio «Envejecer en Leganés», seguida cada dos años,
entre 1993 y 1999. Se presentan los resultados de modelos ajustados para
resolver las preguntas de investigación más frecuentes en la descripción y el
análisis de las trayectorias de cambio individual. Por último, se comentan posibles
generalizaciones de estos modelos lineales jerárquicos a situaciones en las que la
variable de interés no es continua, como es el caso de las variables dependientes
dicotómicas, nominales u ordinales.
Las variables independientes utilizadas en este estudio han sido la edad, el
sexo y el nivel de instrucción (analfabetos, sin escolarización, primaria incompleta
y primaria completa).
• A Mixed Model Approach for Intent-to-Treat Analysis in Longitudinal Clinical Trials with Missing Values (Hrishikesh & Hong , 2009)
El principal problema que se plantea con la falta de datos es que la
distribución de los datos observados no puede ser la misma que la distribución de
los datos completos.
Algunos valores perdidos pueden estar o no relacionados con las respuestas
observadas. Little & Rubin (1987) clasificaron los mecanismos de los valores
perdidos como por completo al azar (MCAR), perdidos al azar (MAR),y no
4
perdidos al azar (NMAR). MCAR es una condición en la que los valores que faltan
son al azar distribuido a través de todas las observaciones. MAR es una condición
en la que los valores que faltan no son al azar distribuido a través de todas las
observaciones, pero son al azar distribuido en una o más submuestras. Bajo
MCAR y MAR, los mecanismos de datos faltantes son a menudo referido como
"ignorables"; por el contrario, la falta mecanismo de datos NMAR se refiere a
menudo como "no ignorable".
En este informe, se lleva a cabo una investigación detallada de estudios de
simulación para desarrollar recomendaciones para análisis ITT de longitudinal
ensayo clínico controlado datos con valores perdidos. Se comparan los estimados,
los tamaños (errores de tipo I), y el poder entre varios enfoques temáticos y del
modelo mixto lineal general enfoque (GLMM) para diferentes proporciones de
valores faltantes.
1.2. Aspectos generales
1.2.1. Historia de los modelos de regresión multinivel
El análisis multinivel es una técnica relativamente nueva estadística en
investigación en ciencias sociales, aunque sus raíces se remontan a los estudios
sociológicos clásicos, en especial estudio del suicidio de Durkheim. Durkheim
buscó las causas del suicidio, un fenómeno muy personal e individual, en los
contextos sociales del individuo. El análisis multinivel puede ser visto como una
forma moderna de hacer frente a cuestiones de investigación relativos a cómo los
resultados a nivel individual pueden verse como el resultado de la interacción
entre factores individuales y contextuales.
El primer paso para el análisis multinivel moderna fue el aumento
del contexto de análisis en los EE.UU. en la década de 1940. El análisis contextual
se introdujo como una crítica del micro-perspectiva dominante en la sociología
americana. El análisis contextual se hizo más establecido en la década de 1960,
las técnicas estadísticas se hicieron más sofisticadas y se avanzó conceptual. Los
5
conceptos de proposiciones contextuales, tipología de variables por niveles y de
los efectos estructurales fueron las contribuciones más influyentes.
Alrededor de 1970, el análisis contextual fue muy criticado por Robert
Hauser. Mantuvo que la mayoría de supuestos de efectos contextuales carecían
de sustancia y eran artefactos de modelos a nivel individual inadecuadamente
especificados. En cambio, de los "efectos contextuales" se agruparon los efectos
individuales. Hauser utiliza la falacia contextual término para describir este
fenómeno.
Desde finales de la década de 1970, los pasos cruciales en el desarrollo de
análisis multinivel se llevaron a cabo en la investigación de la escuela. Los datos
sobre educación, principalmente habían sido analizados a nivel individual,
haciendo caso omiso de las escuelas. Un paso innovador fue analizar cada
escuela por separado. La variable dependiente podría ser una variable de
resultado, tales como la puntuación en una prueba de matemáticas con las
variables explicativas a nivel individual, como el sexo y el nivel socioeconómico de
los padres. La estimación de modelos de regresión idénticos para cada escuela
produciría un conjunto de intersecciones y los coeficientes de regresión que
podrían mostrar variación sistemática por las escuelas. Esto llevó a la
aproximación de esquí-como-resultados. Las pendientes (coeficientes de
regresión) fueron consideradas como variables dependientes en un análisis a nivel
de la escuela, con las variables explicativas a nivel escolar. Este enfoque puede
ser visto como un diseño de regresión múltiple de dos etapas.
En la década de 1980, se han desarrollado varias variaciones de los modelos
multinivel para evitar los problemas estadísticos del diseño de dos etapas. En
Chicago, un grupo de investigadores ha desarrollado el software HLM para la
estimación simultánea de "modelos lineales jerárquicos 'con dos niveles. En
Londres, otros grupos de investigadores educativos desarrollaron otro programa
de software para el análisis multinivel, ahora conocido como MLwiN.
En la investigación de encuesta tradicional, el individuo se ve a menudo al
margen de sus contextos, mientras que la investigación cualitativa hace hincapié
6
en la contextualización. El análisis multinivel puede ser visto como una
herramienta para la contextualización análisis estadístico cuantitativo. En muchos
campos de la investigación, los procesos que han de estudiarse involucran a dos o
más niveles de análisis. El aprendizaje tiene lugar en las escuelas y que no le
parece bien hacer caso omiso de este hecho en el estudio de los resultados del
aprendizaje. Otro ejemplo es el del campo de la salud pública, donde la famosa
hipótesis de Wilkinson implica que la desigualdad del ingreso en una comunidad
puede influir en la salud de los habitantes. Un tercer ejemplo es el estudio de
determinación de los salarios, donde los salarios de los empleados pueden ser
vistos como depende de la rentabilidad de la empresa, así como en el capital
humano de los empleados. En estos ejemplos, preguntas de investigación surgen
de una combinación de teorías a nivel individual y contextual.
7
CAPÍTULO II
PLANTEAMIENTO DEL PROBLEMA
2.1. Descripción del problema
Se ha demostrado que los datos truncados y censurados afectan la
estimación de los parámetros por MCO en los modelos de regresión lineal.
También se sabe que los modelos multinivel constituyen la metodología de
análisis más adecuada para tratar datos “jerarquizados” o “anidados” (por ejemplo,
los estudiantes en aulas, o las aulas en escuelas). Así, además de mejorar la
calidad de los resultados, posibilita realizar análisis novedosos, tales como estimar
la aportación de cada nivel de análisis o las interacciones entre variables de
distintos niveles. Los modelos multinivel son, en esencia, ampliaciones de los
modelos de regresión lineal clásicos; ampliaciones mediante las cuales se
elaboran varios modelos de regresión para cada nivel de análisis. Lo que se hizo
en esta investigación es estudiar el efecto marginal de las variables truncadas y
censuradas en los modelos de regresión multinivel de 2 etapas en los siguientes
8
criterios: criterio de información de Akaike corregido (AICC), criterio de información
de Akaike consistente (CAIC) y R2 en los modelos de regresión multinivel de 2
etapas.
2.2. Formulación del problema
2.2.1. Problema general
• ¿Qué tanto afecta (variaciones porcentuales) la variable dependiente
truncada y censurada en los siguientes indicadores: criterio de información de
Akaike (AIC), criterio de información de Akaike corregido (AICC) y criterio de
información de Akaike consistente (CAIC) en los modelos de regresión multinivel
de 2 etapas?
2.2.2. Problemas específicos
• ¿Qué tanto afecta (variaciones porcentuales) la variable dependiente
truncada en los siguientes indicadores: criterio de información de Akaike (AIC),
criterio de información de Akaike corregido (AICC) y criterio de información de
Akaike consistente (CAIC) en los modelos de regresión multinivel de 2 etapas?
• ¿Qué tanto afecta (variaciones porcentuales) la variable dependiente
censurada en los siguientes indicadores: criterio de información de Akaike (AIC),
criterio de información de Akaike corregido (AICC) y criterio de información de
Akaike consistente (CAIC) en los modelos de regresión multinivel de 2 etapas?
9
2.3. Objetivos
2.3.1. Objetivo general
• Determinar el efecto (variaciones porcentuales) del truncamiento y censura
de la variable dependiente en los siguientes indicadores: criterio de información de
Akaike (AIC), criterio de información de Akaike corregido (AICC) y criterio de
información de Akaike consistente (CAIC) en los modelos de regresión multinivel
de 2 etapas.
2.2.2. Objetivos específicos
• Determinar el efecto marginal (variaciones porcentuales) de la variable
dependiente truncada (sólo sobre observaciones no censuradas) en los siguientes
indicadores: criterio de información de Akaike (AIC), criterio de información de
Akaike corregido (AICC) y criterio de información de Akaike consistente (CAIC) en
los modelos de regresión multinivel de 2 etapas.
• Determinar el efecto marginal (variaciones porcentuales) de la variable
dependiente censurada (sobre observaciones censuradas y no censuradas) en los
siguientes indicadores: criterio de información de Akaike (AIC), criterio de
información de Akaike corregido (AICC) y criterio de información de Akaike
consistente (CAIC) en los modelos de regresión multinivel de 2 etapas.
10
2.4. Hipótesis
2.4.1. Hipótesis general
• La variable dependiente truncada y censurada afecta en más del 50% los
siguientes indicadores: criterio de información de Akaike corregido (AICC), criterio
de información de Akaike consistente (CAIC) y R2 en los modelos de regresión
multinivel de 2 etapas la estimación de parámetros y correlación intraclase en los
modelos de regresión multinivel de 2 etapas.
2.4.2. Hipótesis específicas
• La variable dependiente truncada (sólo sobre observaciones no
censuradas) afecta significativamente en los siguientes indicadores: criterio de
información de Akaike corregido (AICC), criterio de información de Akaike
consistente (CAIC) y R2del modelo completo en los modelos de regresión
multinivel de 2 etapas con una variación porcentual mayor al 50% con respecto a
los indicadores obtenidos con la base de datos completa.
• La variable dependiente censurada (sobre observaciones censuradas y no
censuradas) afecta significativamente en los siguientes indicadores: criterio de
información de Akaike corregido (AICC), criterio de información de Akaike
consistente (CAIC) y R2del modelo completo en los modelos de regresión
multinivel de 2 etapas con una variación porcentual mayor al 50% con respecto a
los indicadores obtenidos con la base de datos completa.
11
2.5. Justificación
Los modelos de regresión multinivel son muy utilizados en el campo de la
educación. Aitkin y Longford (1986) propusieron los modelos de regresión
multinivel que han marcado la investigación educativa, pues estos reconocen y
manejan la organización jerárquica de los sistemas educativos (estudiantes en
aula, aulas en escuelas, escuelas en países) y ofrecen resultados con una menor
incidencia de los errores de estimación (p.ej. Goldstein, 2003; Raudenbush&Bryk,
2002). Sin embargo, poco se ha estudiado el efecto que pueden traer tanto los
datos censurados como los truncados en las estimaciones. Por lo tanto, esta
investigación beneficiará grandemente a los investigadores en el área educativa.
No solo a los ministerios de educación que realizan investigación sino también a
otras entidades como por ejemplo la Organización de las Naciones Unidas para la
Educación, la Ciencia y la Cultura bajo el marco de acción de Dakar (2000-2015)
que monitorea el avance de la educación mundial; por lo tanto, los datos
censurados y truncados en una estructura jerárquica no son ajenos a los estudios
que realizan.
Las variables truncadas y censuradas han sido medianamente estudiadas en
los modelos de regresión lineal; sin embargo, los modelos de regresión multinivel,
que pueden ser considerados como ampliaciones de los modelos de regresión
lineal clásicos (F. Javier Murillo Torrecilla, Director de la Revista Iberoamericana
de Evaluación Educativa, Agosto 2008) no han sido estudiados a profundidad aun
cuando la variable dependiente está sujeta a censura o truncamiento. Por ende, se
considera que estudiar los efectos que este tipo de casos en la variable
dependiente traen en indicadores como criterio de información de Akaike corregido
(AICC), criterio de información de Akaike consistente (CAIC) y R2de los modelos
de regresión multinivel de 2 etapas puede llenar un pequeño vacío en el
conocimiento de la estadística con respecto a los modelos multinivel.
Los resultados presentados en la investigación son obtenidos bajo la
simulación de datos aleatorios en diversos tamaños muestrales y bloques; por
12
ende, se considera que sus conclusiones pueden ser generalizadas a casos ya
expuestos.
2.6. Matriz de Consistencia
CUADRO Nº 2.1. MATRIZ DE CONSISTENCIA
ELABORACIÓN: PROPIA FECHA: Octubre 2016
PROBLEMA OBJETIVOS HIPÓTESISPROBLEMA GENERAL OBJETIVO GENERAL HIPÓTESIS GENERAL
· ¿Qué tanto afecta la variable dependiente
truncada y censurada en los siguientes indicadores:
criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2 en los modelos de
regresión multinivel de 2 etapas?
· Determinar el efecto del truncamiento y censura de la variable dependiente en los
siguientes indicadores: criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2 en los modelos de
regresión multinivel de 2 etapas.
· La variable dependiente truncada y censurada afecta
en más del 50% los siguientes indicadores:
criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2 en los modelos de
regresión multinivel de 2 etapas la estimación de parámetros y correlación
intraclase en los modelos de regresión multinivel de 2
etapas.
PROBLEMAS Í
OBJETIVOS Í
HIPÓTESISS Í· ¿Qué tanto afecta
(variaciones porcentuales) la variable dependiente
truncada en los siguientes indicadores: criterio de información de Akaike
corregido (AICC), criterio de información de Akaike
consistente (CAIC) y R2 en los modelos de regresión multinivel de 2 etapas?
· Determinar el efecto marginal de la variable
dependiente truncada (sólo sobre observaciones no
censuradas) en los siguientes indicadores:
criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2en los modelos de
regresión multinivel de 2 etapas.
· La variable dependiente truncada (sólo sobre
observaciones no censuradas) afecta
significativamente en los siguientes indicadores:
criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2 del modelo completo en los modelos de regresión multinivel de 2 etapas con una variación porcentual
mayor al 50% con respecto a los indicadores obtenidos
con la base de datos completa.
· ¿Qué tanto afecta (variaciones porcentuales)
la variable dependiente censurada en los siguientes
indicadores: criterio de información de Akaike
corregido (AICC), criterio de información de Akaike
consistente (CAIC) y R2 en los modelos de regresión multinivel de 2 etapas?
· Determinar el efecto marginal de la variable dependiente censurada (sobre observaciones
censuradas y no censuradas) en los
siguientes indicadores: criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2en los modelos de
regresión multinivel de 2 etapas.
· La variable dependiente censurada (sobre
observaciones censuradas y no censuradas) afecta
significativamente en los siguientes indicadores:
criterio de información de Akaike corregido (AICC), criterio de información de
Akaike consistente (CAIC) y R2del modelo completo en los modelos de regresión multinivel de 2 etapascon una variación porcentual
mayor al 50% con respecto a los indicadores obtenidos
con la base de datos completa.
Los modelos de regresión multinivel son muy utilizados
en el campo de la educación. Aitkin y Longford
(1986) propusieron los modelos de regresión
multinivel que han marcado la investigación educativa,
pues estos reconocen y manejan la organización
jerárquica de los sistemas educati-vos (estudiantes en
aula, aulas en escuelas, escuelas en países) y
ofrecen resultados con una menor incidencia de los
errores de estimación (p.ej. Goldstein, 2003;
Raudenbush & Bryk, 2002). Sin embargo, poco se ha estudiado el efecto que
pueden traer tanto los datos censurados como los
truncados en las estimaciones. Por lo tanto,
esta investigación beneficiará grandemente a
los investigadores en el área educativa. No solo a
los ministerios de educación que realizan investigación
sino también a otras entidades como por ejemplo
la Organización de las Naciones Unidas para la Educación, la Ciencia y la Cultura bajo el marco de acción de Dakar (2000-2015) que monitorea el avance de la educación mundial; por lo tanto, los
datos censurados y truncados en una estructura jerárquica no son ajenos a los estudios que realizan.
JUSTIFICACIÓN
13
CAPÍTULO III
MARCO TEÓRICO
3.1. Técnicas a usar
3.1.1. Modelo de regresión multinivel
A) Definiciones
A1) Modelo de regresión multinivel
El modelo de regresión multinivel se ha hecho conocido en la literatura de los
investigadores bajo una variedad de nombres, tales como Modelo de coeficientes
aleatorios dado por Leeuw & Kreft, 1986; Longford 1993, Modelo de componentes
de varianza dado por Longford 1986, Modelos lineales jerárquicos dado por
Raudenbush & Bryk en 1986, 1992.
El modelo de regresión multinivel completo asume que hay un conjunto de
datos jerárquicos, con una sola variable dependiente que es medida en el nivel
más bajo y variables explicativas que existen en todos los niveles.
Conceptualmente el modelo puede ser visto como un sistema jerárquico de
ecuaciones de regresión. Los modelos de regresión multinivel son, en esencia,
14
ampliaciones de los modelos de regresión lineal clásicos; ampliaciones mediante
las cuales se elaboran varios modelos de regresión para cada nivel de
análisis(Murillo, 2008). Con ello los modelos del primer nivel están relacionados
por un modelo de segundo nivel en el que los coeficientes de regresión del nivel 1
se regresan en un segundo nivel de variables explicativas, y así sucesivamente
para los diferentes niveles.
Un problema multinivel concierne a una población con estructura jerárquica.
Una muestra de tal población puede ser descrita como una muestra multicéntrica
(De la Cruz, 2008): primero tomamos una muestra de unidades del más alto nivel
(por ejemplo, hospitales), y luego muestreamos las subunidades de las unidades
disponibles (pacientes dentro de los hospitales). En tales muestras, las
observaciones individuales no son completamente independientes. Por ejemplo,
los pacientes en el mismo hospital tienden a ser similares entre sí, ya que pueden
proceder de las mismas áreas geográficas y por tanto coincidir en varios aspectos.
Como un resultado, la correlación promedio (expresada en la llamada correlación
intraclase) entre las variables medidas en los pacientes del mismo hospital será
más alto que la correlación promedio de las variables medidas en los pacientes de
los diferentes hospitales. Las pruebas estadísticas estándar se inclinan
fuertemente en la suposición de independencia de las observaciones. Si esta
suposición es violada (y en los datos multinivel esto es usualmente el caso) los
estimadores de los errores estándares de las pruebas estadísticas convencionales
son mucho más pequeñas, y estos resultados son falsamente significativos(De la
Cruz, 2008).
El modelo de regresión multinivel completo asume que hay un conjunto de
datos jerárquicos, con una sola variable dependiente que es medida en el nivel
más bajo y variables explicativas que existen en todos los niveles.
Conceptualmente el modelo puede ser visto como un sistema jerárquico de
ecuaciones de regresión.
En la parte del análisis, nos podemos encontrar con un conjunto de
problemas conceptuales. Si el análisis no es muy cuidadoso en la interpretación
15
de los resultados, podemos cometer la falacia del error del nivel, el cual consiste
en analizar los datos en un nivel, y extraer conclusiones de otro nivel.
Probablemente la falacia mejor conocida es la falacia ecológica, ésta pretende
deducir relaciones para los individuos o nivel 1, cuando los resultados
contextuales o nivel 2 no reproducen necesariamente al nivel individual. Existe
otro tipo de falacia llamada falacia atomista, la cual propone las mismas
asociaciones encontradas a nivel individual o nivel 1 como relaciones a nivel
contextual o nivel 2.
Antes de profundizar mínimamente en el desarrollo formal de los modelos
multinivel vamos a prestar atención a conceptos fundamentales y sus
implicaciones: correlación intraclase, coeficiente fijo, coeficiente aleatorio, e
interacción internivel.
A2) Problemas que resuelven los modelos de regresión multinivel
Manejan la falta de independencia (Journal of Epidemiology, Community
Health, 2001)
• Estimación MCO ineficiente
• Significaciones espurias (ej. 10 pacientes, a cada uno le medimos
mensualmente durante 12 meses).
Evitan falacias por interpretar efectos a nivel equivocado (Journal of
Epidemiology, Community Health, 2001)
• Ecológica (interpretar datos agregados a nivel individual)
• Atomística (interpretar datos individuales a nivel agregado)
Estiman el efecto de las variables “explicativas” (efectos fijos) de ambos
niveles, incluyendo interacciones entre niveles (Chakraborty H, 2009)
16
Estiman qué parte de la variabilidad no “explicada” (efectos aleatorios) es
imputable a cada nivel (Chakraborty H, 2009)
A3) Correlación intraclase
Se entiende por correlación intraclase o autocorrelación la medida del grado
de dependencia de los individuos. Es decir, es una estimación de lo que
comparten, por ejemplo, los alumnos por estudiar en una misma clase o centro.
Una correlación baja o cercana a cero significará que los sujetos dentro del mismo
grupo son tan diferentes entre sí como los que pertenecen a otros grupos. En ese
caso, la agrupación no tiene consecuencias, los grupos no son homogéneos
internamente y las observaciones son independientes (requisito necesario dentro
de los modelos lineales tradicionales). Si se ignora la presencia de esta
correlación intraclase, los modelos resultantes son innecesaria y falsamente
complejos, dado que aparecen relaciones significativas inexistentes.(Murillo, 2008)
A4) Coeficiente fijo
En los modelos de regresión clásicos los parámetros que se estiman son el
intercepto (o punto de corte) y las pendientes. Desde una perspectiva clásica,
estos coeficientes se asumen como fijos, es decir, comunes a todos los sujetos y
son estimados a partir de los datos.(Murillo, 2008).
En los modelos multinivel se permite a los grupos desviarse de la solución
central o global, tanto en el intercepto como en la pendiente. O, lo que es lo
mismo, los modelos multinivel están compuestos por dos partes, una general,
común a todos los contextos, que es la llamada parte fija, y otra que representa lo
específico de cada contexto, que varía y que se estima a través de la varianza en
los distintos niveles.(Murillo, 2008)
17
A5) Coeficiente aleatorio
En los modelos multinivel como unidades (agrupamientos) que definen los
niveles, son vistos como efectos aleatorios, de esta forma, como muestras
aleatorias de una población de estas unidades (como escuelas, centros de salud,
domicilios, etc.). Estos efectos aleatorios se traducen en un modelo de
coeficientes aleatorios que van a tomar en cuenta la variabilidad entre
agrupamientos, desde formas simples, a través de variabilidad a nivel del
intercepto, o de formas más complejas, a través de variabilidades a niveles de
inclinaciones de dos rectas.(De la Cruz, 2008).
A6) Interacción internivel
La interacción internivel o la interacción entre variables que están medidas
en diferentes niveles de una estructura jerárquica de datos. Ello hace referencia a
la interacción que puede haber entre variables de diferentes niveles, por ejemplo,
determinada metodología docente puede ser mejor con ciertos estudiantes (el
llamado efecto Aptitude TreatmentInteraction-ATI), o un estilo directivo con
profesores de determinadas características. La comprobación de este tipo de
hipótesis necesita un modelo de análisis que no sólo dé cuenta de la estructura
jerárquica de los datos, sino que también permita estimar las interacciones
interniveles. (Murillo, 2008).
B) Procedimiento Formal del Modelo de regresión de 2 niveles
Como se ha señalado, los modelos multinivel son, en esencia, ampliaciones
de los modelos de regresión lineal clásicos, de tal forma que en realidad son
varios modelos lineales para cada nivel. Así, los modelos del primer nivel están
relacionados con uno de segundo nivel en el que los coeficientes de regresión del
nivel 1 se regresan en un segundo nivel de variables explicativas y así
sucesivamente para los diferentes niveles.
18
A continuación, se presenta una ecuación de regresión lineal sencilla con dos
variables independientes:
𝑦𝑦𝑖𝑖 = 𝛽𝛽0 + 𝛽𝛽1𝑥𝑥1𝑖𝑖 + 𝛽𝛽2𝑥𝑥2𝑖𝑖 + 𝜀𝜀𝑖𝑖
Si se permite que el intercepto pueda tomar diferentes valores en función de
un segundo nivel, la ecuación quedará:
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑖𝑖 + 𝛽𝛽1𝑥𝑥1𝑖𝑖𝑖𝑖 + 𝛽𝛽2𝑥𝑥2𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖𝑖𝑖
𝛽𝛽0𝑖𝑖 = 𝛽𝛽0 + µ0𝑖𝑖
Donde:
𝑦𝑦𝑖𝑖𝑖𝑖es la variable respuesta que tiene un alumno i en una escuela j
𝜀𝜀𝑖𝑖𝑖𝑖es el error y se distribuye normalmente con una varianza constante e igual a
𝜎𝜎𝑒𝑒02 ,
𝛽𝛽0𝑖𝑖es el promedio de𝑦𝑦de la escuela j-ésima
𝛽𝛽0representa el “gran promedio” de 𝑦𝑦 para la población, y
µ0𝑖𝑖es el efecto aleatorio asociado a la escuela j-ésima y se supone que tiene
media cero y una varianza 𝜎𝜎µ02 .
µ0𝑖𝑖~𝑁𝑁(0,𝜎𝜎µ02 ), 𝜀𝜀𝑖𝑖𝑖𝑖~𝑁𝑁(0,𝜎𝜎𝑒𝑒02 )
Covµ0𝑖𝑖, 𝜀𝜀𝑖𝑖𝑖𝑖 = 0
Cov𝑦𝑦𝑖𝑖1𝑖𝑖,𝑦𝑦𝑖𝑖2𝑖𝑖/𝑥𝑥𝑖𝑖𝑖𝑖 = 𝜎𝜎µ02 ≥ 0
Donde𝑖𝑖1, 𝑖𝑖2 son dos alumnos en la misma escuela j con, en general, una
covarianza positiva entre las respuestas. Esta ausencia de independencia,
partiendo de estos dos orígenes de variación en diferentes niveles de los datos
jerárquicos (alumnos y escuelas) contradice la suposición del modelo lineal
tradicional y nos conduce a considerar una nueva clase de modelos.
19
Si, además de hacer variar el intercepto, permitimos que las pendientes sean
diferentes para cada escuela, tenemos la siguiente ecuación:
Nivel 1: 𝛽𝛽0𝑖𝑖 + 𝛽𝛽1j𝑥𝑥1𝑖𝑖𝑖𝑖 + 𝛽𝛽2j𝑥𝑥2𝑖𝑖𝑖𝑖 + 𝜀𝜀𝑖𝑖𝑖𝑖
Nivel 2:𝛽𝛽0𝑖𝑖 = 𝛽𝛽0 + µ0𝑖𝑖;𝛽𝛽1𝑖𝑖 = 𝛽𝛽1 + µ1𝑖𝑖;𝛽𝛽2𝑖𝑖 = 𝛽𝛽2 + µ2𝑖𝑖
Con
µ0𝑖𝑖µ1𝑖𝑖µ2𝑖𝑖
~𝑁𝑁0,Ωµ ∶ Ωµ = 𝜎𝜎µ02
𝜎𝜎µ102 𝜎𝜎µ12
𝜎𝜎µ202 𝜎𝜎µ212 𝜎𝜎µ22
𝑒𝑒0𝑖𝑖𝑖𝑖~𝑁𝑁(0,Ω𝑒𝑒) ∶ Ω𝑒𝑒 = [𝜎𝜎e02 ]
B1) Modelo nulo
El modelo nulo o modelo vacío es el punto de partida del proceso modelado.
Contiene únicamente una variable respuesta y la constante (o intercepto o punto
de corte), es decir, ninguna variable predictora. De esta forma, el modelo posee
efectos aleatorios en los dos niveles y no incluye variables explicativas en ninguno
de ellos. El modelo nulo se establece como línea de base para la estimación de la
varianza explicada a partir de la cual se van evaluando las aportaciones de
modelos más elaborados.
Para el caso de modelo con dos niveles, la ecuación sería:
Nivel 1:𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑖𝑖 + 𝜀𝜀𝑖𝑖𝑖𝑖 (1)
Donde:
𝑦𝑦𝑖𝑖𝑖𝑖es la variable respuesta que tiene un alumno i en una escuela j
20
𝜀𝜀𝑖𝑖𝑖𝑖es el error y se distribuye normalmente con una varianza constante e igual a
𝜎𝜎𝑒𝑒02 ,
𝛽𝛽0𝑖𝑖es el promedio de 𝑦𝑦 de la escuela j-ésima.
Es decir, 𝛽𝛽0𝑖𝑖 = µy𝑖𝑖
Nivel 2: 𝛽𝛽0𝑖𝑖 = 𝛽𝛽0 + µ0𝑖𝑖 (2)
Donde:
𝛽𝛽0representa el “gran promedio” de 𝑦𝑦 para la población
µ0𝑖𝑖es el efecto aleatorio asociado a la escuela j-ésima y se supone que tiene
media cero y una varianza 𝜎𝜎µ02 .
Entonces,𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0 + µ0𝑖𝑖 + 𝜀𝜀𝑖𝑖𝑖𝑖 (3)
El modelo de la ecuación (3) no explica alguna varianza, sólo descompone la
varianza en dos componentes independientes: 𝜎𝜎𝑒𝑒02 , el cual es la varianza del error
del más bajo nivel 𝜀𝜀𝑖𝑖𝑖𝑖, y 𝜎𝜎µ02 , la varianza del error del nivel más alto µ𝑖𝑖. Usando
este modelo podemos estimar la correlación intra clase ρpor la ecuación:
𝜌𝜌 = 𝜎𝜎µ02 (𝜎𝜎µ02 + 𝜎𝜎𝑒𝑒02 ) (4)
La correlación intraclase ρ es un estimador de la proporción de varianza
explicada en la población. La ecuación (4) establece que la correlación intraclase
es igual a la proporción estimada de la varianza del nivel grupo comparada con la
varianza total estimada.
La razón de verosimilitud: −2log𝑒𝑒 (𝑣𝑣𝑒𝑒𝑣𝑣𝑣𝑣𝑣𝑣𝑖𝑖𝑣𝑣𝑖𝑖𝑣𝑣𝑖𝑖𝑣𝑣𝑣𝑣𝑣𝑣) servirá para ir evaluando
las diferentes aportaciones al modelo.
B2) Modelo con variables explicativas
La segunda fase es la estimación del modelo con variables de ajuste. Este
modelo se construye a partir del modelo nulo pero incorporándole, tanto en la
21
parte fija como en la aleatoria, las variables consideradas en el trabajo como
variables de ajuste.
De esta forma, para el caso de tres variables de ajuste propias de la etapa 1
y una variable propia de la etapa 2, el Modelo Multinivel que se espera conseguir
es el siguiente:
Nivel 1:
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑖𝑖 + 𝛽𝛽1𝑖𝑖𝑥𝑥1𝑖𝑖𝑖𝑖 + 𝛽𝛽2𝑖𝑖𝑥𝑥2𝑖𝑖𝑖𝑖 + 𝛽𝛽3𝑖𝑖𝑥𝑥3𝑖𝑖𝑖𝑖 + 𝛽𝛽4𝑥𝑥4𝑖𝑖 + Ɛ𝑖𝑖𝑖𝑖 =
= 𝛽𝛽0𝑖𝑖 + ∑ 𝛽𝛽1𝑖𝑖𝑥𝑥1𝑖𝑖𝑖𝑖 + 𝛽𝛽4 3𝑙𝑙=1 𝑥𝑥4𝑖𝑖 + Ɛ𝑖𝑖𝑖𝑖 (5)
Nivel 2:
𝛽𝛽0𝑖𝑖 = 𝛽𝛽0 + 𝜇𝜇0𝑖𝑖 ; 𝛽𝛽1𝑖𝑖 = 𝛽𝛽1 + 𝜇𝜇1𝑖𝑖 ; 𝛽𝛽2𝑖𝑖 = 𝛽𝛽2 + 𝜇𝜇2𝑖𝑖 ; 𝛽𝛽3𝑖𝑖 = 𝛽𝛽3 + 𝜇𝜇3𝑖𝑖
Con
𝜇𝜇0𝑖𝑖𝜇𝜇1𝑖𝑖𝜇𝜇2𝑖𝑖𝜇𝜇3𝑖𝑖
~ 𝑁𝑁 (0,𝛺𝛺𝑢𝑢) ∶ 𝛺𝛺𝑢𝑢 =
⎣⎢⎢⎢⎡ 𝜎𝜎𝜇𝜇0
2
𝜎𝜎𝜇𝜇102 𝜎𝜎𝜇𝜇12
𝜎𝜎𝜇𝜇202 𝜎𝜎𝜇𝜇212 𝜎𝜎𝜇𝜇22
𝜎𝜎𝜇𝜇302 𝜎𝜎𝜇𝜇312 𝜎𝜎𝜇𝜇322 𝜎𝜎𝜇𝜇32 ⎦⎥⎥⎥⎤
𝑒𝑒0𝑖𝑖𝑖𝑖 ~ 𝑁𝑁(0,𝛺𝛺𝑒𝑒): 𝛺𝛺𝑒𝑒 = [𝜎𝜎𝑒𝑒02 ]
Los pasos a seguir para estimar son los siguientes:
De esta forma, las ecuaciones se convertirán en:
Nivel 1:𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑖𝑖 + 𝛽𝛽1𝑥𝑥𝑖𝑖𝑖𝑖 + 𝛽𝛽2𝑥𝑥2𝑖𝑖𝑖𝑖 + 𝛽𝛽3𝑥𝑥3𝑖𝑖𝑖𝑖 + 𝛽𝛽4𝑥𝑥4𝑖𝑖 + Ɛ𝑖𝑖𝑖𝑖 (6)
Nivel 2:𝛽𝛽0𝑖𝑖 = 𝛽𝛽0 + 𝜇𝜇0𝑖𝑖
22
Donde 𝛽𝛽0 es la ordenada promedio de las unidades de nivel 2, 𝛽𝛽1 𝛽𝛽3 𝛽𝛽3 𝑦𝑦 𝛽𝛽4
son las pendientes promedio de la regresión de las unidades de nivel 1, y 𝜇𝜇0𝑖𝑖 es
el incremento único del intercepto asociado a la unidad j-ésima del nivel 2.
B3) Modelo Final
La construcción del modelo final incluirá tan sólo aquellas variables que han
resultado significativas en la construcción del modelo verificando si se cumplen los
supuestos de Homocedasticidad y Normalidad.
C) Supuestos del modelo
Los supuestos son usados para comprobar la adecuación del modelo, las
violaciones a estos supuestos pueden provocar un modelo inestable, produciendo
resultados totalmente diferentes y en muchos casos conclusiones opuestas al
trabajar con distintas muestras.
Los modelos de regresión multinivel, como cualquier modelo de regresión,
tienen algunos supuestos de partida, sin cuyo cumplimiento las estimaciones
obtenidas no son correctas. El supuesto de independencia de las observaciones
no se aplica en estos modelos porque la razón para realizar un análisis multinivel
en primer lugar, es que las observaciones de los datos que van a ser analizados
están correlacionadas. Los principales supuestos recaen sobre el error del modelo
ɛ, y su certificación se realiza a través del análisis de los residuos 𝑒. Estos
supuestos son los siguientes:
C1) Media nula y varianza constante
El error tiene media nula y varianza constante, es decir, el error es
homocedástico. Si la varianza de los errores no es constante a lo largo de las
observaciones, la regresión es heterocedastica.
Para la comprobar si se cumple o no este supuesto se pueda hacer uso de
gráficos de los residuales 𝑒𝑒𝑖𝑖con los valores ajustados correspondientes 𝑦𝑦𝑖𝑖,
23
C2) Supuesto de normalidad
Como ya se ha mencionado, los modelos de regresión multinivel son una
extensión de los modelos de regresión tradicionales, por ello, comparten algunos
supuestos de aplicación como el hecho de que la variable dependiente se debería
distribuir normalmente. (Pérez Fernández, 2013)
Con el cumplimiento del supuesto de normalidad se tiene la justificación
teórica para la utilización de pruebas estadísticas que involucren a las
distribuciones t, F y χ2 (de uso muy común en la parte inferencial del modelo). No
obstante, el supuesto de normalidad puede no ser tan crucial cuando se emplean
muestras grandes. Además, una propiedad de la distribución normal es que
cualquier función lineal de variables normalmente distribuidas estará también
normalmente distribuida.
La literatura referente a probar la normalidad es vasta (White & MacDonald,
1980). Al igual que en el análisis de regresión lineal, se puede comprobar la
normalidad por medio de gráficos de normalidad. (Goldstein & Healy, 1995)
Un supuesto adicional en este punto para el análisis de regresión multinivel
es que los interceptos y las pendientes aleatorias deben estar normalmente
distribuidos
En términos matemáticos:
𝑒𝑒0𝑖𝑖 ∼ 𝑁𝑁(0,Ω𝑒𝑒) ∶ Ω𝑒𝑒 = [𝜎𝜎𝑒𝑒02 ]y
µ0𝑖𝑖µ10𝑖𝑖µ20𝑖𝑖µ30𝑖𝑖
∼ 𝑁𝑁0,Ωµ ∶ Ωµ =
⎣⎢⎢⎢⎡ 𝜎𝜎𝜇𝜇0
2
𝜎𝜎𝜇𝜇102 𝜎𝜎𝜇𝜇12
𝜎𝜎𝜇𝜇202 𝜎𝜎𝜇𝜇212 𝜎𝜎𝜇𝜇22
𝜎𝜎𝜇𝜇302 𝜎𝜎𝜇𝜇312 𝜎𝜎𝜇𝜇322 𝜎𝜎𝜇𝜇32 ⎦⎥⎥⎥⎤
24
D) Estimación de parámetros
Existen varios métodos para la estimar los parámetros en los modelos de
regresión multinivel (Martinez, 2014)
Uno de los métodos de estimación es el algoritmo IGLS (mínimos cuadrados
generalizados) o RIGLS (mínimos cuadrados generalizados restringidos) descritos
por primera vez por Goldstein (1986) y Goldstein (1989), respectivamente. Los
algoritmos consideran los niveles del modelo, los coeficientes fijos de la regresión
y la matriz de componentes devarianza /covarianza. El modo en el que el software
MLwiN ejecuta el algoritmo es el siguiente: el algoritmo fija los componentes de la
varianza en algún valor inicial y maximiza la verosimilitud sobre los coeficientes
fijos (este es justo el problema de la técnica Mínimos Cuadrados Generalizados).
Entonces, fijan los coeficientes por sus actuales valores y maximizan la
verosimilitud sobre los componentes de la varianza.
Adicionalmente, desde la década de los años 70, los métodos de estimación
de máxima verosimilitud y máxima verosimilitud restringida (MV Y MVR,
respectivamente) han sido los más utilizados. MV presenta varias ventajas,
incluyendo la habilidad de manejar algunas de las problemáticas de los métodos
ANOVA (por ejemplo, la falta de unicidad, o las estimaciones de la varianza
negativas). Ambos, MV y MVR, producen idénticos estimadores de efectos fijos.
Por un lado MV toma en consideración los grados de libertad desde los efectos
fijos y esto produce estimaciones de los componentes de la varianza menos
equilibradas. Por otro lado, una desventaja del MVR es que el test ratio de
verosimilitud no puede ser usado para comparar dos modelos con diferentes
especificaciones en sus componentes fijos. Para muestras pequeñas, MVR es el
método idóneo frente a MV, sin embargo, en muestras grandes las diferencias
entre utilizar uno y otro son insignificantes (Snijders y Bosker, 1999). Puede
decirse, por tanto, que “la utilización de uno u otro método de estimación responde
más a una cuestión de gusto personal del investigador” (StataCorp, 2005:188).
25
El modelo mixto lineal general puede ser re-escrito como un modelo
jerárquico (o modelo condicional):
| ~ ( , )~ ( , )
NN
+y u Xβ Zu Ru 0 G
Es decir existe un modelo para y dado u más un modelo para u . Esto
sugiere que existen supuestos específicos sobre la dependencia de la media y la
estructura de covarianza sobre las covariables en X y Z . La media marginal es
Xβ y la estructura de covarianza es V = ZGZ´ + R . Es decir que el modelo
implicado para la distribución marginal o incondicional de Y es ( )N Xβ,ZGZ´ + R .
Esta relación entre ambos modelos no se puede aplicar en general, y depende de
propiedades de la distribución normal multivariada y de la linealidad del modelo.
• Estimación de parámetros vía máximo verosimilitud para modelos mixtos
Las estimaciones por mínimos cuadrados generalizados pueden usarse para
estimar los efectos fijos del modelo mixto. Estas estimaciones se obtienen
minimizando 1−(y - Xβ)'V (y - Xβ) , y el estimador del vector de efectos fijos β es:
1 1ˆ ( ´ ) ´− − −=β X V X X V y . Si todas las componentes de varianza en V son conocidas
este estimador es el mejor estimador lineal insesgado (BLUE) y se corresponde
con el estimador máximo verosímil. En la práctica del análisis de datos
experimentales V usualmente es desconocida y se reemplaza por su estimador ˆˆ ˆ´= +V ZGZ R . Si se puede asumir que u y e tienen distribución normal, la mejor
aproximación para la estimación se logra con métodos basados en máxima
verosimilitud. Los métodos de estimación más usados son máxima verosimilitud
(ML) y máxima verosimilitud restringida (REML).
La función de verosimilitud, L, puede pensarse como la probabilidad de
observar los datos que tenemos si los parámetros del modelo fuesen los
26
postulados. Se define usando la función de densidad de las observaciones, en
este caso la función normal.
La estimación de los parámetros fijos será denotada como MLβ)
y la de los
parámetros de la estructura de varianza como MLξ)
• Estimación de parámetros vía máximo verosimilitud restringida para modelos mixtos
El simple ejemplo del estimador ML de la varianza 2σ de una muestra
aleatoria de variables normales, sugiere que cuando µ no es conocida y debe
estimarse, dicha estimación introduce un sesgo en el estimador ML de la varianza.
La pregunta entonces es, ¿cómo estimar las componentes de varianza sin tener
que estimar los parámetros correspondientes a los efectos fijos? La respuesta
conduce al estimador REML, sugerido por Patterson y Thompson (1971). En esta
aproximación el vector de efectos fijos es eliminado de la función de verosimilitud,
y por lo tanto le llamamos “verosimilitud restringida”, que nos sirve para estimar los
parámetros de covarianza. Cuando los datos son balanceados, este método nos
da estimadores insesgados iguales a los que nos daría un ANOVA. El estimador
ML de ξ , basado en t se llama estimador REML ( REMLξ)
). La estimación resultante
del vector de efectos fijos, )REMLβ(ξ))
suele denotarse por REMLβ)
y se obtiene usando
mínimos cuadrados generalizados.
La idea del estimador REML es la siguiente: Primero se obtiene la
verosimilitud basada en datos que en lugar de ser los observados son términos
residuales, i.e. y - Xβ)
. Estos términos son conocidos como residuos completos ya
que incluyen todas las fuentes variación aleatoria; se demuestra que los mismos
son independientes de β)
.
• Propiedades del estimador de efectos fijos
27
El estimador de los efectos fijos se obtiene por mínimos cuadrados
generalizados usando ξ)
en lugar de ξ para construir V . Si ( )E =y Xβ ,
condicionando sobre las componentes de varianza. Este estimador es insesgado,
i.e. (E β(ξ)) = β))
. Luego, para obtener estimaciones insesgadas relacionadas a los
efectos fijos es suficiente que la media de la respuesta sea correctamente
especificada.
Condicionando sobre ξ , el estimador del vector de efectos fijos tiene
covarianza independiente de la Var ( y ), si se asume que la matriz Var( y ) se
modela correctamente como V = ZGZ´ + R . Por ello este estimador de covarianza
suele llamarse “estimador naif o cándido”. La variabilidad incorporada por
reemplazar las componentes de varianza por sus estimadores, no se tiene en
cuenta en la construcción del estadístico de Wald que se presenta como candidato
para contrastar hipótesis del tipo 0 : 0H =Lβ , donde L es un arreglo de contrastes
conocidos. El estadístico de Wald que se distribuye asintótica mente como una
chi-cuadrado con grados de libertad iguales al rango de L , usa la siguiente
expresión de varianza:
( ) 1var( ) −=β X´V(ξ)X)
Luego, la prueba de Wald, solo proveerá de inferencia válida en caso de
muestras grandes. Una alternativa práctica es reemplazar la distribución chi-
cuadrado por una distribución F apropiada. El estadístico F para la hipótesis que
contrasta efectos fijos mediante la matriz de contrastes L , es:
( )111
( )F
rango
=
--´ -β´L´ L X V (ξ)X L´ Lβ
L
)) )
Bajo la hipótesis nula, la distribución de F se aproxima a la distribución F con
grados de libertad en el numerador igual al rango de L. Los grados de libertad del
denominador se estiman desde los datos por diversos métodos: 1) método de
28
containment (recomendado en modelos con efectos aleatorios y sin modelación de
covarianza residual) , 2) aproximación de Sattherthwaite (casos donde existen
efectos aleatorios y modelación de covarianza residual), 3) aproximación de
Kenward-Roger (casos donde existen efectos aleatorios y modelación de
covarianza residual), 4) Between-within (casos donde solo se modelación de
covarianza residual; excepto que el tipo sea sin estructura donde se usa solo
Between) y 5) Residual. Cuando existen varias observaciones por sujeto, los
grados de libertad del denominador son en general muchos por lo que los tres
métodos dan valores-p muy parecidos. Cuando la hipótesis es univariada, i.e. el
rango de L es uno, la prueba F se reduce a la clásica prueba T.
E) Indicadores de comparación de modelos
Uno de los estadísticos utilizados para comparar modelos de regresión
multinivel es la desvianza (-2LL) (McCullag y Nelder, 1989). El resto son
modificaciones de -2LL que penalizan (aumentando) su valor mediante alguna
función del número de parámetros. El segundo estadístico es AIC es el criterio de
información de Akaike(Akaike, 1974); el tercero AICC es el criterio de información
de Akaike corregido (Hurvich y Tsai, 1989); el cuarto CAIC es el criterio de
información de Akaike consistente (Bozdogan, 1987); y el quinto BIC es el criterio
de información bayesiano (Schwarz, 1978).
𝐴𝐴𝐴𝐴𝐴𝐴 = −2𝐿𝐿𝐿𝐿 + 2𝑣𝑣
𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = −2𝐿𝐿𝐿𝐿 +2𝑣𝑣
𝑛𝑛 − 𝑣𝑣 − 1
𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴 = −2𝐿𝐿𝐿𝐿 + 𝑣𝑣[log(𝑛𝑛) + 1]
𝐵𝐵𝐴𝐴𝐴𝐴 = −2𝐿𝐿𝐿𝐿 + 𝑣𝑣[𝑣𝑣𝑣𝑣𝑙𝑙(𝑛𝑛)]
Donde 𝐿𝐿𝐿𝐿 se refiere al logaritmo de la verosimilitud si se utiliza el método
deestimación de Máxima Verosimilitud (MV) y al logaritmo de la
verosimilitudrestringida si se utiliza el método (MVR).
29
Si se utiliza MV, 𝑣𝑣 es el número deparámetros asociados a los efectos fijos
más el número de parámetros asociados a los efectos aleatorios, y 𝑛𝑛 es e l
número total de casos. Si se utiliza MVR, 𝑣𝑣 se trata delnúmero total de parámetros
asociados a los efectos aleatorios y 𝑛𝑛 es el número total decasos menos el
número de parámetros asociados a los efectos fijos.
Si bien estos estadísticos de ajuste global no tienen una interpretación
directa, son muy útiles para comparar modelos alternativos siempre que uno de
ellos incluya todos los términos del otro. La diferencia entre los estadísticos
−2𝐿𝐿𝐿𝐿correspondientes ados modelos distintos se distribuye según chi-cuadrado
con grados de libertad igual alnúmero de parámetros en que difieren los dos
modelos comparados, por tanto, ladiferencia entre los estadísticos −2𝐿𝐿𝐿𝐿
correspondientes a dos modelos distintos puede utilizarse para valorar la ganancia
que se obtiene en el ajuste cuando se añaden los efectos en que difieren ambos
modelos.
Asimismo, también se puede evaluar la calidad del modelo final con otro
indicador (Hox, Multilevel Analysis, 2002).
Básicamente lo que nos importa es conocer cuánta varianza del nivel 1 y del
nivel 2 es explicada por el modelo. Sería un valor de su capacidad explicativa. Se
estima a través del llamado Coeficiente de determinación R2 (Longford, 1993). Si
el intercepto apenas tiene varianza aleatoria la varianza total será la suma de las
varianzas de los niveles 1 y 2 (𝜎𝜎𝑒𝑒2 + 𝜎𝜎𝑢𝑢02 ). De esta forma, podremos estimar el
coeficiente de determinación total R2, así como el coeficiente de determinación
para el nivel 1, R12, para el 2, R22, con la siguiente fórmula:
𝑅𝑅2 = 1 −𝑣𝑣𝑣𝑣𝑣𝑣(𝑓𝑓𝑖𝑖𝑛𝑛𝑣𝑣𝑣𝑣)𝑣𝑣𝑣𝑣𝑣𝑣(𝑛𝑛𝑣𝑣𝑣𝑣𝑣𝑣)
Donde 𝑣𝑣𝑣𝑣𝑣𝑣(𝑓𝑓𝑖𝑖𝑛𝑛𝑣𝑣𝑣𝑣) representa la varianza residual en el modelo cuyo poder
explicativo se pretende evaluar a través de 𝑅𝑅2 , y 𝑣𝑣𝑣𝑣𝑣𝑣(𝑛𝑛𝑣𝑣𝑣𝑣𝑣𝑣) es la varianza del
modelo nulo.
30
3.2.2. Datos censurados y truncados
La estimación consistente requiere disponer de una muestra extraída de
forma aleatoria y representativa de la población que se pretende estudiar. Además
requiere que los estadísticos (estimadores) converjan a los parámetros
poblacionales que estiman.
El problema con las muestras surge cuando se refieren a grupo de la
población que no representa a la población que es objeto de estudio. En ese caso,
los estimadores convergerán a las características de esa subpoblación, no a las
de la población que se quiere analizar.(Álvarez, 2008).
Es posible que no observemos datos de la variable dependiente y de las
variables explicativas para toda la población. En este caso, tendremos muestras
censuradas o truncadas según cómo sea el tipo de limitación en la información
disponible.
A) Datos censurados
Una muestra está censurada si los datos se recodifican para un subconjunto
de la población (Álvarez, 2008). Para algunas observaciones, sólo se sabe quela
variable es mayor (o menor) que un valor.(Albarrán Peréz, 2011).
• Censura por la derecha (o superior)
• Censura por la izquierda (o inferior)
𝑌𝑌 =
𝑌𝑌∗, 𝑆𝑆𝑖𝑖 𝑌𝑌∗ < 𝑈𝑈 𝑈𝑈, 𝑆𝑆𝑖𝑖 𝑌𝑌∗ ≥ 𝑈𝑈
𝑌𝑌 =
𝑌𝑌∗, 𝑆𝑆𝑖𝑖 𝑌𝑌∗ > 𝐿𝐿 𝐿𝐿, 𝑆𝑆𝑖𝑖 𝑌𝑌∗ ≤ 𝐿𝐿
31
• La censura puede producirse por diversos motivos como por ejemplo,
resulta del proceso de recogida de datos o se puede interpretar como solución de
esquina en una decisión económica.
B) Datos truncados
Una muestra está truncada si los datos sólo están disponibles para un
subconjunto de la población total.
Los valores de las variables explicativas X sólo se observan cuando se
observa Y. En otras palabras, los datos truncados excluyen observaciones
censuradas.(Albarrán Peréz, 2011)
• Caso de censura por la derecha (o superior)
𝑌𝑌 = 𝑌𝑌∗, 𝑆𝑆𝑖𝑖𝑌𝑌∗ < 𝑈𝑈
• Caso de censura por la izquierda (o inferior)
𝑌𝑌 = 𝑌𝑌∗, 𝑆𝑆𝑖𝑖𝑌𝑌∗ > 𝐿𝐿
Censored Normal
X
FUENTE: Econometric Methods with Applications in Business and Economics.
FECHA: 2010
FIGURA N°3.1 Función de distribución normal con datos censurados
32
La censura/truncamiento puede considerarse como una situación en que
falta información (completa) sobre la variable dependiente comparada con
observar plenamente 𝑌𝑌∗. En algunos casos el valor de censura es desconocido o
diferente para cada individuo.
3.3. Terminología básica
• Correlación intraclase
Es la medida del grado de dependencia de los individuos (autocorrelación).
• Coeficiente fijo Son los parámetros que se estiman en un modelo de regresión lineal clásico
• Coeficiente aleatorio Son los parámetros estimados que toman en cuenta la variabilidad entre
agrupamientos
• Interacción internivel
FIGURA N°3.2 Función de distribución normal con datos truncados en
X
FUENTE: Econometric Methods with Applications in Business and Economics.
FECHA: 2010
33
Es la interacción entre variables que están medidas en diferentes niveles de una
estructura jerárquica de datos
• Modelo Nulo Es el punto de partida del proceso modelado que contiene únicamente una
variable respuesta y la constante
• Datos censurados Son datos recodificados para un subconjunto de la población
• Datos truncados Son datos sin considerar los datos censurados
• Falacia ecológica Relaciones para los individuos o nivel 1, cuando los resultados contextuales o
nivel 2 no reproducen necesariamente al nivel individual.
• Falacia atomista Propone las mismas asociaciones encontradas a nivel individual o nivel 1 como
relaciones a nivel contextual o nivel 2.
34
CAPÍTULO IV
METODOLOGÍA
4.1. Población en estudio
La población de estudio correspondiente estará determinado por la
generación de 2 variables independientes con distribución normal que necesita
para la generación de datos la matriz de varianzas y covarianzas que se creará en
forma aleatoria. Además, el grado de variación de independencia en las
ecuaciones de regresión es controlado por el coeficiente de correlación. (Zuehlke
& Kassekert, 2008). Por lo tanto, se considerarán valores por encima de 0.4 para
evitar la independencia de los regresores en los diferentes niveles de la base de
datos.
En la generación de datos se considerarán 2 grandes escenarios que buscan
responder los objetivos antes múltiples casos(Matos, Tsung, Castro, & Lachos,
2016):
35
• Escenario 1: Una muestra de tamaño 𝑛𝑛 = 200 y diferentes proporciones de
censura y truncamiento como son 10, 20 𝑦𝑦 30%. Esto teniendo en cuenta que
se considera una censura alta desde el 20%.
• Escenario 2:Una proporción de censura y truncamiento del 10% y diferentes
tamaños de muestra 𝑛𝑛 = 50, 200𝑦𝑦 600.
4.2. Fuentes de información
Las bases de datos serán simuladas de acuerdo al punto 4.4.
Los escenarios propuestos tienen referencia a la publicación titulada Heavy-
tailed longitudinal regression models for censored data: A likelihood based
perspective elaborado por Larissa A. Matos, Tsung-I Lin, Luis M. Castro y Victor
Hugo Lachos Dávila en enero del 2016 en donde se trabaja la censura para
modelos de regresión no lineales con 2 variables independientes.
4.3. Definición de variables
Se trabajará con modelos de regresión multinivel de 2 etapas. En cada
boque, se trabajará con 2 variables independientes y una variable dependiente de
naturaleza continua de la siguiente manera:
𝑦𝑦𝑖𝑖𝑖𝑖 = 𝛽𝛽0𝑖𝑖 + 𝛽𝛽1𝑥𝑥1𝑖𝑖 + 𝛽𝛽2𝑥𝑥2𝑖𝑖 + 𝑒𝑒𝑖𝑖𝑖𝑖
Donde,
𝑦𝑦𝑖𝑖𝑖𝑖 es la variable respuesta continua que tiene el registro i en la categoría j
𝜀𝜀𝑖𝑖𝑖𝑖 es el error y se distribuye normalmente con una varianza constante e igual
a 1,
36
𝛽𝛽0𝑖𝑖es el vector de parámetros estimados calculado aleatoriamente.
4.4. Procedimientos estadísticos
• Se trabajaron con 2escenarios. Uno con diferentes tamaños de data y un
porcentaje de censura y otro con un tamaño de data y diferentes porcentajes y
censuras que luego serán truncadas.
• Se crearon bloques (1 será considerado data de control en donde no se
truncará ni censurará la variable dependiente, otro bloque contendrá la variable
dependiente truncada y otro bloque, censurada).
• Se crearon los parámetros estimados de acuerdo a lo que ya se tiene en los
pasos previos.
• Se creó el error de manera aleatoria con media 0 y varianza 1.
• Se usó el test de Mardia para comprobar normalidad de data. Supuesto
importante en los modelos de regresión multinivel.
37
CAPÍTULO V
RESULTADOS
5.1. Análisis descriptivo de las variables
5.1.1. Análisis descriptivo del escenario 1
Una muestra de tamaño 𝑛𝑛 = 200 y diferentes proporciones de censura y
truncamiento como son 10, 20 𝑦𝑦 30%. Esto teniendo en cuenta que se considera
una censura alta desde el 20%.
• A continuación se describen las distribuciones de las variables
independientes, errores y variable dependiente.
Nivel 1
Este nivel en el modelo de regresión multinivel múltiple es el mismo de un modelo
re regresión múltiple.
38
Nivel 2
La construcción de las variables que serán analizadas en el modelo de regresión
multinivel se deben realizar en el nivel más alto. En la presente tesis, es el nivel 2.
Este nivel presenta 2 factores: A y B. Dentro de estos factores se crean las
variables independientes 𝑋𝑋1 y 𝑋𝑋2 que se distribuyen normalmente con media y
devianza que se detalla a continuación:
- Factor A:
𝑋𝑋1~𝑁𝑁(3, 2)
𝑋𝑋2~𝑁𝑁(0, 1.2)
- Factor B:
𝑋𝑋1~𝑁𝑁(6,2)
𝑋𝑋2~𝑁𝑁(2, 3.5)
Asimismo, de genera la variable E (Error) bajo una distribución estándar de la
siguiente manera: 𝐸𝐸~𝑁𝑁(0, 1). Esto para el conjunto total de la base.
Adicionalmente, de consideran los siguientes parámetros en la ecuación: 𝛽𝛽0 =
10,𝛽𝛽1 = 4 𝑦𝑦 𝛽𝛽2 = 2.5.
Finalmente, obtenemos la siguiente ecuación:
𝑌𝑌 = 10 + 4 ∗ 𝑋𝑋1 + 2.5 ∗ 𝑋𝑋2 + 𝐸𝐸
• Los puntos que reciben Censura y posteriormente de truncamiento en la
variable respuesta fueron seleccionados aleatoriamente dentro de cada factor en
39
el nivel más alto del modelo de regresión multinivel teniendo como criterio de
selección que el tamaño de censura sea el mismo en cada factor del nivel 2.
CUADRO Nº 5.1 PROMEDIOS Y DEVIANZAS EN LOS BLOQUES DE CONTROL, CENSURA
Y TRUNCAMIENTO PARA ESCENARIO 1
FUENTE: Huanca Milagros FECHA: Octubre 2016
ELABORACIÓN: Propia
En el cuadro Nº 5.1 se observa la medida de tendencia central Media y la medida
de dispersión Devianza en el nivel 1 y en los factores A y B del nivel 2. Esto
medido en las variables independientes X1 y X2, y en la variable respuesta Y en
los bloques de Control, Censura y Truncamiento del 10%, 20% y 30% de la base.
MU SIG MU SIG MU SIGX1 4.64 2.40 3.22 1.80 6.06 2.07X2 1.07 2.81 -0.05 1.15 2.18 3.47Y 31.18 13.52 22.72 8.04 39.64 12.58
X1 4.64 2.40 3.22 1.80 6.06 2.07X2 1.07 2.81 -0.05 1.15 2.18 3.47Y 27.13 15.84 19.69 10.39 34.58 16.86
X1 4.50 2.34 3.09 1.81 5.91 1.93X2 1.00 2.86 -0.10 1.12 2.10 3.58Y 30.49 13.39 22.12 8.19 38.85 12.32
X1 4.64 2.40 3.22 1.80 6.06 2.07X2 1.07 2.81 -0.05 1.15 2.18 3.47Y 24.85 17.91 17.53 11.41 32.18 20.16
X1 4.60 2.49 3.06 1.76 6.15 2.13X2 1.22 2.91 -0.01 1.14 2.45 3.56Y 31.46 14.05 22.19 7.78 40.73 12.76
X1 4.64 2.40 3.22 1.80 6.06 2.07X2 1.07 2.81 -0.05 1.15 2.18 3.47Y 20.90 17.67 15.63 12.62 26.16 20.30
X1 4.50 2.33 3.15 1.88 5.84 1.94X2 0.93 2.86 0.07 1.18 1.80 3.68Y 30.29 12.93 22.65 8.40 37.92 12.16
10%
20%
CENSURA
TRUNCAMIENTO
30%
CENSURA
TRUNCAMIENTO
CENSURA
TRUNCAMIENTO
0%
FACTOR A FACTOR BNIVEL 2
NIVEL 1VARIABLES% BLOQUES
CONTROL
40
Si no se considerase un modelo de regresión multinivel, se obviaría lo
visiblemente diferentes que son los comportamientos de las variables
independiente en los diferentes factores del nivel 2.
5.1.2. Análisis descriptivo del escenario 2
En el escenario 2 se planteó realizar una proporción de censura y
truncamiento del 10% y diferentes tamaños de muestra 𝑛𝑛 = 50, 200𝑦𝑦 600.
• A continuación se describen las distribuciones de las variables
independientes, errores y variable dependiente.
Nivel 1
Este nivel en el modelo de regresión multinivel múltiple es el mismo de un modelo
re regresión múltiple.
Nivel 2
La construcción de las variables que serán analizadas en el modelo de regresión
multinivel se deben realizar en el nivel más alto. En la presente tesis, es el nivel 2.
Este nivel presenta 2 factores: A y B. Dentro de estos factores se crean las
variables independientes 𝑋𝑋1 y 𝑋𝑋2 que se distribuyen normalmente con media y
devianza que se detalla a continuación:
- Factor A:
𝑋𝑋1~𝑁𝑁(3, 1)
𝑋𝑋2~𝑁𝑁(15, 3)
- Factor B:
41
𝑋𝑋1~𝑁𝑁(5,1)
𝑋𝑋2~𝑁𝑁(10, 3)
Asimismo, de genera la variable E (Error) bajo una distribución estándar de la
siguiente manera: 𝐸𝐸~𝑁𝑁(0, 1). Esto para el conjunto total de la base.
Adicionalmente, de consideran los siguientes parámetros en la ecuación: 𝛽𝛽0 =
10,𝛽𝛽1 = 4 𝑦𝑦 𝛽𝛽2 = 2.5.
Finalmente, obtenemos la siguiente ecuación:
𝑌𝑌 = 10 + 4 ∗ 𝑋𝑋1 + 2.5 ∗ 𝑋𝑋2 + 𝐸𝐸
• Los puntos que reciben Censura y posteriormente de truncamiento en la
variable respuesta fueron seleccionados aleatoriamente dentro de cada factor en
el nivel más alto del modelo de regresión multinivel teniendo como criterio de
selección que el tamaño de censura sea el mismo en cada factor del nivel 2.
CUADRO Nº 5.2 PROMEDIOS Y DEVIANZAS EN LOS BLOQUES DE CONTROL, CENSURA
Y TRUNCAMIENTO PARA ESCENARIO 2 CON MUESTRA DE 50
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
MU SIG MU SIG MU SIGX1 4.17 1.43 3.17 0.95 5.17 1.11X2 12.65 3.37 15.10 2.12 10.21 2.49Y 58.15 7.49 60.52 6.43 55.77 7.84
X1 4.17 1.43 3.17 0.95 5.17 1.11X2 12.65 3.37 15.10 2.12 10.21 2.49Y 51.63 20.46 54.14 21.10 49.11 19.92
X1 4.26 1.45 3.26 0.97 5.25 1.13X2 12.71 3.50 15.35 2.01 10.07 2.53Y 58.67 7.38 61.53 5.72 55.81 7.86
0% CONTROL
10%
CENSURA
TRUNCAMIENTO
% BLOQUES VARIABLESNIVEL 1
NIVEL 2FACTOR A FACTOR B
42
En el cuadro Nº 5.2 se observa la medida de tendencia central Media y la medida
de dispersión Devianza en el nivel 1 y en los factores A y B del nivel 2 cuando la
muestra es de 50 registros. Esto medido en las variables independientes X1 y X2,
y en la variable respuesta Y en los bloques de Control, Censura y Truncamiento
del 10% de la base.
CUADRO Nº 5.3 PROMEDIOS Y DEVIANZAS EN LOS BLOQUES DE CONTROL, CENSURA
Y TRUNCAMIENTO PARA ESCENARIO 2 CON MUESTRA DE 200
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
En el cuadro Nº 5.3 se observa la medida de tendencia central Media y la medida
de dispersión Devianza en el nivel 1 y en los factores A y B del nivel 2 cuando la
muestra es de 200 registros. Esto medido en las variables independientes X1 y
X2, y en la variable respuesta Y en los bloques de Control, Censura y
Truncamiento del 10% de la base.
MU SIG MU SIG MU SIGX1 3.97 1.41 3.03 1.05 4.91 1.04X2 12.66 4.13 15.36 2.96 9.96 3.28Y 57.41 9.45 60.44 8.51 54.37 9.41
X1 3.97 1.41 3.03 1.05 4.91 1.04X2 a 12.66 4.13 15.36 2.96 9.96 3.28Y 51.13 20.15 53.66 20.64 48.60 19.42
X1 4.00 1.42 3.05 1.06 4.95 1.05X2 12.64 4.12 15.28 3.01 10.00 3.31Y 57.45 9.56 60.30 8.64 54.60 9.63
10%
CENSURA
TRUNCAMIENTO
VARIABLESNIVEL 1
NIVEL 2FACTOR A FACTOR B
0% CONTROL
% BLOQUES
43
CUADRO Nº 5.4 PROMEDIOS Y DEVIANZAS EN LOS BLOQUES DE CONTROL, CENSURA
Y TRUNCAMIENTO PARA ESCENARIO 2 CON MUESTRA DE 600
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
En el cuadro Nº 5.4 se observa la medida de tendencia central Media y la medida
de dispersión Devianza en el nivel 1 y en los factores A y B del nivel 2 cuando la
muestra es de 600 registros. Esto medido en las variables independientes X1 y
X2, y en la variable respuesta Y en los bloques de Control, Censura y
Truncamiento del 10% de la base.
5.2. Análisis de indicadores del modelo
5.2.1. Análisis indicadores del escenario 1
En esta etapa se consideran los 2 escenarios que ya se han comentado en el
punto 4.1. y se desarrollará de acuerdo a los pasos expresados en 4.4.
Escenario 1: Una muestra de tamaño 𝑛𝑛 = 200 y diferentes proporciones de
censura y truncamiento como son 10, 20 𝑦𝑦 30%. Esto teniendo en cuenta que se
considera una censura alta desde el 20%.
• Distribuciones de las variables independientes.
MU SIG MU SIG MU SIGX1 3.99 1.40 3.03 0.96 4.94 1.09X2 12.40 4.02 14.97 3.13 9.84 3.07Y 56.94 9.10 59.60 8.79 54.28 8.62
X1 3.99 1.40 3.03 0.96 4.94 1.09X2 12.40 4.02 14.97 3.13 9.84 3.07Y 50.89 19.32 53.32 19.95 48.45 18.40
X1 3.98 1.39 3.03 0.95 4.94 1.08X2 12.33 4.04 14.93 3.13 9.74 3.07Y 56.75 9.12 59.46 8.78 54.04 8.64
10%
CENSURA
TRUNCAMIENTO
NIVEL 1NIVEL 2
FACTOR A FACTOR B
0% CONTROL
% BLOQUES VARIABLES
44
- Factor A:
𝑋𝑋1~𝑁𝑁(3, 2)
𝑋𝑋2~𝑁𝑁(0, 1.2)
- Factor B:
𝑋𝑋1~𝑁𝑁(6, 2)
𝑋𝑋2~𝑁𝑁(2, 3.5)
Siguiendo los objetivos de la tesis en donde se busca determinar la variación
porcentual de los criterios de información cuando la variable dependiente se
encuentra censurada o truncada, se muestran los resultados en el cuadro Nº 5.5
de los valores de criterios de información.
En el cuadro Nº 5.5 vemos que los valores de criterios de información
aumentan en como mínimo en 139% en las muestras censuradas siendo este
porcentaje cada vez más grande cuando el porcentaje de datos censurados
aumenta.
Además, se puede observar que los valores de criterios de información
disminuyen como mínimo en 11%en las muestras truncadas siendo este
porcentaje cada vez más grande cuando el porcentaje de datos truncados
aumenta.
De acuerdo a los criterios de información de Akaike corregido (AICC) y
criterio de información de Akaike consistente (CAIC), los modelos de regresión
multinivel de 2 etapas son mejores cuando la muestra es truncada en vez de
censurada.
45
CUADRO Nº 5.5 VALORES DE CRITERIOS DE INFORMACIÓN Y VARIACIÓN PORCENTUAL EN
LOS BLOQUES DE CONTROL, CENSURA Y TRUNCAMIENTOEN EL ESCENARIO 1
FUENTE: Huanca Milagros FECHA: Octubre 2016
ELABORACIÓN: Propia
Logaritmo de la verosimilitud restringido -2 607.96 0%Criterio de información Akaike (AIC) 617.96 0%Criterio de Hurvich y Tsai (AICC) 618.27 0%Criterio de Bozdogan (CAIC) 639.35 0%Criterio bayesiano de Schwarz (BIC) 634.35 0%Logaritmo de la verosimilitud restringido -2 1452.37 139%Criterio de información Akaike (AIC) 1462.37 137%Criterio de Hurvich y Tsai (AICC) 1462.68 137%Criterio de Bozdogan (CAIC) 1483.76 132%Criterio bayesiano de Schwarz (BIC) 1478.76 133%Logaritmo de la verosimilitud restringido -2 542.64 -11%Criterio de información Akaike (AIC) 552.64 -11%Criterio de Hurvich y Tsai (AICC) 552.99 -11%Criterio de Bozdogan (CAIC) 573.43 -10%Criterio bayesiano de Schwarz (BIC) 568.43 -10%Logaritmo de la verosimilitud restringido -2 1537.80 153%Criterio de información Akaike (AIC) 1547.80 150%Criterio de Hurvich y Tsai (AICC) 1548.12 150%Criterio de Bozdogan (CAIC) 1569.19 145%Criterio bayesiano de Schwarz (BIC) 1564.19 147%Logaritmo de la verosimilitud restringido -2 486.92 -20%Criterio de información Akaike (AIC) 496.92 -20%Criterio de Hurvich y Tsai (AICC) 497.33 -20%Criterio de Bozdogan (CAIC) 517.11 -19%Criterio bayesiano de Schwarz (BIC) 512.11 -19%Logaritmo de la verosimilitud restringido -2 1605.79 164%Criterio de información Akaike (AIC) 1615.79 161%Criterio de Hurvich y Tsai (AICC) 1616.10 161%Criterio de Bozdogan (CAIC) 1637.18 156%Criterio bayesiano de Schwarz (BIC) 1632.18 157%Logaritmo de la verosimilitud restringido -2 420.11 -31%Criterio de información Akaike (AIC) 430.11 -30%Criterio de Hurvich y Tsai (AICC) 430.57 -30%Criterio de Bozdogan (CAIC) 449.59 -30%Criterio bayesiano de Schwarz (BIC) 444.59 -30%
VAR. %
CONTROL0%
30%
CENSURA
TRUNCAMIENTO
VALOR
10%
CENSURA
TRUNCAMIENTO
20%
CENSURA
TRUNCAMIENTO
% BLOQUES CRITERIOS
46
5.2.2. Análisis indicadores del escenario 2
En el escenario 2 se planteó realizar una proporción de censura y
truncamiento del 10% y diferentes tamaños de muestra 𝑛𝑛 = 50, 200𝑦𝑦 600.
• A continuación se describen las distribuciones de las variables
independientes, errores y variable dependiente.
Nivel 1
Este nivel en el modelo de regresión multinivel múltiple es el mismo de un modelo
re regresión múltiple.
Nivel 2
La construcción de las variables que serán analizadas en el modelo de regresión
multinivel se deben realizar en el nivel más alto. En la presente tesis, es el nivel 2.
Este nivel presenta 2 factores: A y B. Dentro de estos factores se crean las
variables independientes 𝑋𝑋1 y 𝑋𝑋2 que se distribuyen normalmente con media y
devianza que se detalla a continuación:
- Factor A:
𝑋𝑋1~𝑁𝑁(3, 1)
𝑋𝑋2~𝑁𝑁(15, 3)
47
- Factor B:
𝑋𝑋1~𝑁𝑁(5,1)
𝑋𝑋2~𝑁𝑁(10, 3)
Finalmente, obtenemos la siguiente ecuación:
𝑌𝑌 = 10 + 4 ∗ 𝑋𝑋1 + 2.5 ∗ 𝑋𝑋2 + 𝐸𝐸
Siguiendo los objetivos de la tesis en donde se busca determinar la variación
porcentual de los criterios de información cuando la variable dependiente se
encuentra censurada o truncada, se muestran los resultados en el cuadro Nº 5.6
de los valores de criterios de información.
En el cuadro Nº 5.6 vemos los valores del Criterio de información Akaike
(AIC), Criterio de Hurvich y Tsai (AICC), Criterio de Bozdogan (CAIC) y Criterio
bayesiano de Schwarz (BIC) para una muestra de 50 registros. Los valores de
estos criterios aumentan como mínimo en 171% en las muestras censuradas
respecto al bloque de control. Ahora, también se puede observar que estos
valores de criterios de información disminuyen hasta en un 13% en el bloque de
truncamiento con respecto al bloque de control.
48
CUADRO Nº 5.6 VALORES DE CRITERIOS DE INFORMACIÓN Y VARIACIÓN PORCENTUAL EN
LOS BLOQUES DE CONTROL, CENSURA Y TRUNCAMIENTO EN EL ESCENARIO 2 PARA MUESTRA DE 50
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
En el cuadro Nº 5.7 vemos los valores del Criterio de información Akaike
(AIC), Criterio de Hurvich y Tsai (AICC), Criterio de Bozdogan (CAIC) y Criterio
bayesiano de Schwarz (BIC) para una muestra de 200 registros. Los valores de
estos criterios aumentan como mínimo en 177% en las muestras censuradas
respecto al bloque de control. Ahora, también se puede observar que estos
valores de criterios de información disminuyen en un 11% en el bloque de
truncamiento con respecto al bloque de control.
Logaritmo de la verosimilitud restringido -2 138.45 0%Criterio de información Akaike (AIC) 148.45 0%Criterio de Hurvich y Tsai (AICC) 149.95 0%Criterio de Bozdogan (CAIC) 162.59 0%Criterio bayesiano de Schwarz (BIC) 157.59 0%Logaritmo de la verosimilitud restringido -2 417.20 201%Criterio de información Akaike (AIC) 427.20 188%Criterio de Hurvich y Tsai (AICC) 428.70 186%Criterio de Bozdogan (CAIC) 441.34 171%Criterio bayesiano de Schwarz (BIC) 436.34 177%Logaritmo de la verosimilitud restringido -2 120.81 -13%Criterio de información Akaike (AIC) 130.81 -12%Criterio de Hurvich y Tsai (AICC) 132.57 -12%Criterio de Bozdogan (CAIC) 144.25 -11%Criterio bayesiano de Schwarz (BIC) 139.25 -12%
10%
CENSURA
TRUNCAMIENTO
0% CONTROL
% BLOQUES CRITERIOS VALOR VAR. %
49
CUADRO Nº 5.7 VALORES DE CRITERIOS DE INFORMACIÓN Y VARIACIÓN PORCENTUAL EN
LOS BLOQUES DE CONTROL, CENSURA Y TRUNCAMIENTO EN EL ESCENARIO 2 PARA MUESTRA DE 200
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
En el cuadro Nº 5.8 vemos los valores del Criterio de información Akaike
(AIC), Criterio de Hurvich y Tsai (AICC), Criterio de Bozdogan (CAIC) y Criterio
bayesiano de Schwarz (BIC) para una muestra de 600 registros. Los valores de
estos criterios aumentan como mínimo en 192% en las muestras censuradas
respecto al bloque de control. Ahora, también se puede observar que estos
valores de criterios de información disminuyen en un 10% en el bloque de
truncamiento con respecto al bloque de control.
Logaritmo de la verosimilitud restringido -2 619.06 0%Criterio de información Akaike (AIC) 629.06 0%Criterio de Hurvich y Tsai (AICC) 629.38 0%Criterio de Bozdogan (CAIC) 650.45 0%Criterio bayesiano de Schwarz (BIC) 645.45 0%Logaritmo de la verosimilitud restringido -2 1716.72 177%Criterio de información Akaike (AIC) 1726.72 174%Criterio de Hurvich y Tsai (AICC) 1727.03 174%Criterio de Bozdogan (CAIC) 1748.11 169%Criterio bayesiano de Schwarz (BIC) 1743.11 170%Logaritmo de la verosimilitud restringido -2 550.84 -11%Criterio de información Akaike (AIC) 560.84 -11%Criterio de Hurvich y Tsai (AICC) 561.20 -11%Criterio de Bozdogan (CAIC) 581.64 -11%Criterio bayesiano de Schwarz (BIC) 576.64 -11%
10%
CENSURA
TRUNCAMIENTO
0% CONTROL
BLOQUES CRITERIOS VALOR VAR. %%
50
CUADRO Nº 5.8 VALORES DE CRITERIOS DE INFORMACIÓN Y VARIACIÓN PORCENTUAL EN
LOS BLOQUES DE CONTROL, CENSURA Y TRUNCAMIENTO EN EL ESCENARIO 2 PARA MUESTRA DE 600
FUENTE: Huanca Milagros FECHA: Noviembre 2016
ELABORACIÓN: Propia
Logaritmo de la verosimilitud restringido -2 1768.00 0%Criterio de información Akaike (AIC) 1778.00 0%Criterio de Hurvich y Tsai (AICC) 1778.10 0%Criterio de Bozdogan (CAIC) 1804.95 0%Criterio bayesiano de Schwarz (BIC) 1799.95 0%Logaritmo de la verosimilitud restringido -2 5168.28 192%Criterio de información Akaike (AIC) 5178.28 191%Criterio de Hurvich y Tsai (AICC) 5178.39 191%Criterio de Bozdogan (CAIC) 5205.24 188%Criterio bayesiano de Schwarz (BIC) 5200.24 189%Logaritmo de la verosimilitud restringido -2 1593.22 -10%Criterio de información Akaike (AIC) 1603.22 -10%Criterio de Hurvich y Tsai (AICC) 1603.33 -10%Criterio de Bozdogan (CAIC) 1629.62 -10%Criterio bayesiano de Schwarz (BIC) 1624.62 -10%
10%
CENSURA
TRUNCAMIENTO
CRITERIOS VALOR VAR. %
0% CONTROL
% BLOQUES
51
CONCLUSIONES
El hecho de que la variable dependiente se encuentra censurada o
truncada tiene efectos (en diferencias porcentuales) sobre los criterios de
información Akaike (AIC), criterios de información de Akaike corregido (AICC) y
criterios de información de Akaike consistente (CAIC) pues estos valores tienden a
disminuir hasta 12% en el caso de truncamiento y aumentar hasta 190% en el
caso de censura.
Tanto para el escenario 1 en donde la muestra se fijó con 200
registros y se realizó diferentes proporciones de truncamiento como son
10, 20 𝑦𝑦 30%, como para el escenario 2 en donde se fijó la proporción de
truncamiento en 10% para diferentes tamaños muestrales como son 50, 200 y 600
registros, se obtuvieron valores de Criterio de información Akaike (AIC), Criterio de
información de Akaike corregido (AICC) y Criterio de información de Akaike
consistente (CAIC) por debajo que los valores obtenidos en el bloque de control en
donde no existe ningún tipo de modificación de datos. La diferencia en valores
porcentuales llega a ser hasta de 12% (cuando la muestra es de 50).
El efecto de la censura de la variable dependiente en los valores de
Criterio de información Akaike (AIC), Criterio de información de Akaike corregido
52
(AICC) y Criterio de información de Akaike consistente (CAIC) tanto en el
escenario 1 en donde la muestra se fijó con 200 registros y se realizó diferentes
proporciones de censurade10, 20 𝑦𝑦 30%, como en el escenario 2 en donde se fijó
la proporción de truncamiento en 10% para diferentes tamaños muestrales como
son 50, 200 y 600 registros, es muy negativo pues estos valores de criterios de
información con respecto a los valores en el bloque de control en donde no se
realizó censura alguna tienen una diferencia porcentual de hasta 190% (para una
muestra de 600).
53
RECOMENDACIONES
En el caso de que se tenga la variable dependiente censurada, se recomienda no
trabajar con esa variable sino realizar el truncamiento para que los valores de los
criterios de información tales como el Akaike, Akaike consistente o Akaike
corregido no lleguen a alterarse más del 10% con respecto a lo que debería ser.
Se recomienda seguir métodos de imputación de datos en las variables
censuradas para que los registros con variable dependiente censurada puedan
tener un valor en el target estimado.
54
COSTEO Y PRESUPUESTO
En el proceso de elaboración de tesis se ha considerado dentro del concepto
de Gastos fijos al servicio de internet que tendrá una duración de 6 meses dando
en total un costo de S/.600. Dentro del concepto de Gastos únicos, se detallan los
costos de una laptop lenovo con procesador intel core i5, útil para el rápido
desarrollo de los procesos estadísticos detallados en la tesis , un USB de 16 gigas
perteneciente a la marca HP debido a su buena calidad, un cuaderno de apuntes
para llevar un orden adecuado de la literatura revisada, 2 lapiceros y el
encuadernado que se realizará al finalizar la tesis. Dentro de los gastos variables,
se tiene en consideración que la literatura con gran relevancia en la ejecución de
la tesis ha de ser impresa para un mejor manejo de apuntes, asimismo se tiene en
cuenta los posibles papers que se han de comprar para enriquecer la tesis.
Finalmente, el costo total de la tesis tiene la suma de S/.5,588.50 nuevos soles.
CUADRO DE COSTO Y PRESUPUESTO DE TESIS
FUENTE: Huanca Milagros FECHA: Octubre 2016 ELABORACIÓN: Propia
CONCEPTO Q Unitario TotalGastos Fijos N° Meses Internet 6 100.00S/. 600.00S/. Gastos Únicos N° Unidades Laptop core i5 1 4,000.00S/. 4,000.00S/. USB 16Gg 1 35.00S/. 35.00S/. Cuaderno de apuntes 1 1.50S/. 1.50S/. Lapiceros 2 1.00S/. 2.00S/. Encuadernización 1 50.00S/. 50.00S/. Gastos Variables N° Unidades Impresiones 500 0.10S/. 50.00S/. Papers 5 170.00S/. 850.00S/.
TOTAL 5,588.50S/.
Costo (En soles)
55
DIAGRAMA DE GANTT
El diagrama de Gantt que se muestra a continuación detalla las actividades a
realizar para la elaboración de tesis que tiene un tiempo de elaboración de 4
meses finalizando el 15 de diciembre. Los avances de las actividades detalladas
en el cuadro se realizarán de manera continua teniendo como fecha límite de
revisión por el asesor de tesis cada quincena y fin de mes.
DIAGRAMA DE GANTT PARA TESIS
FUENTE: Huanca Milagros FECHA: Octubre 2016
ELABORACIÓN: Propia
Fechas Agosto Diciembre
Actividades Del 16 a l 31
Del 01 a l 15
Del 16 a l 30
Del 01 a l 15
Del 16 a l 31
Del 01 a l 15
Del 16 a l 30
Del 01 a l 15
Antecedentes xProblema de Investigación xMarco teórico xMetodología xResul tados x xConclus iones xRecomendaciones xReferencias bibl iográficas xAnexos xResúmen x
Septiembre Octubre Noviembre
56
REFERENCIAS BIBLIOGRÁFICAS
Albarrán Peréz, P. (2011). Modelos para Datos Censurados y de selección muestral. Universidad de
Alicante.
Álvarez, B. (2008). Modelos censurados, truncados y con selección muestral. Econometría II.
Chakraborty H. (2009). Mixed Model Approach for Intent-to-Treat Analysis in. Triangle Park.
De la Cruz, F. (2008). Modelos multinivel. Sección de Epidemiología del Instituto de Medicina Tropical Daniel A. Carrión.
García de Yébenes, M., Zunzunequi, M., Mathieu , M., Rodríguez Lazo, A., & Otero, A. (2002). Multilevel models applications to the analysis of longitudinal data.
Goldstein, H., & Healy, M. (1995). The Graphical Presentation of a Collection of Means.
Hrishikesh , C., & Hong , G. (2009). A Mixed Model Approach for Intent-to-Treat Analysis in Longitudinal Clinical Trials with Missing Values. RTI International.
Journal of Epidemiology, Community Health. (2001). Journal of Epidemiology and Community Health.
Martinez, C. (2014). Multilevel Analysis Software: A comparative study of MLwiN, HLM, SPSS and. Reunido.
Matos, L., Tsung, L., Castro, L., & Lachos, V. (2016). Heavy-tailed longitudinal regression models for censored data: A likelihood based perspective.
Murillo, F. J. (2008). Multilevel Models as a Tool for Research in Education.
Pérez Fernández, V. (2013). Los modelos multinivel en el análisis de factores de riesgo de sibilancias recurrentes en lactantes. Universidad de Murcia.
Zuehlke, T., & Kassekert, A. (2008). Algorithmic errors in the estimation of tobit II Models and the corresponding failure to recognize selection bias. Department of economics, Florida State university.
57
ANEXOS
Simulación de base de datos en R
Escenario 1
58
set.seed(1)
n=200
n_NA=n/2
n_NB=n/2
IndxMH<-seq(1,n,1)
library(MASS)
#Para NA
NACs10X1<-data.frame(rnorm(n_NA, 3, 2),names="A")
colnames(NACs10X1)<-c("X1","N1")
NACs10X2<-data.frame(rnorm(n_NA, 0, 1.2),names="A")
colnames(NACs10X2)<-c("X2","N1")
#NACs10E<-rnorm(n_NA, 0, 1.2)
#Para NB
NBCs10X1<-data.frame(rnorm(n_NB, 6, 2), names="B")
colnames(NBCs10X1)<-c("X1","N1")
NBCs10X2<-data.frame(rnorm(n_NB, 2, 3.5), names="B")
colnames(NBCs10X2)<-c("X2","N1")
#NBCs10E<-rnorm(n_NB, 0, 1.2)
Es1Cs10E<-data.frame(rnorm(n, 0, 1))
Cs10X1<-rbind(NACs10X1,NBCs10X1)
colnames(Cs10X1)<-c("X1","N1")
Cs10X2<-rbind(NACs10X2,NBCs10X2)
colnames(Cs10X2)<-c("X2","N1")
yEs1Cs10<-10+4*Cs10X1[,1]+2.5*Cs10X2[,1]+Es1Cs10E
DtsEs1Cs10<-cbind(Cs10X1[,2],IndxMH,yEs1Cs10, Cs10X1[,1],Cs10X2[,1],
Es1Cs10E)
59
colnames(DtsEs1Cs10)<-c("N2","N1","Y","X1","X2","E")
#Con 10% de Censura
ncesA<-round(n_NA*0.3)
ncesB<-round(n_NB*0.3)
CesA<-yEs1Cs10[DtsEs1Cs10$N2=="A",1]
ubicA<-matrix(data=0,1,n_NA)
ncesAtemp<-0
while(ncesAtemp<=ncesA)
elemento<-round(runif(1,1,n_NA))
if(ubicA[elemento]==0)
ncesAtemp<-ncesAtemp+1
ubicA[elemento]=1
ubicA<-data.frame(t(ubicA))
colnames(ubicA)<-"Censura10"
CesB<-yEs1Cs10[DtsEs1Cs10$N2=="B",1]
ubicB<-matrix(data=0,1,n_NB)
ncesBtemp<-0
while(ncesBtemp<=ncesB)
elemento<-round(runif(1,1,n_NB))
if(ubicB[elemento]==0)
ncesBtemp<-ncesBtemp+1
ubicB[elemento]=1
ubicB<-data.frame(t(ubicB))
names(ubicB)<-"Censura10"
60
Censura10<-rbind(ubicA,ubicB)
names(Censura10)<-"Censura10"
Censura20<-rbind(ubicA,ubicB)
names(Censura20)<-"Censura20"
Censura30<-rbind(ubicA,ubicB)
names(Censura30)<-"Censura30"
#Base Total para escenario 1
DtsEs1<-cbind(DtsEs1Cs10,Censura10,Censura20,Censura30)
Escenario 2
set.seed(1)
n=600
n_NA=n/2
n_NB=n/2
IndxMH<-seq(1,n,1)
library(MASS)
#Para NA
NACs10X1<-data.frame(rnorm(n_NA, 3, 1),names="A")
colnames(NACs10X1)<-c("X1","N1")
NACs10X2<-data.frame(rnorm(n_NA, 15, 3),names="A")
colnames(NACs10X2)<-c("X2","N1")
#NACs10E<-rnorm(n_NA, 0, 1.2)
#Para NB
NBCs10X1<-data.frame(rnorm(n_NB, 5, 1), names="B")
colnames(NBCs10X1)<-c("X1","N1")
NBCs10X2<-data.frame(rnorm(n_NB, 10, 3), names="B")
61
colnames(NBCs10X2)<-c("X2","N1")
#NBCs10E<-rnorm(n_NB, 0, 1.2)
Es1Cs10E<-data.frame(rnorm(n, 0, 1))
Cs10X1<-rbind(NACs10X1,NBCs10X1)
colnames(Cs10X1)<-c("X1","N1")
Cs10X2<-rbind(NACs10X2,NBCs10X2)
colnames(Cs10X2)<-c("X2","N1")
yEs1Cs10<-10+4*Cs10X1[,1]+2.5*Cs10X2[,1]+Es1Cs10E
DtsEs1Cs10<-cbind(Cs10X1[,2],IndxMH,yEs1Cs10, Cs10X1[,1],Cs10X2[,1],
Es1Cs10E)
colnames(DtsEs1Cs10)<-c("N2","N1","Y","X1","X2","E")
#Con pp (Sin porcentajes) de Censura
pp=0.1
ncesA<-round(n_NA*pp)
ncesB<-round(n_NB*pp)
CesA<-yEs1Cs10[DtsEs1Cs10$N2=="A",1]
ubicA<-matrix(data=0,1,n_NA)
ncesAtemp<-0
while(ncesAtemp<=ncesA)
elemento<-round(runif(1,1,n_NA))
if(ubicA[elemento]==0)
ncesAtemp<-ncesAtemp+1
ubicA[elemento]=1
ubicA<-data.frame(t(ubicA))
62
colnames(ubicA)<-"Censura10"
CesB<-yEs1Cs10[DtsEs1Cs10$N2=="B",1]
ubicB<-matrix(data=0,1,n_NB)
ncesBtemp<-0
while(ncesBtemp<=ncesB)
elemento<-round(runif(1,1,n_NB))
if(ubicB[elemento]==0)
ncesBtemp<-ncesBtemp+1
ubicB[elemento]=1
ubicB<-data.frame(t(ubicB))
names(ubicB)<-"Censura10"
Censura10<-rbind(ubicA,ubicB)
names(Censura10)<-"Censura10"
#Base Total para escenario 2
n50Es2<-cbind(DtsEs1Cs10,Censura10)
n200Es2<-cbind(DtsEs1Cs10,Censura10)
n600Es2<-cbind(DtsEs1Cs10,Censura10)
write.table(n50Es2, file="n50Es2.txt", append=FALSE, sep='\t')
write.table(n200Es2, file="n200Es2.txt", append=FALSE, sep='\t')
write.table(n600Es2, file="n600Es2.txt", append=FALSE, sep='\t')
cor(DtsEs1[DtsEs1$N2=="A",]$X1,DtsEs1[DtsEs1$N2=="A",]$X2)
63
cor(DtsEs1[DtsEs1$N2=="A",]$X1,DtsEs1[DtsEs1$N2=="B",]$X1)
cor(DtsEs1[DtsEs1$N2=="A",]$X2,DtsEs1[DtsEs1$N2=="B",]$X2)