analisis computacional´ modelo de regresion lineal mu ... · practica inicial´ contenidos...
Post on 22-Oct-2019
26 Views
Preview:
TRANSCRIPT
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 1 / 28
Analisis computacionalModelo de regresi on lineal multiple
Incumplimiento de las hip otesis b asicas
Roman Salmeron Gomez
26 de abril de 2014
Contenidos
Contenidos
Practica inicial
Gretl
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 2 / 28
Practica inicial
Gretl
R
Stata
Practica propuesta
Practica inicial
Contenidos
Practica inicial
Gretl
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 3 / 28
Practica inicial
Contenidos
Practica inicial
Gretl
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 4 / 28
En el archivo datos2.xls se dispone de 1260 observaciones correspondientes alas siguientes variables:
wage: salario por horas (en dolares).exper: anos de experiencia de trabajo.union: valor 1 si el trabajador esta afiliado a un sindicato y 0 en caso contrario.female: valor 1 si es mujer y 0 en caso contrario.educ: anos de educacion.
A continuacion analizaremos con el software econometrico Gretl , el entorno deprogramacion R y el paquete estadıstico Stata el siguiente modelo:
waget = β1 + β2 · expert + β3 · uniont + β4 · femalet + β5 · educt + ut.
Descarga de datos: http://www.ugr.es/local/romansg/material/WebEco/datos2.xls.
Software econom etrico Gretl
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 5 / 28
Enlaces interesantes
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 6 / 28
GUIME: Guıa multimedia para la elaboracion de un modelo econometrico.http://www.ugr.es/local/jchica/Pagina2/Modelo/Modelo.htm.Analisis econometrico del modelo lineal general con Gretl.http://www.ugr.es/local/romansg/material/softlibre/gretl0 es.html.Econometrıa basica aplicada con Gretl.http://www.sarriko-online.com/cas/fichas/2009/ficha0809.htm.
Los contenidos mostrados a continuacion corresponden a la version gretl 1.9.13 .Para versiones posteriores puede que se produzcan modificaciones, si bien, sue-len ser leves.
Introducci on de datos y estimaci on por MCO
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 7 / 28
Los datos se pueden o bien introducir directamente a mano (como en cualquierhoja de calculo) a partir de la ruta:
Archivo → Nuevo conjunto de datos
o bien importandolos de otro formato (lo mas comun) a partir de:
Archivo → Abrir archivo de datos → Importar
Para estimar el modelo hay dos opciones, bien mediante la ruta:
Modelo → Mınimos cuadrados ordinarios...
o bien pinchando sobre el icono β de la parte inferior de la ventana principal deGretl .
En ambos casos aparecera la misma nueva ventana donde hay que especificarla variable dependiente y las independientes. Una vez hecho esto, pinchando enAceptar obtendremos los resultados de la estimacion por MCO.
Estimaci on por MCO
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 8 / 28
En la ventana de resultados que obtenemos tenemos el numero de observacionesusadas, el metodo de estimacion aplicado, cual es la variable dependiente ycuales son las independientes, la estimacion de los coeficientes de las variablesindependientes, su desviacion tıpica estimada, el valor experimental para elcontraste de significacion individual y su p-valor asociado, la media y (cua-si)desviacion tipıca de la variable dependiente, la suma de cuadrados de losresiduos, la estimacion de la varianza de la perturbacion aleatoria (mas concre-tamente, de la desviacion tıpica), el coeficiente de determinacion y coeficientede determinacion corregido, el valor experimental del contraste de significacionconjunta ası como su p-valor asociado y, por ultimo, los valores para los trescriterios de informacion tradicionalmente usados.
Ademas, en la parte superior de esta ventana de resultados hay nuevos menusque pasamos a analizar.
Menus Guardar, Gr aficos y An alisis
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 9 / 28
En el menu Graficos podemos:
Representar de forma conjunta los valores originales de la variable dependien-te y su estimacion.Obtener graficos para los residuos utiles a la hora de analizar si hay heteros-cedasticidad o autocorrelacion en el modelo.
En el menu Analisis podemos:
Mostrar los valores de las variables dependiente, estimada y los residuos.Obtener predicciones.Calcular regiones (intervalos y elipses) de confianza para los coeficientes delas variables.Obtener la estimacion de la matriz de covarianzas de los coeficientes:
V ar(
β)
.
Obtener la tabla ANOVA.
Mediante el menu Guardar se puede almacenar en la ventana principal de Gretlinformacion que puede sernos de utilidad como los valores estimados o los resi-duos.
Menu Contrastes y correcci on problemas
Contenidos
Practica inicial
Gretl
Enlaces interesantes
Datos y MCO
Menus Guardar ,Graficos y Analisis
Menu Contrastes ycorreccion problemas
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 10 / 28
A partir de este menu podemos:
Realizar contrastes sobre restricciones lineales de los coeficientes de los re-gresores.Contrastar si la hipotesis de linealidad es o no cierta.Contrastar si hay heteroscedasticidad en el modelo.Contrastar la normalidad de los residuos.Estudir si hay multicolinealidad en el modelo.Contrastar si hay autocorrelacion en el modelo1.
Para estimar bajo heteroscedasticidad, en la ventana principal de Gretl : Modelo→ Otros modelos lineales → Correccion de heteroscedasticidad.Para estimar bajo autocorrelacion, en la ventana principal de Gretl : Modelo →
Series temporales → AR(1)... y elegir Cochrane-Orcutt o Prais-Winsten2.
1Hay que especificar en la ventana principal de Gretl que la estructura del conjunto dedatos es la de una serie temporal: Datos → Estructura del conjuno de datos....
2Para que aparezca esta opcion la estructura del conjunto de datos tiene que ser la deuna serie temporal.
Entorno de programaci on R
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 11 / 28
Entorno de programaci on R
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 12 / 28
R es un conjunto integrado de programas para manipulacion de datos, calculoy graficos, que puede definirse como una nueva implementacion del lenguaje Sdesarrollado en AT&T (por lo que muchos de los libros y manuales sobre S son uti-les para R). El entorno de programacion R esta disponible como software libre conlicencia GNU de la Fundacion de Software Libre. Sus principales caracterısticasson:
Almacenamiento y manipulacion efectiva de datos.Operadores para el calculo sobre variables indexadas, en particular, matrices.
Una amplia, coherente e integrada coleccion de herramientas para analisis dedatos.Posibilidades graficas para analisis de datos, que funcionan directamente so-bre pantalla o impresora.Un lenguaje de programacion bien desarrollado, simple y efectivo, que incluyecondicionales, ciclos, funciones recursivas y posibilidad de entradas y salidas.
Mas informacion en su web oficial: http://www.r-project.org/.
Funci on MUM
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 13 / 28
Para afrontar un primer analisis de un modelo econometrico usando el entornode programacion R, los alumnos contaran con la ayuda de la funcion MenuMUM .Destacar que se trata de una funcion creada por el profesor en la que se vancalculando paso a paso cada uno de los conceptos explicados en clase.Pasos a seguir:
Descarga e instalacion de R.Enlace: http://www.ugr.es/local/romansg/material/softlibre/r1 es.html.¡¡Ojo!! Asegurarse que se asocian los archivos .RData con R .Descargar la funcion MenuMUM: MenuMUM.RData .Enlace: http://www.ugr.es/local/romansg/material/WebEco/MenuMUM.RData.Ejecutar el archivo anterior. Si se ha instalado bien el programa apararecera lapantalla de inicio de R con el siguiente mensaje donde avisan de que se hacargado un espacio de trabajo ya creado: [Previously saved workspace resto-red]Y finalmente, sin mas que escribir MenuMUM() , se puede empezar a traba-jar!!!!.
Ejemplo: http://www.ugr.es/local/romansg/material/WebEco/MUM.html.
Funci on GUIME
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 14 / 28
A continuacion vamos a abordar la estimacion y validacion de un modelo eco-nometrico ası como el estudio del cumplimiento o incumplimiento de las hipotesisbasicas de normalidad, heteroscedasticidad y autocorrelacion de la perturbacionaleatoria, ası como la independencia lineal entre las variables explicativas de laregresion.
Para poder realizar este analisis se instalaran los paquetes car y lmtest (en Insta-lar paquete(s)... del menu Paquetes). Ası, por ejemplo, usaremos las ordenes:
lm para analizar el modelo econometrico empleado.ks.test para el estudio de la normalidad de los residuos mediante el contrastede Kolmogorov-Smirnov.ncv.test para el estudio de la heteroscedasticidad mediante el contraste deBreusch-Pagan.dwtest para el estudio de la autocorrelacion mediante el contraste de Durbin-Watson.vif para el estudio de la multicolinealidad a partir del factor de agrandamientode la varianza de cada coeficiente estimado.
Informacion sobre estas funciones se obtiene a partir del comando help().
Funci on GUIME
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 15 / 28
Pasos a seguir para usar la funcion GUIME:
Almacenar los datos con el nombre datos2.txt en el directorio de trabajode R en formato .txt separado por tabulaciones.Leer los datos mediante el comando:datos = read.table(file="datos2.txt",
header=TRUE, dec=".", sep="\t").Agregar las variables al espacio de trabajo: attach(datos).Escribir la relacion lineal entre las variables:funcion = wage ~ exper + union + female + educ.Copiar y pegar la funcion GUIME en la consola deR (la cual esta disponible en el siguiente enlace:http://www.ugr.es/local/romansg/material/softlibre/estimation/funcion.txt).Ejecutar dicha funcion: GUIME.LM(funcion, datos).
Los resultados se almacenaran en un archivo de texto dentro del directorio detrabajo.En el siguiente enlace puedes encontrar un video explicativo:http://www.ugr.es/local/romansg/material/softlibre/r2 es.html
GUIME.LM <- function(funcion, datos) {
# resultados de la regresion
modelo = lm(funcion, data=datos)
analisis = summary(modelo)
# estudio de la normalidad
residuos = modelo$resid
desviaciontıpica = sd(residuos)
normalidad = ks.test(residuos, pnorm, 0, desviaciontıpica)
# heteroscedasticidad
library(car)
heteroscedasticidad = ncv.test(modelo)
# autocorrelacion
library(lmtest)
autocorrelacion = dwtest(modelo)
# multicolinealidad
multicolinealidad = vif(modelo)
resultado = list(funcion, analisis, normalidad, heteroscedasticidad,
autocorrelacion, multicolinealidad)
names(resultado) = c("Modelo de regresion", "Estimacion y validacion
del modelo", "Normalidad residuos", "Heteroscedasticidad
residuos", "Autocorrelacion residuos", "Multicolinealidad variables")
# salida funcion
sink("AnalisisR.txt")
resultado }
Correcci on de heteroscedasticidad y autocorrelaci on
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 17 / 28
Para resolver el problema de heteroscedasticidad usaremos los Mınimos Cuadra-dos Ponderados sin mas que especificar la opcion weights dentro del comandolm:
reg1 = lm(wage ~ exper + union + female + educ,
weights=exper^2)
En weights se ha de especificar la inversa de aquella cantidad de la quedepende la varianza de la perturbacion aleatoria, esto es, si por ejemploV ar(ut) = σ2 1
exper2t
habrıa que usar exper2t .
Para resolver el problema de autocorrelacion usaremos el procedimiento iterativode Cochrane-Orcutt (para lo cual hay que instalar y cargar el paquete orcutt):
reg1 = lm(wage ~ exper + union + female + educ)
reg2 = cochrane.orcutt(reg1)
Correcci on de heteroscedasticidad y autocorrelaci on
Contenidos
Practica inicial
Gretl
R
Funcion MUM
Funcion GUIME
Incumplimiento
Incumplimiento
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 18 / 28
Un excelente trabajo sobre el diagnostico de estas hipotesis con el en-torno de programacion R, proporcionado por Quick-R, puede consultarse enhttp://www.statmethods.net/stats/rdiagnostics.html.
# leo los datos
datos = read.table(file="datos2.txt", header=TRUE, dec=".", sep="\t")
attach(datos)
# especifico relacion lineal
funcion = wage ~ exper + union + female + educ
# ejecuto funcion GUIME
GUIME.LM(funcion, datos)
# leo los datos
datos = read.table(file="datos2.txt", header=TRUE, dec=".", sep="\t")
attach(datos)
# estimacion por MCO
reg1 = lm(wage ~ exper + union + female + educ)
# correccion autocorrelacion (cargar paquete ’orcutt’)
reg2 = cochrane.orcutt(reg1)
# correccion de la heteroscedasticidad
reg3 = lm(wage ~ exper + union + female + educ, weights=exper^2)
Paquete estadıstico Stata
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 20 / 28
Introducci on de datos y estadısticos descriptivos
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 21 / 28
Los datos en Stata se introducen directamente pulsando el boton correspondien-te a Data Editor (edit) o importandolos, por ejemplo desde Excel, sin mas quecopiarlos en la hoja de calculo y pegandolos en la de Stata (si el nombre de lasvariables esta escrito en la primera fila de la hoja de calculo aparecera un mensajepreguntando si dicha fila ha de tratarla como los nombres de las variables o comodatos).
Adviertase que el delimitador decimal es el punto (al igual que en Gretl ).
Una vez introducimos los datos (y guardados, por ejemplo, en C:\Stata co-mo datos2.dta), en primer lugar vamos a calcular los principales estadısticosdescriptivos de las variables (excepto de las variables union y female por serdicotomicas). Usaremos los comandos su y corr de Stata :
su wage exper educ, detail
corr wage exper educ
Estimaci on del modelo
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 22 / 28
Para estimar y validar el modelo anterior usaremos el comando reg de Stata :
reg wage exper union female educ
Dicho comando da como salida fundamentalmente la tabla ANOVA (contraste designificacion conjunta) junto a su p-valor asociado, el R2 (y su version corregida)y las estimaciones de los coeficientes junto a sus p-valores asociados (contrastesde significacion individual) e intervalos de confianza.
Si se desea estimar el modelo sin termino independiente se ha de usar:
reg wage exper union female educ, noconstant
Valores estimados y su representaci on gr afica
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 23 / 28
Los valores estimados se pueden obtener con el comando predict :
predict estimacion
gener observacion = [_n]
graph twoway line wage estimacion observacion
Adviertase que ademas se han representado de forma conjunta con los valoresoriginales.
Si se desea observar y comparar los valores estimados con los originales pode-mos calcular sus estadısticos principales:
l wage estimacion
su wage estimacion
Obtenci on de los residuos
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 24 / 28
Tambien se podrıan obtener los residuos del modelo, cuestion importante a la horade verificar que se cumplen las hipotesis basicas del modelo lineal general (comoes el caso de la normalidad):
predict residuos, residuals
graph twoway line residuos observacion
su residuos
swilk residuos
Ademas de calcularlos, se han representado, calculado sus estadısticos principa-les y realizado el contraste de Shapiro-Wilk para contrastar la normalidad (que esla hipotesis nula).
Estimaci on robusta
Contenidos
Practica inicial
Gretl
R
Stata
Introduccion de datos yestadısticosdescriptivos
Estimacion del modelo
Valores estimados
Obtencion de losresiduos
Estimacion robusta
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 25 / 28
Finalmente destacar que anadiendo vce(robust) al final del comando reg obtene-mos estimadores robustos a los problemas de heteroscedasticidad y autorrela-cion, es decir, si existen dichos problemas los corrige directamente:
reg wage exper union female educ, vce(robust)
predict residuos, residuals
swilk residuos
clear
clear matrix
capture log close
cd "C:\Stata"
use datos2.dta, clear
log using RESULTADOS, text replace
su wage exper educ, detail
corr wage exper educ
reg wage exper union female educ, vce(robust)
predict estimacion
gener observacion = [_n]
graph twoway line wage estimacion observacion
predict residuos, residuals
graph twoway line residuos observacion
swilk residuos
log close
Practica propuesta
Contenidos
Practica inicial
Gretl
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 27 / 28
Practica propuesta
Contenidos
Practica inicial
Gretl
R
Stata
Practica propuesta
Analisis computacional del modelo de regresion multiple e incumplimiento de hipotesis basicas – 28 / 28
En el archivo datos1.xls se dispone de 1174 observaciones correspondientes alas siguientes variables:
bwt: peso del bebe al nacer (en kg).gestation: periodo de gestacion (en dıas).parity: valor 1 si la madre es primeriza y 0 en caso contrario.age: edad de la madre (en anos).height: altura de la madre (en metros).weight: peso de la madre (en kg).smoke: valor 1 si la madre fuma y 0 en caso contrario.
Analizar el siguiente modelo:
bwtt = β1 + β2 · gestationt + β3 · parityt + β4 · aget
+β5 · heightt + β6weightt + β7smoket + ut.
Descarga de datos: http://www.ugr.es/local/romansg/material/WebEco/datos1.xls.
top related