benavente otero vasquez apunte econometria i

162

Upload: andresflores

Post on 31-Jul-2015

182 views

Category:

Documents


10 download

TRANSCRIPT

Page 1: Benavente Otero Vasquez Apunte Econometria I

Econometría I

Autores:1Jose Miguel Benavente

Andrés OteroJaviera Vásquez

Agosto 2007

1Cualquier error es responsabilidad exclusiva de los autores.

Page 2: Benavente Otero Vasquez Apunte Econometria I

Índice general

1. Introducción 5

2. Modelo de Regresión Lineal 8

2.1. Análisis de Regresión . . . . . . . . . . . . . . . . . . . . . . . . . 8

2.1.1. ¾Qué es una regresión? . . . . . . . . . . . . . . . . . . . . 8

2.1.2. Relaciones estadísticas versus relaciones determinísticas . . 9

2.1.3. Regresión versus Causalidad . . . . . . . . . . . . . . . . . 10

2.1.4. Regresión versus Correlación . . . . . . . . . . . . . . . . . 10

2.2. Análisis de regresión con dos variables . . . . . . . . . . . . . . . 14

2.2.1. Función de regresión poblacional (FRP) . . . . . . . . . . 16

2.2.2. Especicación estocástica de la función de regresión pobla-cional . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

2.2.3. Función de regresión muestral . . . . . . . . . . . . . . . . 18

2.2.4. Propiedades de un Estimador . . . . . . . . . . . . . . . . 21

2.3. Modelo de regresión con dos variables . . . . . . . . . . . . . . . . 24

2.3.1. Método de Mínimos Cuadrados Ordinarios . . . . . . . . . 24

2.3.2. Supuestos detrás del método MCO . . . . . . . . . . . . . 31

2.3.3. Errores estándar de los Estimadores Mínimos CuadradosOrdinarios . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

1

Page 3: Benavente Otero Vasquez Apunte Econometria I

2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2 . . . . . . . 36

2.4. Modelo de Regresión con k variables . . . . . . . . . . . . . . . . 38

2.4.1. Representación Matricial del Modelo de Regresión Lineal . 38

2.4.2. Estimador Mínimo Cuadrados Ordinarios . . . . . . . . . . 39

2.5. Propiedades del estimador MCO . . . . . . . . . . . . . . . . . . . 41

2.5.1. Propiedad de mejor estimador lineal insesgado . . . . . . . 42

2.5.2. Teorema de Gauss-Markov . . . . . . . . . . . . . . . . . . 42

2.6. Geometría del Estimador MCO . . . . . . . . . . . . . . . . . . . 44

2.7. Bondad de Ajuste y Análisis de Varianza . . . . . . . . . . . . . . 45

2.7.1. Modelo de Regresión Lineal en Desvíos . . . . . . . . . . . 45

2.7.2. Análisis de Varianza . . . . . . . . . . . . . . . . . . . . . 47

2.7.3. Bondad de Ajuste: R2 y R2 . . . . . . . . . . . . . . . . . 48

2.8. Inferencia . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

2.8.1. Test t (Una hipótesis lineal) . . . . . . . . . . . . . . . . . 53

2.8.2. Test F (Conjunto de hipótesis lineales) . . . . . . . . . . . 61

2.8.3. Intervalos de Conanza . . . . . . . . . . . . . . . . . . . . 61

2.8.4. Test de Normalidad (Test de Jarque-Bera) . . . . . . . . . 63

2.9. Predicción . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

2.9.1. Medición de la precisión de la predicción . . . . . . . . . . 67

2.10. Estimación Máximo Verosímil (EMV) . . . . . . . . . . . . . . . . 74

2.10.1. Propiedades de los estimadores MV . . . . . . . . . . . . . 75

2.10.2. Estimación MV . . . . . . . . . . . . . . . . . . . . . . . . 76

2.11. Inferencia en el contexto MV . . . . . . . . . . . . . . . . . . . . . 80

2.11.1. Test de Razón de Verosimilitud (LR) . . . . . . . . . . . . 80

2

Page 4: Benavente Otero Vasquez Apunte Econometria I

2.11.2. Test de Wald (W) . . . . . . . . . . . . . . . . . . . . . . . 81

2.11.3. Test del Multiplicador de Lagrange (LM) . . . . . . . . . . 81

2.12. Algunas acotaciones respecto a la estimación y la inferencia MV . 85

3. Forma Funcional y Especicación 87

3.1. Regresores Estocásticos en el Modelo de Regresión Lineal . . . . . 87

3.2. Incorporación de No Linealidades . . . . . . . . . . . . . . . . . . 89

3.2.1. Test de No Linealidades Omitidas (Test de Reset) . . . . . 90

3.3. Variables Dummies o cualitativas . . . . . . . . . . . . . . . . . . 92

3.3.1. Posibles usos de las variables Dummies . . . . . . . . . . . 97

3.4. Variable Dependiente Rezagada . . . . . . . . . . . . . . . . . . . 101

3.4.1. Ejemplo y advertencias sobre el uso de variable dependienterezagada como regresor . . . . . . . . . . . . . . . . . . . . 103

3.5. Selección de Modelos . . . . . . . . . . . . . . . . . . . . . . . . . 105

3.5.1. Ejemplo: Retornos a la educación, diferencias entre hom-bres y mujeres . . . . . . . . . . . . . . . . . . . . . . . . . 106

3.6. Regresión Particionada . . . . . . . . . . . . . . . . . . . . . . . . 109

3.7. Omisión de Variables Relevantes . . . . . . . . . . . . . . . . . . . 110

3.7.1. Impacto sobre el Insesgamiento . . . . . . . . . . . . . . . 110

3.7.2. Impacto sobre la Varianza . . . . . . . . . . . . . . . . . . 111

3.7.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 112

3.8. Inclusión de Variable Irrelevantes . . . . . . . . . . . . . . . . . . 114

3.8.1. Impacto sobre Insesgamiento . . . . . . . . . . . . . . . . . 114

3.8.2. Impacto sobre Varianza . . . . . . . . . . . . . . . . . . . 114

3.8.3. Ejemplo . . . . . . . . . . . . . . . . . . . . . . . . . . . . 115

3

Page 5: Benavente Otero Vasquez Apunte Econometria I

3.9. Perturbaciones no Esféricas . . . . . . . . . . . . . . . . . . . . . 117

3.9.1. Consecuencias de estimación por MCO . . . . . . . . . . . 118

3.9.2. Estimación Eciente: Mínimos Cuadrados Generalizados . 118

3.9.3. Test de Hipótesis . . . . . . . . . . . . . . . . . . . . . . . 119

3.9.4. Estimación cuando Ω es desconocida:Mínimos Cuadrados Factibles . . . . . . . . . . . . . . . . 120

3.9.5. Heterocedasticidad . . . . . . . . . . . . . . . . . . . . . . 121

3.9.6. Autocorrelación . . . . . . . . . . . . . . . . . . . . . . . . 130

4. Problemas con los datos 149

4.1. Multicolinealidad . . . . . . . . . . . . . . . . . . . . . . . . . . . 149

4.1.1. Multicolinealidad Exacta y Multicolinealidad Aproximada 151

4.1.2. Detección de Multicolinealidad . . . . . . . . . . . . . . . 151

4.1.3. Otros métodos de detección de multicolinealidad . . . . . . 153

4.1.4. Remedios contra la Multicolinealidad . . . . . . . . . . . . 155

4.2. Error de Medición . . . . . . . . . . . . . . . . . . . . . . . . . . . 157

4.2.1. Estimación por Variables Instrumentales . . . . . . . . . . 159

4.2.2. Test de Hausman . . . . . . . . . . . . . . . . . . . . . . . 160

4

Page 6: Benavente Otero Vasquez Apunte Econometria I

Capítulo 1

Introducción

Econometría es la ciencia que aplica métodos matemáticos y estadísticos al análi-sis de datos económicos, con el objetivo de dotar de una base empírica a unateoría económica, para así refutarla o vericarla.

Aunque la econometría parece ser tan antigua como la misma ciencia económica,sólo en 1930 se crea la Sociedad Econométrica, la cual sistematizó su estudio ypráctica. En 1933 se lanza el primer número de Econometrica en el que RagnanFrish (uno de los fundadores de la Sociedad Econométrica, a quién de hecho, sele acredita el haber acuñado el término .Econometría") destaca: "La experienciaha mostrado que cada uno de estos tres puntos de vista, el de la estadística, lateoría económica y las matemáticas, es necesario, pero por si mismo no sucientepara una comprensión real de las relaciones cuantitativas de la vida económicamodera. Es la unión de los tres aspectos lo que constituye una herramienta deanálisis potente. Es la unión lo que constituye la econometría".

Sin embargo, las metodologías aplicadas en econometría (los tres puntos de vistade Frish), no han sido utilizados exclusivamente por la ciencia económica. Otrasciencias naturales también han aprovechado sus ventajas. Sin embargo, en elcampo del comportamiento económico adquieren especial particularidad y rele-vancia, en tanto el ambiente y el comportamiento económicos, son esencialmenteno-experimentales, colocándonos en situaciones donde todas las variables rele-vantes parecen moverse constantemente y donde existen factores impredeciblesque pueden alterar los resultados. Es por esto que la econometría es esencial-mente una ciencia no determinística, donde se reconoce la existencia de factoresesencialmente impredecibles que determinan nuestras conclusiones.

5

Page 7: Benavente Otero Vasquez Apunte Econometria I

Capitulo 1: IntroducciónEconometría I

FEN, Universidad de Chile

La metodología econométrica se puede detallar (a grandes rasgos) según lo enun-cia la Figura 1. En primer lugar contamos con una teoría económica que buscavalidez. Para ella, es necesario encontrar su equivalente modelo econométrico(relaciones matemáticas que describan el comportamiento de los agentes involu-crados). Para estimar entonces dicho modelo, se necesita de la ecuación resultantedel modelo, los datos que ella implica y los supuestos bajo los cuales se construye.Sólo una vez que contamos con dichos ingredientes se procede a estimar cuan-titativamente las predicciones o implicancias expuestas por la teoría económicainicial. Luego, se debe realizar inferencia o pruebas de hipótesis, las cuales nos in-dicarán si nuestros resultados son estadísticamente signicativos. Si la respuestaes si, entonces sólo queda realizar las predicciones pertinentes y las recomenda-ciones de política asociadas. Si la respuestas es no, entonces, debemos revisar losposibles errores que existan a nivel de teoría o metodología.

TEORIA ECONOMICA

MODELO ECONOMETRICO

ECUACION DATOS SUPUESTOS

ESTIMACION

INFERENCIA Y PRUEBA DE HIPOTESIS

PREDICCIONES Y

RECOMENDACIONES DE POLITICA

SI NO

TEORIA VERIFICADA

6

Page 8: Benavente Otero Vasquez Apunte Econometria I

Capitulo 1: IntroducciónEconometría I

FEN, Universidad de Chile

Esta breve descripción no es más que una somera vista a lo que realmente implicahacer econometría. El camino no está exento de dicultades (en términos de lacalidad de los datos, de la dicultad de medir las variables que la teoría indica,de los supuestos que realizamos, etc), sin embargo, esto, más que una dicultad,implica un desafío.

7

Page 9: Benavente Otero Vasquez Apunte Econometria I

Capítulo 2

Modelo de Regresión Lineal

2.1. Análisis de Regresión

2.1.1. ¾Qué es una regresión?

La regresión es un elemento fundamental en la Econometría, corresponde a unestudio de dependencia entre una variable dependiente y una o más variablesexplicativas. El análisis de regresión tiene como objeto estimar y/o predecir elpromedio poblacional de la variable dependiente para valores jos de la(s) vari-able(s) explicativa(s).Por ejemplo, observemos la Figura 1, en el eje de las abscisas tenemos nuestravariable explicativa (X): notas controles, y en el eje de las ordenadas tenemosnuestra variable dependiente (Y): nota examen.

Notas de los controles

Figura 1: Distribución de las Notas del Examen vs. Promedio Notas deControles

8

Page 10: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Podemos observar dos cosas: primero, para cada nota posible en los controles(3.0, 4.0,..) tenemos un rango o distribución de notas en el examen y segundo,el promedio de notas en el examen es mayor mientras mayores son notas de loscontroles. Esto último se puede apreciar al trazar una recta que una los valorespromedios de notas en examen para cada nota en los controles (linea negra del laFigura 1), la que corresponde a la recta de regresión. Esta nos permite, paracada nivel de edad, predecir la estatura promedio correspondiente.

2.1.2. Relaciones estadísticas versus relaciones determinís-ticas

La calidad de un producto, por ejemplo el vino, dependerá de como fue su cosechay por lo tanto, de variables como la temperatura al que estuvo expuesta la uva, lacantidad de lluvia, sol y los fertilizantes. La relación entre estas variables explica-tivas y la calidad del vino tiene una naturaleza estadística, ya que si bien estasvariables ayudan al productor de vino a saber más o menos como será la cosecha,no podrá predecir en forma exacta la calidad del producto debido a los erroresinvolucrados en estas variables y porque pueden haber otros factores difíciles demedir que estén afectando la calidad del vino.La variable dependiente, en este caso la calidad del vino, tiene una variabilidadaleatoria, ya que no puede ser explicada en su totalidad por las variables explica-tivas.

En la econometría nos interesa la dependencia estadística entre variables, dondetratamos con variables aleatorias, es decir, variables que tienen una distribuciónde probabilidad. La dependencia determinística, por el contrario, trata relacionescomo la ley de gravedad de Newton1, las que son exactas (no tienen naturalezaaleatoria).

1La ley de gravedad de Newton plantea que toda partícula en el universo atrae a cualquierotra partícula con una fuerza directamente proporcional al producto de sus masas e inversamenteproporcional al cuadrado de la distancia entre ellas: F=k(m1m2

r2 ), donde F=fuerza, m1 y m2

son la masa de las dos partículas, r es la distancia y k una constante de proporcionalidad. Estaes una relación determinística, ya que para valores de masas, distancia y constante sabemosexactamente a la fuerza que se atraen estas partículas. Si alguna de las variables estuvieramedida con error, la ley de Newton pasa a ser una relación estadística, y F se convierte en unavariable aleatoria.

9

Page 11: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.1.3. Regresión versus Causalidad

Es importante tener claro que la regresión es una relación estadística, que noimplica causalidad apriori. En el ejemplo del vino, no hay una razón estadísticapara suponer que la lluvia no depende de la calidad del vino. Pero nuestro sentidocomún nos hace considerar como variable dependiente la calidad del vino y no lalluvia. Es importante recordar de aquí en adelante que una relación estadísticano puede por sí misma implicar en forma lógica una causalidad.

2.1.4. Regresión versus Correlación

El Análisis de Correlación está estrechamente relacionado con el de regresiónaunque conceptualmente son dos cosas muy diferentes. El análisis de correlacióntiene como objetivo medir el grado de asociación lineal entre dos variables, medidaa través del coeciente de correlación. Por ejemplo, se puede estar interesadoen medir el grado de correlación entre años de educación y salario. En cambio, elanálisis de regresión trata de estimar o predecir el valor promedio de salario paraun nivel dado de educación.

Las diferencias fundamentales son que, en el análisis de regresión, tenemos unavariable dependiente y una o más explicativas, la que son tratadas en formaasimétrica: la variable dependiente es aleatoria, tiene una distribución de proba-bilidad, en cambio las variables explicativas toman valores jos. En el análisis decorrelación las variables son tratadas de forma simétrica: la correlación entre edu-cación y salario es igual a la correlación entre salario y educación. Además ambasvariables son aleatorias. Así, si x e y son dos variables aleatorias, el coeciente decorrelación se dene de la siguiente manera:

ρyx =E [x− E(x)] [y − E(y)]√

var(x)var(y)=

σxy√σ2

xσ2y

Lo que se calcula para una muestra de la siguiente forma:

ρyx =

∑ni=1

[xi −X

] [yi − Y

]√∑n

i=1

[xi −X

]2√∑n

i=1

[yi − Y

]2

con X = 1n

∑ni=1 xi e Y = 1

n

∑ni=1 yi.

De ahora en adelante denotaremos con un ˆ a los estimadores de un estadísti-co obtenidos a partir de información muestral.

10

Page 12: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ejemplo 1: Portales de Internet, correlación entre número de visitas y valor dela empresa:

Ejemplo 2: Correlación entre Empleo y Producto (serie de tiempo):

11

Page 13: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ejemplo 3: Correlación entre Producto per-capita y ranking fútbol:

Ejemplo 4: Correlación entre temperatura media del día y estudiantes ausentesa clases:

12

Page 14: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Algunas precauciones con el coeciente de correlación:

Cuidado cuando el grado de correlación muestral depende de solo unaspocas observaciones.

El coeciente de correlación mide una relación lineal. Por lo tanto, unavariable puede depender de otra aún cuando la correlación sea cero si larelación es no lineal.

Correlación no implica causalidad económica, es sólo una relación estadís-tica.

Correlación puede indicar relación espuria.

No olvidar que la correlación muestral es una variable aleatoria y que porlo tanto, el coeciente por si sólo no garantiza la existencia de una relaciónestadística entre las series.

13

Page 15: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.2. Análisis de regresión con dos variables

Para esta sección asumiremos que existe una variable dependiente (Y) que esexplicada por sólo una variable (X).

Consideremos el siguiente ejemplo. En la Tabla 1 se presentan datos de salariosy nivel de educación para una población de 60 individuos 2

Tabla 1: Salarios y Años de EducaciónAños de Educación (X)

Salario (Y) 8 9 10 11 12 13 14 15 16 1716000 18260 15000 15000 20000 20000 21912 35000 40000 6000032868 36520 40000 40000 50000 54780 60000 73040 90000 12000050000 54780 58000 60000 73040 80000 89000 100000 105000 16578480000 82170 90000 90000 100000 100500 120000 140000 180000 250000100000 109560 120000 120000 140000 160000 200000 230000 280000 365200150000 170000 182600 188973 219120 257880 300000 400000 434686 600000219120 273900 280000 328680 365200 400000 500000 600000 730400 1095600300000 365200 380000 434120 500000 550000 650000 883085 1000000 1643400547800 730400 913000 821700 1064558 1460800 1500000 1826000 2487041 4000000

E(Y|X) 166199 204532 230956 233164 281324 342662 382324 476347 594125 922220

La población tiene 10 niveles distintos de educación, que van desde 8 a 17. Paracada uno de estos niveles tenemos 9 individuos con distintos salarios. A pesar de lavariabilidad en los salarios para cada nivel educacional considerado, en promedioel salario se incrementa a medida que los años de educación aumentan. Estoúltimo se puede vericar al calcular el promedio para cada nivel de educación, loque se presenta en la última linea de la Tabla 1, estos corresponden a los valoresesperados condicionales, ya que dependen de los valores dados de la variable X.En la Figura 2, los valores medios condicionales están marcados con una cruz. Launión de estos valores representa la Recta de regresión poblacional, dondeel término poblacional se reere a que estamos trabajando con el total de lapoblación.

01

00

00

00

20

00

00

03

00

00

00

40

00

00

0sa

lario

8 10 12 14 16 18

xx

x xx x x

x xx

Figura 2: Distribución de los salarios para distintos niveles de educación.

Recta de regesiónpoblacional (RRP)

Escolaridad

2Una población de 60 individuos puede parecer un poco pequeña, pero por el momentoconsideremos que estas familias son el total existente

14

Page 16: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Denición: La curva de regresión poblacional es simplemente el lugar geométri-co de las medias condicionales de la variable dependiente para los valores jos dela(s) variable(s) explicativa(s).

En el ejemplo anterior los valores de Y (salario) no estaban distribuidos de formasimétrica en torno al valor promedio para cada valor X, desde ahora asumiremosque esto si se cumple, tal como lo podemos apreciar en la Figura 3.

Figura 3: Ingreso semanal y Gasto semanal. Distribución simétrica

En este ejemplo, se ve la relación entre ingreso semanal y gasto en consumosemanal, para cada nivel de ingreso se tiene un rango de gasto que se distribuyeen forma simétrica entorno al valor promedio condicional de gasto.

15

Page 17: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.2.1. Función de regresión poblacional (FRP)

De lo anterior es claro que la media condicional E(Y|Xi) es función de Xi, dondeXi es un valor dado de X:

E(Y |Xi) = f(Xi) (2.1)

donde f(·) es una función cualquiera, en el ejemplo anterior era una función lineal.La ecuación (2.1) se denomina Regresión Poblacional.

Que forma tiene f(·) es una pregunta empírica, aunque muchas veces la teoría nospuede ayudar bastante. Supongamos que en nuestro ejemplo anterior el salarioesta relacionado linealmente con la educación, así podemos suponer que la funciónde regresión poblacional E(Y|Xi) es una función lineal de Xi, es decir:

E(Y |Xi) = β1 + β2Xi (2.2)

donde β1 y β2 se denominan coecientes de regresión. Así el objetivo es estimarβ1 y β2 a partir de datos de X e Y.

2.2.2. Especicación estocástica de la función de regresiónpoblacional

En los dos ejemplos anteriores veíamos que a medida que se incrementa la vari-able explicativa (educación o ingreso), el valor promedio de la variable dependi-ente (salario o gasto) también se incrementaba. Sin embargo, este patrón se dasolo a nivel de promedios. A nivel individual esto no es necesariamente cierto.En la Tabla 1 podemos ver que el individuo que gana menos ingreso con 9 añosde educación, gana menos que el individuo con 8 años de educación con mayorsalario.

Existe una dispersion de los valores individuales de Yi en torno al promediocondicional de esta variable. De esta forma, podemos denir:

ui = Yi − E(Y |Xi)

o

Yi = E(Y |Xi) + ui (2.3)

donde ui es una variable aleatoria no observable que toma valores positivos o neg-ativos. Este término surge pues no se puede esperar que todas las observaciones

16

Page 18: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Yi sean igual al promedio condicional a Xi.

Recordemos que la regresión es una relación estadística, a pesar de conocer losvalores de Xi, esto no nos permite predecir en forma exacta Yi. Lo que no pode-mos explicar debido a que tiene naturaleza aleatoria se representa a través de ui,denominado término de error estocástico.Entonces siguiendo el ejemplo de la Figura 3, podemos decir que el gasto de unafamilia individual (Yi) corresponde a la suma de dos componentes:

E(Y|Xi), que corresponde a la media de gasto de todas las familias con elmismo nivel de ingresos → Componente Determinístico

ui → Componente Aleatorio

Si E(Y|Xi) es lineal en Xi, podemos escribir la ecuación (2.3) de la siguienteforma:

Yi = E(Y |Xi) + ui

= β1 + β2Xi + ui (2.4)

Tomando el valor esperado condicional en Xi a la ecuación (2.4):

E(Yi|Xi) = E[E(Y |Xi)|Xi] + E(ui|Xi)

= E(Y |Xi) + E(ui|Xi) (2.5)

Debido a que E(Yi|Xi) = E(Y |Xi), implica que:

E(ui|Xi) = 0 (2.6)

Así, el supuesto de que la recta de regresión pasa a través de las medias condi-cionales de Y, implica que la media condicional de ui es cero.

17

Page 19: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.2.3. Función de regresión muestral

En la mayoría de los fenómenos económicos a estudiar, no disponemos de lasobservaciones totales de la población, como hemos supuesto hasta ahora. En lapráctica se tiene alcance nada más que a una muestra de los valores de Y quecorresponden a unos valores jos de X. En este caso tenemos que estimar la fun-ción de regresión poblacional en base a información muestral.

Los datos poblacionales asociados a la Figura 3 son los siguientes:

Tabla 2. Ingreso familiar (X) y Gasto en consumo (Y).Y|X 80 100 120 140 160 180 200 220 240 260

Gasto en 55 65 79 80 102 110 120 135 137 150consumo 60 70 84 93 107 115 136 137 145 152familiar 65 74 90 95 110 120 140 140 155 175semanal 70 80 94 103 116 130 144 152 165 178(Y) 75 85 98 108 118 135 145 157 175 180

- 88 - 113 125 140 - 160 189 185- - - 115 - - - 162 - 191

Media Condicional 65 77 89 101 113 125 137 149 161 173

Supongamos que nosotros no conocemos estos datos, es decir, no tenemos accesoa las observaciones correspondientes a la población total. Tenemos a nuestra dis-posición sólo una muestra (Tabla 3), la que ha sido obtenida de forma aleatoriade la población.Es importante notar que a partir de una población podemos sacar una gran can-tidad de muestras en forma aleatoria y en la realidad nosotros observamos solouna de ellas. Debido a esta variabilidad en las muestras podremos estimar la FRPpero no de manera precisa. Para ejemplicar esto supongamos que además de lamuestra en la Tabla 3 se saco otra muestra (Tabla 4) a partir de la informaciónpoblacional.

Tabla 3. Muestra aleatoriade la población en tabla 2.Y X70 8065 10090 12095 140110 160115 180120 200140 220155 240150 260

Tabla 4. Muestra aleatoriade la población en tabla 2.Y X55 8088 10090 12080 140118 160120 180145 200135 220145 240175 260

18

Page 20: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Al gracar los datos de las Tablas 3 y 4 obtenemos los diagramas de dispersion enla Figura 4. En este diagrama se han trazado dos rectas de regresión mues-tral: FRM1 corresponde a la primera muestra y FRM2 corresponde a la segunda.Como vemos, no es posible asegurar cual de las dos rectas muestrales representamejor la recta de regresión poblacional.

Entonces es importante tener en mente que las rectas de regresión muestral rep-resentan la recta de regresión poblacional, pero debido a uctuaciones muestralespueden ser consideradas sólo como una aproximación.

Como contraparte muestral la función de regresión muestral puede escribirsecomo:

Yi = β1 + β2Xi (2.7)

donde Yi es el estimador de E(Y|Xi), β1 es el estimador de β1 y β2 es el estimadorde β2.

Figura 4: Rectas de Regresión basadas en dos muestras distintas

Denición: Un estimador es una regla, fórmula o método que dice cómo deter-minar el parámetro poblacional a partir de la información suministrada por lamuestra disponible.

De igual manera que para el caso poblacional la función de regresión muestral

19

Page 21: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

también tiene una representación estocástica:

Yi = β1 + β2Xi + ui (2.8)

Entonces, el objetivo del Análisis de Regresión es estimar la Función de regresiónpoblacional:

Yi = β1 + β2Xi + ui (2.9)

con base en la Función de regresión muestral:

Yi = β1 + β2Xi + ui (2.10)

Esta aproximación se puede ver en la Figura 5:

Figura 5: Rectas de Regresión muestral y poblacional

En términos de la función de regresión muestral, la Yi observada puede ser ex-presada como:

Yi = Yi + ui (2.11)

y en términos de la función de regresión poblacional puede ser expresada como:

Yi = E(Y |Xi) + ui (2.12)

20

Page 22: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

En la gura 5 podemos notar que para todo Xi a la derecha del punto A, Yi

sobreestima E(Y |Xi). De igual manera, para cualquier punto a la izquierda de A,Yi subestima E(Y |Xi). Esta sobreestimación y subestimación del modelo pobla-cional es inevitable debido a las uctuaciones muestrales.

¾Cómo se puede construir la función de regresión muestral para β1

y β2 que este lo más cerca de los valores verdaderos (poblacionales) deβ1 y β2?

2.2.4. Propiedades de un Estimador

Un estimador, siendo función de la muestra, es una variable aleatoria y tiene supropia distribución de probabilidad.

Las propiedades de los estimadores son las siguientes:

1. Se denomina sesgo a la diferencia entre el valor esperado del estimador ysu verdadero valor: E(β)− β. De esta forma, se dice que β es un estimadorinsesgado si E(β) = β.

2. El estimador es eciente o de mínima varianza si no hay ningún otro esti-mador insesgado que tenga una varianza menor que β. En general se trata deutilizar estimadores de varianza pequeña, pues de este modo la estimaciónes más precisa.

3. El Error Cuadrático Medio (ECM) es una propiedad de los estimadores quemezcla los conceptos de eciencia e insesgamiento. El ECM de β se denecomo:

ECM(β) = E[(β − β)2]

Lo que se puede expresar equivalentemente de la siguiente manera:ECM(β) = V ar(β) + [Sesgo(β)]2

4. La última propiedad de un estimador es la consistencia. El estimador βes consistente si converge (en el limite) al verdadero valor del parámetro.Se dice que la sucesión de variables aleatorias X1, X2,...,Xn converge enprobabilidad a la variable aleatoria (o constante) X si:

∀ε > 0, lımn→∞

Pr[|Xn −X| < ε] = 1

Esto se denota plim Xn = X. Dos reglas útiles al respecto son:

21

Page 23: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

plim(

XY

)=plimX

plimY

plim (X · Y )=plimX · plimY

Ejemplo: Tenemos una variable yi que esta compuesta por la suma de un com-ponente jo o determinístico (c) y un componente aleatorio(ui):

yi = c︸︷︷︸componente fijo

+ ui︸︷︷︸componente aleatorio

Si ui ∼ N(0, σ2u), entonces:

µ = E(yi) = c

V (yi) = E[(yi − E(yi))2] = E[u2

i ] = σ2u

22

Page 24: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ahora consideremos el siguiente estimador de la esperanza de yi, la media mues-tral:

µ = Y =1

n(y1 + y2 + ... + yn) =

1

n

n∑i=1

yi

Veamos que propiedades tiene este estimador:

Insesgamiento: E(µ) = µ

E(µ) = E(Y

)

= E

(1

n(y1 + y2 + ... + yn)

)

=1

n(E(y1) + E(y2) + ... + E(yn))

dado que E(yi) = E(c) + E(ui)︸ ︷︷ ︸0

= c,

E(µ) = c = µ

Eciencia: V ar(µ)<V ar(µ1)Comparemos el estimador promedio muestral con un estimador que es sim-plemente cualquier valor de yi:

µ = Y E(Y ) = c V ar(Y )=σ2u

n

µ1 = yi E(yi) = c V ar(yi) = σ2u

Entonces para n>1 siempre se cumple que µ es más eciente (menor vari-anza) que µ1.

Error Cuadrático Medio: Como µ es un estimador insesgado de µ aligual que µ1, el error cuadrático medio de ambos estimadores es igual a lavarianza del estimador, de esta forma µ tiene menor error cuadrático medioque µ1.

Consistencia: µ es un estimador consistente dado que:

plim(µ) = plim(Y ) = c

Ya que si lımn→∞ V ar(Y ) = 0 ⇒ plim(Y ) = c.

23

Page 25: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.3. Modelo de regresión con dos variables

2.3.1. Método de Mínimos Cuadrados Ordinarios

De la sección anterior teníamos que el error estimado era:ui = Yi − Yi

= Yi − β1 − β2Xi (2.13)es decir, los residuos son simplemente la diferencia entre los valores verdaderos yestimados de Y.

Si queremos que la función de regresión muestral sea lo más cercana posiblea la poblacional, debemos tratar de escoger los coecientes de regresión (los β's)de forma tal que los errores sean lo más pequeños posible. De acuerdo a estoun criterio para escoger la función de regresión muestral podría ser minimizarla suma de los los errores:

∑ui =

∑(Yi − Yi), sin embargo este criterio no es

muy bueno. Observemos la Figura 6, existe una gran diferencia en la magnitudde los errores, sin embargo en la suma de los errores todos reciben el mismo peso.Debido a esto es posible que la suma de los errores sea muy pequeña cercana acero, incluso cuando la dispersion de los errores en torno a la función de regresiónmuestral es alta.

Figura 6: Mínimos Cuadrados Ordinarios

24

Page 26: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Este problema puede ser solucionado al considerar la suma de los errores alcuadrado como criterio a minimizar, en este caso los errores más lejos recibenun mayor peso:

∑u2

i =∑

(Yi − Yi)2

=∑

(Yi − β1 − β2Xi)2 (2.14)

El Método de Mínimos Cuadrados Ordinarios (MCO) escoge β1 y β2 deforma tal que para una muestra dada,

∑u2

i sea lo más pequeño posible.

Entonces el problema que este método propone resolver es el siguiente:

mınβ1,β2

∑(Yi − β1 − β2Xi)

2 (2.15)

las condiciones de primer orden de este problema son:

∂∑

u2i

∂β1

= −2∑

(Yi − β1 − β2Xi) = −2∑

ui = 0 (2.16)

∂∑

u2i

∂β2

= −2∑

(Yi − β1 − β2Xi)Xi = −2∑

uiXi = 0 (2.17)

Simplicando (2.16) y (2.17) obtenemos las ecuaciones normales:∑

Yi = nβ1 + β2

∑Xi (2.18)

∑YiXi = β1

∑Xi + β2

∑X2

i (2.19)

Debemos resolver un sistema con dos ecuaciones y dos incógnitas. De la ecuación(2.18) podemos despejar β1:

β1 =

∑Yi − β2

∑Xi

n(2.20)

reemplazando (2.20) en (2.19):

∑YiXi =

(∑Yi − β2

∑Xi

n

)·∑

Xi + β2

∑X2

i (2.21)

De esta forma, el estimador de β2 es:

β2 =n ·∑ YiXi −

∑Xi

∑Yi

n ·∑X2i − (

∑Xi)2

(2.22)

25

Page 27: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

El que puede ser escrito de la siguiente forma (hacerlo):

β2 =

∑xiyi∑x2

i

(2.23)

donde xi = Xi −X e yi = Yi − Y , con X = 1n

∑ni=1 Xi e Y = 1

n

∑ni=1 Yi

Reemplazando (2.22) en (2.20):

β1 =

∑X2

i

∑Yi −

∑Xi

∑XiYi

n ·∑X2i − (

∑Xi)2

(2.24)

= Y − β2X (2.25)

Los resultados (2.23) y (2.25) podrían haber sido obtenidos de igual forma, expre-sando inicialmente el modelo de regresión en desviaciones con respecto a la media.

El modelo de regresión original es:

Yi = β1 + β2Xi + ui

si le restamos el promedio de esta:

Y = β1 + β2X + ui (2.26)

y recordando que el valor esperado del término de error es 0, tenemos el siguientemodelo de regresión lineal expresado en desviaciones con respecto a la media:

(Yi − Y ) = β2(Xi −X) + ui

yi = β2xi + ui

Así el problema de Mínimos Cuadrados Ordinarios es:

mınβ2

∑(yi − β2xi)

2

La condición de primer orden de este problema es:

∂∑

u2i

∂β2

= −2∑

(yi − β2xi)xi = 0

Así obtenemos el mismo estimador de β2, encontrado en (2.23), y β1 se obtienesimplemente despejando la ecuación (2.26):

β1 = Y − β2X

26

Page 28: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

que corresponde a lo mismo en la ecuación (2.25).

Una vez estimados los coecientes de regresión mediante MCO y utilizando lainformación muestral, la recta de regresión muestral (Yi = β1 + β2Xi) puede serobtenida fácilmente.

Ejemplo 1: Disponemos datos de una empresa química sobre el gasto que el-la realiza en Investigación y Desarrollo (I+D) y las ganancias anuales de estacompañía:

Año Gasto en I+D Ganancia Anual(Millones de dólares) (Millones de dólares)

1990 2 201991 3 251992 5 341993 4 301994 11 401995 5 31

Ahora debemos debemos determinar de que forma como cambia el promediocondicional de la variable dependiente (Ganancias) cuando cambia el valor jo dela variable explicativa (Gasto en I+D).

La forma muestral de la recta de regresión: E(Yi|Xi) = β1 + β2Xi requiere deter-minar el valor estimado de estos parámetros, para lo cual utilizaremos el método

27

Page 29: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

de mínimos cuadrados ordinarios:

β2 =n ·∑ YiXi −

∑Xi

∑Yi

n ·∑ X2i − (

∑Xi)2

β2 =

∑YiXi − nXY∑X2

i − n(X)2

Utilicemos los datos para obtener los cálculos necesarios para computar el esti-mador de β2:

Año Gasto en I+D (X) Ganancia Anual (Y )(n=6) (Millones de dólares) (Millones de dólares) XY X2

1990 2 20 40 41991 3 25 75 91992 5 34 170 251993 4 30 120 161994 11 40 440 1211995 5 31 155 25Suma

∑X=30

∑Y =180

∑XY =1000

∑X2=200

X =∑

Xn

X = 306

X = 5 ← Media de los valores de la variable dependienteY =

∑Y

n

Y = 1806

Y = 30 ← Media de los valores de la variable independiente

De esta forma,

β2 =1000− 6 · 5 · 30

200− 6 · (5)2

=1000− 900

200− 150

=100

50

β2 = 2

β1 = Y − β2X

= 30− 2 · 5= 30− 10

β1 = 20

De esta forma, la recta de regresión muestral estimada es:Y = 20 + 2 ·X

28

Page 30: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Con esta ecuación en mano, el gerente de I+D de esta compañía puede predecirel promedio en ganancias futuras anuales a partir de la cantidad presupuestadade gasto en Investigación y Desarrollo. Por ejemplo, si la compañía presupuestagastar 8 millones de dólares en I+D el próximo año, entonces debe ganar aprox-imadamente 36 millones de dólares durante este año.

Ejemplo 2: Tenemos los siguientes datos de portales de internet, con los cualesqueremos ver el impacto promedio del número de visitas en el valor de la empresa:

vempresa visitas y-ybar x-xbar (y-ybar)*(x-xbar) (x-xbar)^2 ygorro ugorro

AOL 134844 50 108787.6 30.6 3331621.0 937.9 98976.5 35867.5

Yahoo 55526 38 29469.6 18.6 548871.8 346.9 70403.7 -14877.7

Lycos 5533 28 -20523.4 8.6 -177014.1 74.4 46593.1 -41060.1

Cnet 4067 8 -21989.4 -11.4 250129.1 129.4 -1028.3 5095.3

Juno Web 611 8 -25445.4 -11.4 289441.1 129.4 -1028.3 1639.3

NBC Internet 4450 16 -21606.4 -3.4 72921.5 11.4 18020.3 -13570.3

Earthlink 2195 5 -23861.4 -14.4 343007.3 206.6 -8171.5 10366.5

El sitio 1225 2 -24831.4 -17.4 431445.1 301.9 -15314.7 16539.7

Promedio 26056.4 19.4 26056.4 0

Suma 5090422.9 2137.9β1 2381.1β2 -20076.8

29

Page 31: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Utilizando estos datos tenemos:n∑

i=1

(Xi −X)2 = 2137,9

n∑i=1

(Yi − Y )(Xi −X) = 5090422,9

β2 =5090422,9

2137,9= 2381,1

β1 = 26056,4− 2381,1 ∗ 19,4 = −20076,8

30

Page 32: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.3.2. Supuestos detrás del método MCO

En el análisis de regresión nuestro objetivo no es sólo obtener los valores de β1 yβ2 sino también hacer inferencia sobre los verdaderos β1 y β2. Nos interesa saberque tan cerca están β1 y β2 de sus contraparte poblacional o que tan cerca esta Yi

de la verdadera E(Y|Xi). La Función de regresión poblacional: Yi = β1+β2Xi+ui,nos muestra que Yi depende de Xi y ui. Así, los supuestos hechos para estas dosvariables son fundamentales para lograr una interpretación válida de los valoresestimados de la regresión. Mientras no se especique la forma como se generanXi y ui, no hay forma de hacer inferencia estadística sobre Yi ni sobre β1 y β2.

Supuesto 1: Modelo de regresión lineal, el modelo de regresión es lineal enparámetros:

Yi = β1 + β2Xi + ui

Supuesto 2: Los valores de X son jos, X se supone no estocástica. Esto im-plica que el análisis de regresión es un análisis de regresión condicional,condicionado a los valores dados del regresor X.

Supuesto 3: El valor medio del error ui es igual a cero. Dado el valor deX, el valor esperado del término de error ui es cero:

E(ui|Xi) = 0

Lo que nos dice este supuesto es que los factores que no están consideradosen el modelo y que están representados a través de ui, no afectan sistemáti-camente el valor de la media de Y. Es decir, los valores positivos de ui secancelan con los valores negativos de ui. De esta forma, el efecto promediode ui sobre Y es cero. Ver Figura 7.

31

Page 33: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Figura 7: Distribución condicional del término de error ui

Supuesto 4: Homocedasticidad o igual varianza de ui. Dado el valor deX, la varianza de ui es la misma para todas las observaciones:

var(ui|Xi) = E[ui − E(ui)|Xi]2

= E(u2i |Xi) por supuesto 3

= σ2

En la Figura 8 podemos apreciar el signicado del supuesto de homocedas-ticidad, la variación alrededor de la recta de regresión es la misma paratodos los valores de X. Esto implica que la función de densidad del términode error ui es la misma.

Figura 8: Homocedasticidad

32

Page 34: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Por el contrario, el la Figura 9 observamos el caso cuando la varianza deltérmino de error varia para cada Xi, en este caso particular la varianza delerror aumenta en la medida que Xi crece.

Figura 9: Heterocedasticidad

Esto se conoce como Heterocedasticidad o varianza desigual, lo que seexpresa de la siguiente manera:

var(ui|Xi) = σ2i (2.27)

Supuesto 5: No existe autocorrelación entre los errores. Dado dos valoresde X, Xi y Xj, con i 6= j, la correlación entre ui y uj es cero:

cov(ui, uj|Xi, Xj) = E[ui − E(ui)]|Xi[uj − E(uj)]|Xj= E(ui|Xi)(uj|Xj)

= 0

Si en la Función de regresión poblacional Yi = β1 + β2Xi + ui, ui estacorrelacionado con uj, entonces Yi no depende solamente de Xi sino tambiénde uj. Al imponer le supuesto 5 estamos diciendo que solo se consideraráel efecto sistemático de Xi sobre Yi sin preocuparse de otros factores quepueden estar afectando a Y, como la correlación entre los u's.

Supuesto 6: La covarianza entre ui y Xi es cero E(uiXi) = 0:

cov(ui, Xi) = E[ui − E(ui)][Xi − E(Xi)]

= E[ui(Xi − E(Xi)] por supuesto E(ui) = 0

= E(uiXi)− E(ui)E(Xi) por supuesto E(Xi) no estocastica

= E(uiXi) por supuesto E(ui) = 0

= 0

33

Page 35: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Como mencionamos en la sección 2.2.2 se supone que X y u tienen una in-uencia separada sobre Y (determinística y estocástica, respectivamente),ahora si X y u están correlacionadas, no es posible determinar los efectosindividuales sobre Y.Este supuesto se cumple automáticamente si X es no estocástica y el supuesto3 se cumple.

Supuesto 7: El número de observaciones n debe ser mayor que el númerode parámetros por estimar. El número de observaciones tiene que sermayor que el número de variables explicativas, de otra forma no se puederesolver el sistema de ecuaciones. Supongamos que tenemos una sola obser-vación para nuestra variable dependiente y nuestra variable explicativa (Y1

y X1), el modelo de regresión es tal que tiene intercepto, es decir:

Y1 = β1 + β2X1 + u1

el estimador MCO de β2 es :

β2 =

∑xiyi∑x2

i

donde xi = Xi−X e yi = Yi−Y , sin embargo con una observación X1 = Xe Y1 = Y , así β2 no esta determinado y así tampoco podemos determinarβ1.

Supuesto 8: Variabilidad en los valores de X. No todos los valores de X enuna muestra deben ser iguales, var(X) debe ser un número nito positivo.Si las X son las mismas ⇒ Xi = X, de esta forma ni β2 ni β1 pueden serestimados.

Supuesto 9: El modelo de regresión esta correctamente especicado.Esto es muy importante, ya que por ejemplo la omisión de variables impor-tantes en el modelo, o la elección de la forma funcional inadecuada, o laconsideración de supuestos estocásticos equivocados sobre las variables delmodelo, harán cuestionable la validez de la interpretación de la regresiónestimada. (Aspectos que veremos más adelante).

34

Page 36: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.3.3. Errores estándar de los Estimadores Mínimos Cuadra-dos Ordinarios

Como vimos en la sección 2.3.1, los valores estimados para β1 y β2 dependen delos datos muestrales, sin embargo, los datos cambian de una muestra a otra y asílos valores estimados también, por eso es necesario tener una medida que nos per-mita decir que tan cercano son los valores estimados a los valores poblacionalesde los parámetros.La medida que utilizaremos para medir la precisión del estimador es el error es-tándar, que es la desviación estándar de la distribución muestral del estimador,la que a su vez es la distribución del conjunto de valores del estimador obtenidosde todas las muestras posibles de igual tamaño de una población dada.

Recordemos el estimador MCO de β2:

β2 =

∑xiyi∑x2

i

donde yi = β2xi+ui (modelo poblacional en desviaciones con respecto a la media).De esta forma reemplazando yi en el estimador de β2:

β2 =

∑xi(β2xi + ui)∑

x2i

= β2

∑x2

i∑x2

i

+

∑uixi∑x2

i

= β2 +

∑uixi∑x2

i

Aplicando valor esperado a la expresión anterior:

E(β2) = β2 + E

(∑uixi∑x2

i

)

= β2 +

(∑E(ui)xi∑

x2i

)por supuesto 2

= β2 por supuesto 3 (2.28)

La ecuación (2.28) nos dice que en valor esperado el estimador MCO de β2 esigual a su verdadero valor. Esta propiedad del estimador MCO se conoce comoinsesgamiento.

35

Page 37: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ahora procedamos a calcular la varianza de el estimador MCO de β2:var(β2) = E[β2 − E(β2)]

2

= E(β2 − β2)2

= E

([∑

xiui]2

[∑

x2i ]

2

)

Por supuesto 4 E(u2i ) = σ2 y por supuesto 6 E(uiuj) = 0, esto implica que:

var(β2) =σ2

∑x2

i

(2.29)

2.3.4. Estimador Mínimo Cuadrado Ordinario de σ2

Ahora debemos estimar el parámetro poblacional σ2, como este corresponde alvalor esperado de u2

i y ui es una estimación de ui, por analogía:

σ2 =

∑ni=1 u2

i

npareciera ser un estimador razonable. Pero los errores de MCO, están estimadosimperfectamente si los comparamos con los errores poblacionales, ya que depen-den de una estimación de β1 y β2. Veamos esto con más detalle:

Partiendo del Regresión poblacional expresado en desviaciones con respecto ala media:

yi = β2xi + (ui − u) (2.30)y recordando también que:

ui = yi − β2xi (2.31)Al sustituir (2.30) en (2.31), se obtiene:

ui = β2xi + (ui − u)− β2xi

Elevando al cuadrado la expresión anterior, aplicando sumatoria y tomando valoresperado:

E(∑

u2i

)= E(β2 − β2)

2∑

x2i + E

[∑(ui − u)2

]

︸ ︷︷ ︸(i)

−2 E[(β2 − β2)

∑xi(ui − u)

]

︸ ︷︷ ︸(ii)

= var(β2)∑

x2i + (n− 1)var(ui)− 2E

[∑xiui∑x2

i

∑xi(ui − u)

]

= σ2 + (n− 1)σ2 − 2σ2

= (n− 2)σ2

36

Page 38: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

(i) E[∑

(ui − u)2]

= E[∑

(u2i − 2uiu + u2)

]

= E[∑

u2i − 2u

∑ui + nu2

]

= E[∑

u2i − 2u

n

n

∑ui + nu2

]

= E[∑

u2i − 2nu2 + nu2

]

= E[∑

u2i − nu2

]

= E

[∑u2

i − n

(∑ui

n

)2]

= nσ2 − n

nσ2

= (n− 1)σ2

(ii) E[(β2 − β2)

∑xi(ui − u)

]= E

[(β2 − β2)

∑xi(ui − u)

]

= E

[∑xiui∑x2

i

∑xi(ui − u)

]

= E

[(∑

xiui)2

∑x2

i

− u

∑xiui

∑xi∑

x2i

]

= σ2

Por lo tanto se dene el estimador de la varianza σ2 como:

σ2 =

∑u2

i

n− 2(2.32)

De forma tal que, σ2 es un estimador insesgado de σ2:

σ2 =1

n− 2E

(∑u2

i

)= σ2

37

Page 39: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.4. Modelo de Regresión con k variables

Ahora abandonemos la simplicación de solo usar dos variables, de ahora en ade-lante generalizaremos el modelo de regresión lineal para que pueda tener hasta kvariables explicativas.

Aclaración: haremos un cambio de notación, cada observación i de la variabledependiente será denotada por yi y cada observación i de una variable explicati-va, por ejemplo X1, será denotada por x1i. Ahora las variables en minúscula nosignica que estén en desvíos.

El Modelo de Regresión Poblacional en este caso es:

yi = β1 + β2x2i + β3x3i + ... + βkxki + ui i = 1, ..., n

2.4.1. Representación Matricial del Modelo de RegresiónLineal

El modelo con k variables explicativas puede ser expresado en notación matricial.En efecto, cada variable explicativa xj, con j=1,..., k, es un vector columna dedimensión n, al igual que la variable dependiente y el término de error. De estemodo, el modelo puede ser reescrito de la siguiente forma:

y1

y2...

yn

=

11...1

β1 +

x21

x22...

x2n

β2 +

x31

x32...

x3n

β3 + ... +

xk1

xk2...

xkn

βk +

u1

u2...

un

Donde las variables explicativas se pueden agrupar en una sola matriz de dimen-sión n×k, que denotaremos simplemente como X, de esta manera el modelo seexpresa de la siguiente forma:

y1

y2...

yn

=

1 x21 x31 · · · xk1

1 x22 x32 · · · xk2... ... ... . . . ...1 x2n x3n · · · xkn

·

β1

β2...

βk

+

u1

u2...

un

⇒ Y = Xβ + u(2.33)

donde Y es un vector de dimensión n×1, X es la matriz de variables explicativasde dimensión n×k y u es un vector correspondiente al término de error con di-mensión n×1.

38

Page 40: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ahora debemos expresar la distribución del término de error en términos ma-triciales:

E(u) =

E(u1)E(u2)

...E(un)

= 0

n×1

E(uu′) =

E(u21) E(u1u2) · · · E(u1un)

E(u2u1) E(u22) · · · E(u2un)

... ... . . . ...E(unu1) E(unu2) · · · E(u2

n)

=

σ2 0 · · · 00 σ2 · · · 0... ... . . . ...0 0 · · · σ2

= σ2 I

n×n

De los supuestos 3, 4 y 5, tenemos entonces que el término de error tiene lasiguiente distribución:

u ∼(0

n×1, σ2 I

n×n

)(2.34)

2.4.2. Estimador Mínimo Cuadrados Ordinarios

El método de MCO, plantea que los parámetros del modelo pueden ser estimadosminimizando la suma de los errores al cuadrado (SE(β)), la que en términosmatriciales equivale a:

SE(β) =n∑

i=1

u2i = u′u

donde u = Y −Xβ. Entonces el problema de minimizar la suma de los errores alcuadrado se expresa de la siguiente forma:

mınβ

SE(β) = mınβ

[(Y −Xβ)′(Y −Xβ)

]

= mınβ

[Y ′Y − 2β′X ′Y + β′X ′Xβ

]

∂SE(β)

∂β′= −2X ′Y + 2X ′Xβ = 0

⇒ β = (X ′X)−1X ′Y (2.35)

39

Page 41: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

De (2.35) tenemos:

X ′(Y −Xβ) = 0 ⇒ X ′u = 0 (2.36)

(2.36) es la condición de ortogonalidad.

De esta forma, el vector de parámetros estimados β se obtiene de resolver elsiguiente sistema de ecuaciones normales:

X ′Xβ = X ′Y ⇔

1 1 1 · · · 1x2,1 x2,2 x2,3 · · · x2,n

x3,1 x3,2 x3,3 · · · x3,n... ... ... . . . ...

xk,1 xk,2 xk,3 · · · xk,n

1 x2,1 x3,1 · · · xk,1

1 x2,2 x3,2 · · · xk,2

1 x2,3 x3,3 · · · xk,3... ... ... . . . ...1 x2,n x3,n · · · xk,n

β1

β2

β3...

βk

=

1 1 1 · · · 1x2,1 x2,2 x2,3 · · · x2,n

x3,1 x3,2 x3,3 · · · x3,n... ... ... . . . ...

xk,1 xk,2 xk,3 · · · xk,n

y1

y2

y3...

yn

n∑n

i=1 x2,i

∑ni=1 x3,i · · · ∑n

i=1 xk,i∑ni=1 x2,i

∑ni=1 x2

2,i

∑ni=1 x2,ix3,i · · · ∑n

i=1 x2,ixk,i∑ni=1 x3,i

∑ni=1 x3,ix2,i

∑ni=1 x2

3,i · · · ∑ni=1 x3,ixk,i

... ... ... . . . ...∑ni=1 xk,i

∑ni=1 xk,ix2,i

∑ni=1 xk,ix3,i · · · ∑n

i=1 x2k,i

β1

β2

β3...

βk

=

∑ni=1 yi∑n

i=1 yix2,i∑ni=1 yix3,i

...∑ni=1 yixk,i

Es importante recordar que el estimador MCO esta denido solo cuando la matriz(X'X) es invertible, lo que ocurre siempre y cuando:

1. Las k columnas de la matriz X sean linealmente independientes.

2. Se disponga al menos de tantas observaciones como variables explicativas,es decir: n≥ k.(Supuesto 7)

Pongamos atención en el segundo supuesto, cuando n=k la matriz X tiene dimen-sión k×k, por lo tanto salvo que no se cumpla el supuesto 8, X es invertible, y deesta forma (X ′X)−1 = X−1(X ′)−1 y por lo tanto:

β = (X ′X)−1X ′Y = X−1(X ′)−1X ′Y = X−1Y (2.37)

40

Page 42: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

el vector de residuos u = Y −Xβ = Y −X(X−1Y ) = Y − Y = 0n, de esta formael ajuste es perfecto, ya que todos los residuos son cero, la suma residual de igualforma toma el mínimo valor posible, cero.Sin embargo, esta no es una característica deseable, el ajuste perfecto ocurreporque tenemos una muestra muy reducida. Esto trae como consecuencia pocorobustez e imprecisión en las estimaciones. Si escogemos una nueva muestra, delmismo tamaño que la anterior, obtendremos otro estimador β con suma residual0, que puede diferir en forma arbitraria del anterior.

Para lograr estimaciones precisas de los parámetros, es necesario tener un númerode observaciones notablemente superior al de las variables explicativas. La difer-encia n-k se conoce como el número de grados de libertad de la estimación.

2.5. Propiedades del estimador MCO

Notemos que el vector β es un vector aleatorio, ya que depende del vector deerrores:

β = (X ′X)−1X ′Y = (X ′X)−1X ′(Xβ + u) = β + (X ′X)−1X ′u (2.38)

E(β) = E(β) + E[(X ′X)−1X ′u]

= β + (X ′X)−1X ′E(u)

La esperanza de β es el mismo parámetro, ya que este es un constante (valorpoblacional), y por supuestos 2 y 3 el segundo término de la expresión anteriores cero,

⇒ E(β) = β (2.39)

Es decir, el estimador MCO es insesgado, tal como lo habíamos mostrado en laecuación (2.28).

De (2.38) podemos denir el error de estimación o sesgo como:

β − β = (X ′X)−1X ′u

41

Page 43: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Ahora calculemos la varianza de β:

var(β) = E[(β − E(β)) · (β − E(β))′]

= E[(β − β) · (β − β)′]

= E[(X ′X)−1X ′uu′X(X ′X)−1]

= (X ′X)−1X ′E(uu′)X(X ′X)−1

= (X ′X)−1X ′(σ2In)X(X ′X)−1

= σ2(X ′X)−1 (2.40)

Para poder estimar la varianza de β necesitamos reemplazar σ2 en (2.40) por suestimador insesgado:

σ2 =u′u

n− k

2.5.1. Propiedad de mejor estimador lineal insesgado

Se dice que β, es el mejor estimador lineal insesgado (MELI) de β si se cumplelo siguiente:

1. El lineal, es decir, es una función lineal de una variable aleatoria, como lavariable y en el modelo de regresión.

2. Es insesgado, es decir, su valor esperado, E(β), es igual a el verdaderovalor, β.

3. Tiene varianza mínima dentro de la clase de todos los estimadores linealesinsesgados; un estimador insesgado como varianza mínima es conocido comoun estimador eciente.

2.5.2. Teorema de Gauss-Markov

Proposición: El estimador MCO es el estimador lineal insesgado óptimo, en elsentido de que cualquier otro estimador lineal e insesgado tiene una matriz de co-varianza mayor que la del estimador MCO. Es decir, el estimador MCO es MELI.

Demostración: Sea β = Ay un estimador lineal de β, donde A es una matriz

42

Page 44: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

k×n. Denotemos A = A− (X ′X)−1X ′, de modo que:

β = [A + (X ′X)−1X ′]Y

= [A + (X ′X)−1X ′](Xβ + u)

= AXβ + β + [A + (X ′X)−1X ′]u

Aplicando esperanza a la expresión anterior:

E(β) = AXβ + β + [A + (X ′X)−1X ′]E(u)

= AXβ + β

El estimador β será insesgado solo si la matriz A es tal que AX=0k×k. De estaforma:

β = β + [A + (X ′X)−1X ′]u

y su matriz de covarianza será:

cov(β) = E[(β − β)(β − β)′]

= E([A + (X ′X)−1X ′]u)([A + (X ′X)−1X ′]u)′= σ2AA′ + σ2(X ′X)−1

︸ ︷︷ ︸cov(β)

Como la matriz AA′ es semidenida positiva, se concluye la diferencia entre lacovarianza de β y β es una matriz semidenida positiva, con lo que la covarianzade β es mayor o igual a la covarianza de β

43

Page 45: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.6. Geometría del Estimador MCO

Recordemos que el modelo de regresión muestral tiene la siguiente expresión:

Y = Xβ + u

la que puede ser reescrita de la siguiente forma:

Y = PY + MY (2.41)

donde P se denomina matriz de proyección y se dene de la siguiente manera:

P = X(X ′X)−1X ′

Además se tiene que M=I-P. De acuerdo a la ecuación (2.36) el estimador MCO estal que los errores son ortogonales a las X, es decir se deben escoger los parámet-ros β de forma tal que el vector de errores sea ortogonal al espacio formados porlas variables explicativas.

Así, el estimador MCO nos permite descomponer Y en dos términos ortogonalesentre si: el primer componente puede ser escrito como una combinación linealde las columnas x y el segundo es un componente ortogonal a X (el término deerror), tal como lo muestra (2.41). Esto se representa grácamente en la Figura10.

Col X

Y

MY

PY

0

Figura 10: Descomposición Ortogonal de Y

x1

x2

El término PY alternativamente se puede ver como la proyección de Y en elespacio barrido por las X's y MY como la proyección de Y es el espacio ortogonala las X's.

44

Page 46: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.7. Bondad de Ajuste y Análisis de Varianza

El objetivo de esta sección es introducir un criterio de ajuste de nuestra regre-sión, es decir, un criterio que nos indique cuan bien se ajusta nuestro modelo ala muestra.

En principio, podríamos pensar que la suma de los residuos cuadrados, es de-cir, nuestro criterio original de ajuste, es una buena opción: a menor sea éste,mejor es nuestro ajuste. Sin embargo, la suma de los residuos cuadrados puedeser arbitrariamente escalada al multiplicar la variable dependiente (Y) por el fac-tor de escala deseado, lo cual invalida su uso como criterio de ajuste.

Por ello, se ha desarrollado un criterio que elimine el problema anterior. Di-cho estadístico ya no se basará en la magnitud de un valor (como la suma delos cuadrados de los residuos), sino que intentará preguntarse si la variación delas variables independientes (X) explica la variación de la variable independi-ente, como veremos más adelante. Para ello analizaremos con un poco más deprofundidad el modelo de regresión lineal en desvíos con respecto a la media ypresentaremos la llamada descomposición de varianza (o análisis de varianza),ambos, insumos fundamentales para obtener nuestro estadístico de bondad deajuste.

2.7.1. Modelo de Regresión Lineal en Desvíos

Sea el modelo poblacional usual con k variables:

yi = β1 + β2x2i + β3x3i + · · ·+ βkxki + ui (2.42)

donde i = 1 . . . n y cuya contraparte estimada es:

yi = β1 + β2x2i + β3x3i + · · ·+ βkxki + ui (2.43)

Luego, si sumamos para todas las observaciones y dividimos a ambos lados porel tamaño muestral n, tenemos:

Y = β1 + β2x2 + β3x3 + · · ·+ βkxk (2.44)

por lo cual:

β1 = Y − β2x2 + β3x3 + · · ·+ βkxk (2.45)

45

Page 47: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

La ecuación (2.45) muestra que el término independiente de una regresión quedadeterminado por el resto de los k-1 coecientes involucrados. Finalmente, noteque restando las ecuaciones (2.43) y (2.44) obtenemos:

yi − Y = β2(x2i − x2) + β3(x3i − x3) + · · ·+ βk(xki − xk) + ui (2.46)

la cual es una expresión similar a (2.43), excepto por dos importantes diferencias.Primero, el modelo no posee constante y segundo, las variables se encuentranexpresadas en desvíos con respecto a la media. A pesar de ello, note que los coe-cientes y los residuos son los mismos en ambos modelos.

De lo anterior surge un importante corolario respecto del término constante denuestro modelo. En general, el interés del investigador se centra en el impacto delos regresores sobre la variable dependiente, por lo cual, el término constante noes más que una corrección que garantiza que los promedios muestrales de ambosmiembros del modelo econométrico coincidan.

Para transformar en desvíos con respecto a la media un modelo en términos ma-triciales, introduciremos una matriz fundamental para el análisis de esta sección.Denotaremos por M0 una matriz de n× n, denida como:

M0 = In×n

−ii′

n=

1 0 · · · 00 1 · · · 0... ... . . . ...0 0 · · · 1

1

n

1 1 · · · 11 1 · · · 1... ... . . . ...1 1 · · · 1

=

1− 1n

− 1n

· · · − 1n

− 1n

1− 1n· · · − 1

n... ... . . . ...− 1

n− 1

n· · · 1− 1

n

donde I es la identidad (n×n) e i corresponde al vector unitario de dimensión n.Dicha matriz es singular, simétrica (M0'=M0) e idempotente (M0M0=M0). Engeneral, M0 es conocida como matriz de desvíos, ya que resta a cada columna dela matriz involucrada, su media aritmética. Por ejemplo, es fácil comprobar que:

M0Y = Y − 1

nii′Y =

y1

y2...

yn

1

n

∑ni=1 yi∑ni=1 yi...∑n

i=1 yi

=

y1 − Yy2 − Y

...yn − Y

Por lo tanto, nuestro modelo expresado en matrices, puede ser expresado en tér-minos de desvío con respecto a la media como:

M0Y = M0Xβ + M0u (2.47)

46

Page 48: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.7.2. Análisis de Varianza

Suponga entonces el siguiente modelo poblacional:

Y = Xβ + u

donde Y corresponde a una vector n× 1, X corresponde a nuestra matriz de re-gresores que incluye un término constante, tal que X es de n× k y u correspondea nuestro vector de errores de n× 1.

Buscamos entonces denir la variación de la variable dependiente (Suma de loscuadrados totales = TSS) como3:

TSS =n∑

i=1

(Yi − Y )2 (2.48)

Para encontrar entonces una expresión para (2.48), de la ecuación (2.47) tenemosque nuestro modelo estimado en desvíos con respecto a la media es:

M0Y = M0Xβ + M0u

con lo cual, al particionar nuestra matriz X en X = [i X2], nuestro vector deparámetros en β′ = [β1 β2] y considerando que M0i = 0 y que M0u = u,tenemos que:

M0Y = M0iβ1 + M0X2β2 + M0u

= M0X2β2 + u (2.49)

Luego, para formar la TSS(suma de los cuadrados totales o la suma de los cuadra-dos de las desviaciones de Y con respecto a su media), de la ecuación (2.48),multiplicamos por Y' la ecuación (2.49):

Y ′M0Y = Y ′(M0X2β2 + u)

= (Xβ + u)′(M0X2β2 + u)

= β′X ′M0X2β2 + β′X ′u + u′M0X2β2 + u′u

Y ′M0Y = β2X′2M

0X2β2 + u′u (2.50)TSS = ESS + RSS (2.51)

donde el segundo y el tercer término desaparecen gracias a que los residuos estima-dos son, por construcción, ortogonales a las variables explicativas 4. La igualdad

3Note que para dicha denición utilizamos los cuadrados de la desviaciones, ya que la sumade las desviaciones es siempre cero.

4Ya que X ′u = X ′(Y −Xβ) = X ′Y −X ′Y = 0.

47

Page 49: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

anterior es conocida como la descomposición de varianza. El término de laizquierda corresponde a TSS o la suma de los cuadrados de las desviaciones dela variable dependiente. En otras palabras, la variabilidad de Y. En la derecha seencuentra la variabilidad de las variables independientes o regresores y la variabil-idad de los errores. ¾Cuál es entonces el objetivo?: descomponer la varianza dela variable dependiente aquella parte que es explicada por la regresión (ESS) deaquella parte explicada por los residuos (RSS). ¾Por qué?: porque intuitivamente,la regresión se ajusta mejor si las desviaciones de Y se explican en su mayor partepor desviaciones de X y no por desviaciones de los residuos.

2.7.3. Bondad de Ajuste: R2 y R2

Denimos entonces la bondad de ajuste del modelo a través del siguiente estadí-grafo llamado también coeciente de determinación:

R2 =ESS

TSS(2.52)

es decir, como la proporción de la varianza de Y que es explicada por la varianzade la regresión. Alternativamente:

R2 = 1− RSS

TSS(2.53)

Note que:

1. El coeciente de determinación es siempre menor a 1. Ello porque RSS ≤TSS y por lo tanto RSS

TSS≤ 1.

2. El análisis de varianza anterior fue derivado bajo el supuesto que el modeloincluía una constante (por ello utilizábamos la matriz M0). En dicho caso,necesariamente R2 ≥ 0. En caso de que el modelo no incluya una constante,se debe utilizar la fórmula (2.5.2) utilizando TSS=Y'Y (sin desvíos).

3. Al agregar regresores al modelo, el R2 nunca decrecerá (se mantendrá con-stante o aumentará)

4. No es claro cuan bueno sea como predictor de ajuste.

Para ver este último punto, suponga que usted posee el siguiente modelo pobla-cional:

Y = β1 + β2X + u

48

Page 50: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

donde X es un vector (n× 1). Suponga ahora que restamos X a ambos lados denuestro modelo. Obtenemos entonces:

Y −X = β1 + γX + u

Si β2 ≈ 1, entonces es fácil vericar que el R2 del primer modelo será cercano a1, mientras que el del segundo sera cercano a cero, a pesar de que los modelosson matemáticamente equivalentes. A pesar de lo anterior, en trabajos aplicados,el R2 es ampliamente utilizado, por lo cual se recomienda su publicación.

Retrocedamos ahora al punto tres. El nos dice que el coeciente de determinaciónprobablemente crecerá al incluir regresores. Ello plantea incentivos a incluir re-gresores no relevantes para nuestro modelo, con el n de obtener un mejor ajuste.¾Porqué sucede esto?, ya que al incluir regresores, la RSS necesariamente decrece(o en el mejor de los casos se mantiene), mientras que la TSS permanece constante.

Por esta razón se creó el coeciente de determinación ajustado, el cual corrige elR2 original por los grados de libertad del numerador y el denominador. Entonces,denimos el R2 ajustado (R2) como:

R2 = 1− u′u/(n− k)

Y ′MY/(n− 1)(2.54)

o equivalentemente:

R2 = 1− (1−R2)(n− 1)

(n− k)(2.55)

49

Page 51: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.8. Inferencia

Una vez que hemos estimado nuestra regresión muestral, es necesario preguntarsecuan buena aproximación es dicha regresión de la poblacional. Para que la aprox-imación sea cercana, es condición necesaria que los parámetros incluidos en laregresión muestral sea estadísticamente distintos de cero (en caso contrario, nopertenecen a la regresión poblacional). Así, uno de nuestros objetivos puede serel testear la signicancia individual de los parámetros.

Pero lo anterior es sólo una de las preguntas que como investigadores podemosestar interesados en responder. Por ejemplo, en la estimación de la función deproducción de una rma, que asumimos Cobb Douglas (Y = AKαLβeu o en loga-ritmo ln Y = ln A+α ln K +β ln L+u), podemos estar interesados en descubrir sila rma presenta rendimientos constantes, crecientes o decrecientes a la escala, locual se reejará en que α + β > o ≤ 1. Por lo tanto, ello podría ser otra hipótesisinteresante de plantearse. También podría ser interesante descubrir si todos losparámetros a la vez son distintos de cero, o de algún valor determinado.

La gama de preguntas posibles respecto del valor de los parámetros es sólo aco-tada por la pregunta que el investigador desee responder. Nuestro objetivo es,por lo tanto, desarrollar los métodos de inferencia y contraste de hipótesis quenos permitan responder, en el contexto de una regresión muestral particular, laspreguntas anteriores.

Dos notas precautorias. En esta sección nos ocuparemos de restricciones o hipóte-sis lineales sobre los coecientes. Restricciones no lineales son más escasas eneconometría aplicada y se desarrollan en contexto de un modelo particular. Se-gundo, en todo lo que se reere a este apartado, asumiremos que los errores denuestra regresión muestral siguen una distribución normal (ya veremos porqué).

Entonces, sea nuestro modelo poblacional

Y = Xβ + u

donde X es una matriz de (n × k),u e Y son vectores (n × 1) y β es vector de(k × 1).

Sean entonces las siguientes hipótesis:

1. H0: βi = 0 ⇒ Plantea que el regresor Xi no posee inuencia alguna sobre Y.Este es el test más común y nos referiremos a él como test de signicancia.

50

Page 52: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2. H0: βi = βi0 ⇒ Plantea que el regresor Xi posee un impacto determinadopor βi0 sobre Y.

3. H0: βi + βj=1 ⇒ Plantea que la suma de los regresores Xi y Xj poseen unimpacto conjunto de magnitud 1.

4. H0: βi = βj ⇒ Plantea que los regresores Xi y Xj poseen el mismo impactosobre Y.

5. H0: βi=0 ∀ i=2. . . k ⇒ Plantea que todos los regresores conjuntamente,excepto la constante, son cero.

6. H0: βl=0 donde el vector β ha sido particionado en dos (βl y βp) con di-mensiones (kl × 1) y (kp × 1) respectivamente, tal que kl + kp = k. Planteaentonces que un subconjunto de parámetros son estadísticamente no signi-cativos.

Todas las hipótesis anteriores pueden ser resumidas en la siguiente expresión:

Rβ = r

donde R es una matriz de (q× k) constantes conocidas (ceros o unos), cuyo obje-tivo será seleccionar los parámetros a testear, cuyo número de las, q, representael número de restricciones. A su vez, r es un vector de dimensión q y contiene elreal al cual es restringido cada parámetro. Veamos como serán las matrices R yr en cada una de nuestras hipótesis:

1. R=[0. . . 010 . . . 0]; r=0; q=1donde 1 se encuentra en la i-ésima posición

2. R=[0. . . 010 . . . 0]; r=βi0; q=1donde 1 se encuentra en la i-ésima posición

3. R=[0. . . 010 . . . 010 . . . 0]; r=1; q=1donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.

4. R=[0. . . 010 . . . 0-10 . . . 0]; r=0; q=1donde 1 se encuentra en la i-ésima posición y en la j-ésima posición.

5. R=[0q×1 Ik−1]; r=0; q=k − 1

6. R=[0ki×kjIki

]; r=0; q=ki

51

Page 53: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Entonces, nuestra hipótesis nula corresponde a:

H0 : Rβ = r (2.56)

con lo cual, sólo nos resta derivar el test que nos permita rechazar o no rechazarnuestra nula. La construcción del estadígrafo es como sigue. Dado que MCO(bajo los supuestos relevantes) es insesgado, tenemos que E(β) = β, por lo tanto,E(Rβ) = Rβ, mientras que la varianza de Rβ corresponde a

V [Rβ] = E[R(β − β)(β − β)′R′]

= RV ar(β)R′

= σ2R(X ′X)−1R′

Necesitamos aún un supuesto más para determinar la distribución muestral denuestra nula. Dado que β es función de u y u ∼ N(0, σ2), entonces β ∼ N(β, σ2(X ′X)−1)y por lo tanto Rβ ∼ N(r, σ2R(X ′X)−1R′), entonces:

β ∼ N [β, σ2(X ′X)−1] (2.57)

y

Rβ ∼ N [Rβ, σ2R(X ′X)−1R′] (2.58)

y si la nula Rβ = r es cierta:

∴ (Rβ − r) ∼ N [0, σ2R(X ′X)−1R′] (2.59)

luego estandarizamos, con lo cual:

(Rβ − r)√σ2R(X ′X)−1R′ ∼ N [0, 1] (2.60)

Además, se puede demostrar que (hacerlo)5:

u′uσ2

∼ χ2(n−k) (2.61)

Luego, se puede demostrar que (hacerlo)6:

(Rβ − r)′[σ2R(X ′X)−1R′]−1(Rβ − r) ∼ χ2q (2.62)

5Basta con recordar que si x corresponde a un vector de realizaciones normales (0,1), por locual x ∼ N(0, σ2I) y A corresponde a una matriz simétrica e idempotente de rango n, entonces1

σ2 x′Ax ∼ χ2n . Finalmente, recuerde que u = MY = Mu y que el rango de una matriz simétrica

e idempotente es su traza.6Basta con recorder que si el vector x, de dimensión n, es tal que x ∼ N(0, Σ), entonces,

x′Σ−1x ∼ χ2n.

52

Page 54: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

luego, combinando los dos resultados anteriores, se puede demostrar que (hacer-lo)7:

[(Rβ − r)′[R(X ′X)−1R′]−1(Rβ − r)]/q

u′u/(n− k)∼ F(q,n−k) (2.63)

El test expuesto en (2.63) corresponde a la forma general del test F. Dicho testes de utilidad para testear cualquier hipótesis de la forma expuesta en (2.56). Acontinuación veremos subcasos de dicho test general.

2.8.1. Test t (Una hipótesis lineal)

Reescribiendo el test F como:

[(Rβ − r)′[RV ar(β)R′]−1(Rβ − r)] ∼ F(q,n−k)

y haciendo el reemplazo respectivo de R y r correspondientes a las hipótesis 1 o2 (H0: βi = 0 = βi0), llegaremos a:

F =(β − βi0)

2

V ar(βi)∼ F (1, n− k) (2.64)

Recordando que t2 es una caso particular de una F con un grado de libertad enel numerador, tenemos que:

t =β − βi0√V ar(βi)

∼ tn−k (2.65)

Lo anterior es conocido como el test t (test de signicancia) y en su versión másutilizada corresponde a t = β√

V ar(βi), donde se busca testear la hipótesis nula de

que el parámetro es cero.El test t también cubre los casos 3. y 4.. En el caso 3. por ejemplo (H0: βi+βj=1),el estadígrafo corresponderá a:

t =βi + βj − 1√

V ar(βi) + 2Cov(βi, βj) + V ar(βj)∼ tn−k (2.66)

La distribución t es simétrica y se aproxima a la normal para tamaños de muestras7Sólo un poquito de álgebra y recordar como se construye una distribución F(q, n-k) a partir

de la división de dos χ2 con grados de libertad q en el numerador y n-k en el denominador.

53

Page 55: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

grandes, sin embargo, la t posee colas más gruesas que la normal (lo cual es máspronunciado en muestras pequeñas: n≤30). La siguiente gura expone la relaciónentre la distribución t y la normal:

Distribución Normal

Distribución t

Probabilidad

0

Nota precautoria:

Toda la derivación anterior se basa en el estricto supuesto de normalidad delos errores. En caso de que los mismos no distribuyan normal, la distribucióndel test F (y por lo tanto el del t) es desconocida en muestras nitas. Sin em-bargo, es posible demostrar que t

a∼ N(0, 1), es decir, que el test t distribuyeasintóticamente normal. Luego, los valores críticos de t y Φ (normal estándar)se encuentran sumamente cerca si n-k≥30, por lo cual, en términos prácticos noimporta mucho cual de ellas escojamos para los valores críticos (a menos que lamuestra sea especialmente pequeña).

Finalmente, nos queda examinar los criterios de rechazo del test y los nivelesde conanza. Como usted recordará de sus clases de estadística, lo anterior de-pende de como especiquemos la hipótesis alternativa. A continuación, pasamosa revisar este punto.

54

Page 56: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Criterio de Rechazo y Nivel de Conanza

Una vez que hemos calculado el valor del test para nuestra nula particular (ovalor calculado), resta calcular el valor crítico o el valor que nos indica la tabla t.Dicho valor crítico nos dirá si nuestra nula es falsa o si no podemos armar que loes. La elección de dicho valor crítico se toma desde la tabla de distribución t y elnúmero debe ser escogido tomado en cuenta el nivel de signicancia escogido(1%, 5% o 10%), el cual a su vez determina el nivel de conanza del test(99%, 95% o 90%, respectivamente). El nivel de conanza posee una explicaciónintuitiva: Nuestro estadígrafo es función de la muestra con lo que estamos traba-jando, por lo cual, si contáramos con una gran número de ellas y con cada unapudiésemos calcular nuestro estadígrafo, el nivel de conanza indica el porcenta-je de veces que calculamos nuestro estadígrafo en que realmente no rechazamoslo cierto o rechazamos correctamente lo falso. La forma en que se distribuya laprobabilidad de rechazo, es decir, el nivel de signicancia, depende de nuestrahipótesis alternativa. A continuación revisamos dicho asunto. Test de una cola

Supongamos que nuestra hipótesis es:

H0 : βi = βio

H1 : βi > βio

donde βi0 ∈ R. En dicho caso, el estadígrafo es calculado según lo propuesto en lasección anterior. El punto está en como acumulamos la probabilidad de rechazo.En este caso, el total de la probabilidad de rechazo se acumula en la cola derechade la distribución, como lo muestra la siguiente gura8:

8¾Por qué en la cola derecha? Porque la probabilidad de rechazo, es decir, el nivel de sig-nicancia, nos indica hasta donde puedo tolerar un valor mayor a βio, por lo cual, carecería desentido que la zona de rechazo se encuentre en la cola izquierda de la distribución. Por ejemplo,si βio=0, la distribución de nuestro estadígrafo se centra en cero (vea la fórmula), por lo cual lahipótesis alternativa correspondería a que el parámetro es positivo. el punto es ¾cuán positivopuedo aceptar que sea?.

55

Page 57: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Probabilidad

No se Rechaza

Se Rechaza (5%)

por lo tanto, rechazaremos nuestra hipótesis nula de que el coeciente es cerocontra la hipótesis alternativa que el parámetro es mayor que βio, si el valor cal-culado del test es mayor al valor crítico de la tabla t. En el caso que H1 sea queel parámetro es menor a βio, entonces la probabilidad de rechazo se concentra enla cola izquierda y se rechaza la nula en el caso que el valor calculado sea menorque el valor crítico de la tabla t.

Test de dos colas

Supongamos que nuestra hipótesis es:

H0 : βi = βio

H1 : βi 6= βio

En este caso estamos repartiendo uniformemente la probabilidad de rechazo enambas colas de la distribución como lo muestra la siguiente gura (al 95% deconanza):

56

Page 58: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Probabilidad

No se Rechaza

Se Rechaza (2,5%)Se Rechaza (2,5%))

Por lo tanto, rechazaremos la nula si el valor calculado es en módulo mayor queel valor crítico de tabla. Note que en este caso, la probabilidad de rechazo sereparte un partes iguales en ambas colas. Ello se justica en que la distribuciónt corresponde a una distribución simétrica.

Error de Tipo I, Error de Tipo II, Tamaño y Potencia de un test

Antes de continuar, veremos cuatro conceptos estadísticos importantes que nosindican características de nuestro test.

1. Error de Tipo I (ETI): Corresponde a la probabilidad de rechazar lanula cuando es cierta.

2. Error de Tipo II (ETII): Corresponde a la probabilidad de aceptar lanula cuando es falsa.

3. Tamaño del Test: Corresponde la probabilidad de cometer ETI. Se denecomo el nivel de signicancia del test (α).

4. Potencia del Test: Corresponde a la probabilidad de rechazar la nulacuando es falsa. Se dene como Potencia =1-ETII.

El óptimo para el investigador sería minimizar ambos tipos de errores y tener untest con un menor tamaño y mayor potencia posibles, sin embargo, note que el

57

Page 59: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

tamaño del test y por lo tanto, el ETI, es una variable endógena al investigador,en tanto que él decide con que nivel de conanza trabajar. Luego, el objetivo setransforma en, dado un nivel de conanza, minimizar la ocurrencia de ETII.

Intuitivamente, si usted escoge un nivel de signicancia pequeño (1%, por ejemp-lo), sus zonas de rechazo serán pequeñas, con lo cual, inevitablemente, la zona deno rechazo crece, lo cual implica que por minimizar el ETI, ha aumentado el ETII.

P-value

Otra forma alternativa al valor crítico de tabla para rechazar o no rechazar nues-tra nula, corresponde al uso de los llamados p-values, los cuales son reportadosen cualquier paquete estadístico. El p-value (p) se dene como:

p = p(tcalculado) = P (|Z| ≥ |tcalculado|) = 2(1− Φ(|tcalculado|)) (2.67)

es decir, el p-value representa la probabilidad de que el valor crítico (t de tabla, ennuestro caso), sea mayor al valor t calculado, es decir, describe el nivel de signif-icancia exacto asociado a un resultado econométrico en particular. Por ejemplo,un p-value de 0.07 indica que un coeciente es estadisticamente signicativo enun nivel de 0.07 (o con un 93% de conanza).

Ejemplo:

Suponga el siguiente Modelo de Regresión Lineal Simple:

Yi = β1 + β2Xi + ui para i = 1, ..., N

Además posee la siguiente información muestral de X e Y:

Y 2 5 6 7X 0 10 18 20

El estimador MCO de β1 y β2 es el siguiente:

β =

[β1

β2

]=

[4 4848 824

]−1 [20298

]=

[2,19350,2338

]

La matriz de varianzas y covarianzas de β es:

V (β) = σ2u(X

′X)−1

=0,436

2

[4 4848 824

]−1

=

[0,180866 −0,010536−0,010536 0,000878

]

58

Page 60: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Primero veamos el ajuste de este modelo, es decir, en que grado la variable x

explica a la variable y, para lo cual calculemos el R2 y R2:

R2 = 1− RSS

TSS= 1−

∑4i=1 u2

i∑4i=1(Yi − Y )2

= 1− 0,436

14= 0,969

R2

= 1− RSS/2

TSS/3= 1−

∑4i=1 u2

i /2∑4i=1(Yi − Y )2/3

= 0,953

Como podemos ver, el grado de ajuste del modelo es bastante bueno, como elmodelo incluye constante, el R2 se puede interpretar como la proporción de lavariabilidad de la variable independiente que es explicada por la variabilidad dela variable dependiente, la que en este caso alcanza un 97%.

Ahora veamos si estos parámetros estimados son signicativos a un 95% de con-anza, para lo cual realizaremos un test t de signicancia a cada uno de ellos:

1. Test de signicancia de β1:H0 : β1 = 0

H1 : β1 6= 0

t =β1

V ar(β1)∼ t2

De esta forma, el valor calculado para el estadístico t es:

tc =2,193548387√

0,180866= 5,157850523

El valor de tabla del estadístico t a un 95% de conanza y con dos gradosde libertad es 4,303.

Probabilidad

No seRechaza Se

Rechaza(2,5%)

SeRechaza(2,5%))

t(2)=4,303 t(2)=4,303

tc=5,158

59

Page 61: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

De esta forma, se rechaza la hipótesis nula de que β1=0, y por lo tanto elparámetro estimado resulta ser estadísticamente signicativo.

2. Test de signicancia de β2:H0 : β2 = 0

H1 : β2 6= 0

t =β2

V ar(β2)∼ t2

De esta forma, el valor calculado para el estadístico t es:

tc =0,233870968√

0,000878= 7,892762865

El valor de tabla del estadístico t a un 95% de conanza y con dos gradosde libertad es 4,303.

Probabilidad

No seRechaza Se

Rechaza(2,5%)

SeRechaza(2,5%))

t(2)=4,303 t(2)=4,303

tc=7,893

De esta forma, se rechaza la hipótesis nula de que β2=0, y por lo tanto elparámetro estimado resulta ser estadísticamente signicativo.

3. TAREA: Testee la siguiente hipótesis nula:

H0 : β1 − β2 = 2

H1 : β1 − β2 6= 2

60

Page 62: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.8.2. Test F (Conjunto de hipótesis lineales)

Los casos 6. y 5. corresponden a un conjunto de hipótesis a testear. En el caso5. correspondía a un subconjunto particular de parámetros, mientras que el caso6. correspondía a la nula de que todos ellos eran cero, menos la constante. Endichos casos se aplica la fórmula del test F según la ecuación (2.63) y los criteriosde rechazo siguen lo expuesto en la sección anterior.

Sin embargo, en ambos casos podemos derivar expresiones alternativas para nue-stro test.

Todas las pendientes del modelo son cero: En este caso, se puededemostrar que el test F puede expresarse como:

F =ESS/(k − 1)

RSS/(n− k)∼ F(k−1,n−k) (2.68)

o alternativamente, utilizando la denición del R2:

F =R2/(k − 1)

(1−R2)/(n− k)∼ F(k−1,n−k) (2.69)

Un subconjunto de las pendientes del modelo son cero: En estecaso, se puede demostrar que el test F puede expresarse como:

F =(u′∗u∗ − u′u)/k2

u′u/(n− k)∼ F (k2, n− k) (2.70)

donde u∗ denotan los residuos MCO restringidos (donde k2 representa elnúmero de regresores que han sido restringidos a cero), mientras que urepresentan los residuos del modelo MCO original.

2.8.3. Intervalos de Conanza

Una forma alternativa (o mejor dicho complementaria) de examinar la signican-cia estadística de un parámetro ( o un conjunto de ellos) es a través de intervalosde conanza (IC). Ellos nos indican, dado un nivel de conanza, el rango devalores admisibles del coeciente que se estima. Los niveles de conanza gen-eralmente utilizados son 99%, 95% y 90% (al igual que en los test de hipótesis),

61

Page 63: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

donde el tamaño de los mismos es necesariamente decreciente9.

Una manera natural de obtener el IC asociado a βi es a través del test t aso-ciado. Vimos entonces que él corresponde a:

βi − βi0√V ar(βi)

∼ tn−k

entonces, si deseamos un IC del (1-α)% de conanza (es decir, de α% de signi-cancia) para el parámetro βi, basta obtener de las tablas de distribución el valorλα correspondiente, es decir:

1− α = Pr

Zα/2 ≤ βi − βi0√

V ar(βi)≤ Z1−α/2

= Pr

−Z1−α/2 ≤ βi − βi0√

V ar(βi)≤ Z1−α/2

= Pr

[βi − Z1−α/2

√V ar(βi) ≤ βi0 ≤ βi + Z1−α/2

√V ar(βi)

]

donde la tercera expresión se obtiene de despejar βi0 de la segunda. Note que elintervalo ha sido construido en base a una distribución simétrica (como la t o lanormal), por lo cual el valor de tabla a escoger debe corresponder a α/2.

Note además que dicho intervalo está construido sólo en base a constantes cono-cidas. Una vez construido, se puede contrastar la nula (H0: βi = βi0) al nivelde signicancia α sencillamente observando si βi0 pertenece al intervalo (en cuyocaso no rechazamos la nula) o se encuentra fuera de él (en cuyo caso rechazamosla nula)10. Nuevamente, la validez de dicho intervalo de conanza depende críti-camente del supuesto de distribución de los errores. En el caso que el valor Zα

se obtenga de la tabla t, como ya sabemos, estamos suponiendo que los erroressiguen una distribución normal. Un caso más general es utilizar los valores críticosde la distribución normal estándar.

También es posible derivar regiones de conanza, es decir, IC de conanza si-multáneos para una conjunto de parámetros, sin embargo, su utilización es escasa

9Intuitivamente, ya que a más exacta es mi estimación del rango posible, con menos conanzapuedo armar estar en lo correcto.

10Una forma fácil de verlo es pensando en βi0=0, es decir, que la variable xi no ayuda aexplicar y.

62

Page 64: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

en econometría aplicada (½a menos que su pregunta puntual lo requiera!).

Finalmente derivaremos el intervalo de conanza para la varianza de los errores.Sabemos de la ecuación (2.61) que:

u′uσ2

∼ χ2n−k

(n− k)σ2

σ2∼ χ2

n−k (2.71)

Utilizando la misma lógica que utilizamos para el IC de un parámetro β, tenemosque el IC para σ2 corresponde a:

[(n− k)σ2

χ2n−k,α

≤ σ2 ≤ (n− k)σ2

χ2n−k,1−α

]= (1− α) (2.72)

Note que los valores críticos utilizados corresponden a χ2n−k,1−α y χ2

n−k,α, ya quela distribución χ2 es una distribución asimétrica.

2.8.4. Test de Normalidad (Test de Jarque-Bera)

Consideramos ahora el problema de utilizar los momentos de los residuos MCOpara hacer inferencia sobre la distribución de los errores poblacionales. Dado quealgunas de las propiedades de MCO y de la inferencia dependen del supuesto denormalidad en los errores, es importante poseer un contraste para dicho supuesto.Como es sabido, la distribución normal es simétrica y mesocúrtica. La simetríaimplica que el tercer momento poblacional E(u3) en torno a la media, es cero. Elhecho que sea mesocúrtica implica que la kurtosis es 3 (es decir, el ancho de lascolas de la distribución, el cual se mide utilizando el cuarto momento en tornoa la media). Recordemos entonces que el coeciente de simetría poblacional sedene como: √

S =E(u3)

(σ2)32

mientras que la kurtosis (o coeciente de):

K =E(u4)

(σ2)2

63

Page 65: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

En base a los anteriores, Bera y Jarke (1981), propusieron el siguiente estadígrafo,construido bajo la nula de normalidad:

JB = n

[S

6+

(K − 3)2

24

]a∼ χ2

(2)

Donde los estimadores muestrales del coeciente de asimetría y kurtosis se ob-tienen al considerar que un estimador natural de:

µr = E[ur]

corresponde a:

mr =1

n

n∑i=1

uri

Note que el estadígrafo está denido en términos del exceso de kurtosis, porlo cual, a menor sea el valor, menor es la probabilidad de rechazar la nula denormalidad. Note además que el estadístico es esencialmente no constructivo, entérminos de que no nos indica que camino seguir en caso de rechazar la nula,además de que no rechazar normalidad no implica conrmar su existencia. Sinembargo, en la práctica corresponde al test más utilizado.

64

Page 66: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.9. Predicción

La predicción es una de las herramientas más atractivas y utilizadas en Econometría.Si el modelo que hemos escogido conrma la teoría en consideración, es decir,a sobrevivido a las pruebas de hipótesis, podemos utilizar el modelo estimadoY = Xβ para predecir. La predicción se puede efectuar para un valor puntual dela variable dependiente, y0, correspondiente a un valor dado de los regresores, x0,o predecir el valor esperado E[y0/x0] condicional a las variables explicativas.

Supongamos primero que queremos predecir un valor individual de Y, y0, asoci-ado a un vector de regresores x0

j con j = 1, 2..., k de dimensión 1× k.

De acuerdo con el modelo econométrico se tiene que y0 = β1+x02β2+.....+x0

kβk+u0.Para predecir el valor de y0 podemos utilizar la estimación MCO del modelo,y0 = x0β.

De esta forma, el error de predicción estará dado por :e0 = y0 − y0 = x0(β − β) + u0

En donde se distinguen dos fuentes del error de predicción

El error en la estimación del vector β

El error estocástico inherente al modelo u0

Sin embargo, si consideramos que el estimador MCO es insesgado y mantenemoslos supuestos de nuestro modelo de regresión lineal, es trivial mostrar que el valoresperado del error de predicción será cero. Además, podemos calcular la varianzadel error de predicción:

V ar(e0) = E[x0(β − β)(β − β)′x′0 + 2x0(β − β)u0 + u0u′0]

V ar(e0) = σ2µ + σ2

µx0(X ′X)−1x′0

La varianza del error de predicción dependerá de la matriz de regresores X dedimensión n× k que se utilizó para obtener las estimaciones de β. Sabemos quea mayor dispersion de las variables explicativas menor varianza tendrán nues-tras estimaciones MCO11. Además dependerá del vector x0 que hemos asumido

11Es posible y se recomienda derivar una expresión para la varianza del error de predicciónutilizando un modelo con 2 regresores. En está expresión se aprecia claramente la dependenciade la varianza del error de predicción con la dispersion en torno a la media de las variablesexplicativas.

65

Page 67: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

conocido y del parámetro σ2µ, el cual no conocemos y deberá ser reemplazado por

su estimador σ2µ si es que queremos construir un intervalo de conanza para la

predicción y0.

Bajo supuestos de normalidad del término de error, el error de predicción esuna combinación lineal de dos variables normales por lo tanto tiene una distribu-ción Normal(0, σ2

e). Por lo tanto, por una razonamiento análogo al de las seccionesanteriores se tiene que:

y0 − y0

√σ2

µ(1 + x0(X ′X)−1x′0)∼ N(0, 1) ⇒ y0 − y0

√σ2

µ(1 + x0(X ′X)−1x′0)∼ tn−k

Por lo tanto, dada una predicción puntual y0 y una estimación de la desviaciónestándar del error de predicción podemos construir un intervalo de conanza parael valor de y0:

Pr[y0 − t1−α/2,n−k

√V ar(e0) ≤ y0 ≤ y0 + t1−α/2,T−k

√V ar(e0)] = 1− α

Consideremos ahora que el investigador no está interesado en predecir el valorde la variable endógena y0, si no tan solo su valor esperado E(y0) = x0β. Lapredicción, al igual que en el caso anterior, será x0β. La diferencia es que el errorde predicción en este caso estará denido por e = E[y0] − x0β = x0β − x0β =

x0(β − β).

Calculando entonces la varianza (Hacerlo!) de este nuevo error de predicciónpodemos construir ahora un intervalo de conanza para E(y0) de la misma formaque antes.

E[y0]− y0

√σ2

µ(x0(X ′X)−1x′0)∼ N(0, 1) ⇒ E[y0]− y0

√σ2

µ(x0(X ′X)−1x′0)∼ tn−k

Pr[y0 − t1−α/2,n−k

√V ar(e0) ≤ E[y0] ≤ y0 + t1−α/2,T−k

√V ar(e0)] = 1− α

Donde utilizamos V ar(y0) = V ar(x0β) = x0V ar(β)x′0 = σ2µx

0(X ′X)−1x′0.

La siguiente gura ejemplica las predicciones de y0 y E[y0/x0] en un modelode 2 variables independientes.

66

Page 68: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.9.1. Medición de la precisión de la predicción

Se han propuesto varias medidas para valorar la precisión de los modelos depredicción. Muchas de estas medidas están para evaluar la predicción expost, esdecir, predicciones para las que las variables exógenas no tienen que ser predichas.Dos de estas medidas que se basan en los residuos de la predicción, son la raízcuadrada del error cuadrado medio y el error absoluto medio.

RMSE =

√∑i(yi − yi)2

n0

67

Page 69: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

MAE =

∑i | yi − yi |

n0

Donde n0 es el número de períodos que hay que predecir. Estos métodos presentanun problema obvio de escala. Algunas medidas que no presentan este problemase basan en el estadístico U de Theil.

U =

√(1/n0)

∑i(yi − yi)2

(1/n0)∑

i y2i

Ejemplo:

Supongamos que un analista comercial está pensando en construir un ediciocomercial para luego vender. Sin embargo, no sabe cuales son las característicasque debiera tener el edicio para maximizar su rentabilidad. Para descubrir estoel se propone realizar un análisis de regresión.

El analista elige al azar una muestra de 11 edicios de ocinas de 1500 ediciosposibles. Estos datos los puede utilizar para emplear el análisis de regresión linealmultiple para estimar el valor de un edicio de ocinas en un área determinadabasándose en las siguientes variables.

x1 x2 x3 x4 yDatos Supercie m2 Ocinas Entradas Antiguedad años Valor Edicio US$

2310 2 2 20 1420002333 2 2 12 1440002356 3 1,5 33 1510002379 3 2 43 1500002402 2 3 53 1390002425 4 2 23 1690002448 2 1,5 99 1260002471 2 2 34 1429002494 3 3 23 1630002517 4 4 55 1690002540 2 3 22 149000

Teniendo los datos podemos entonces utilizar cualquier software estadístico quenos permita desarrollar la estimación por mínimos cuadrados ordinarios del mod-elo de regresión. Supongamos que el modelo que mejor describe el compor-tamiento de nuestra variable dependiente es un modelo lineal del tipo:

yi = β1 + β2x2i + β3x3i + β4x4i + µi

Utilizando el software Stata tenemos:

68

Page 70: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

A mayor número de metros cuadrados, entradas y cantidad de ocinas del ediciomayor es el valor comercial de este. Además, mientras más años de construcciónmenor es el valor del edicio. Todas las variables incluidas en el modelo son es-tadísticamente signicativas( lo cual se puede ver comparando los test calculadoscon los de t de tabla, o viendo directamente el p-value) individualmente (Testt) y conjuntamente(Test F). Un porcentaje importante de la varianza del precioes explicada por la varianza de las variables explicativas, conclusión obtenida apartir del alto R2 y R

2 observado.

Las conclusiones obtenidas a partir de la inferencia realizada son válidas s i elsupuesto de normalidad de los errores se cumple. Para estudiar esto observemos elcomportamiento de los errores estimados y realicemos un Test de Normalidad(Jarque-Bera).

69

Page 71: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Podemos ver que la distribución de los errores no es del todo simétrica (Skewness =1,2) y que tampoco presenta un comportamiento mesocurtico (Kurtosis = 3).Ambos elementos se ven reejados en el estadísitico Jarque - Bera, el cual cae enla zona de rechazo (Ver además p -value).

Las estimaciones realizadas anteriormente pueden hacerse en cualquier programaestadístico, incluso en el sub utilizado programa excel, el cual posee un comandoque permite obtener estimaciones de regresiones lineal de manera mu rápida.

70

Page 72: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Con los parámetros estimados es posible realizar predicciones del valor de unedicio particular condicional a sus características.

yi = β1 + β2x2i + β3x3i + β4x4i

Por ejemplo podría calcular el valor tasado de un edicio de ocinas en la mismazona con 2500 metros cuadrados, tres ocinas, dos entradas y una antiguedad de25 años. Es decir realizar predicciones fuera de la muestra.

158261 = 52318 + 27,64 ∗ 2500 + 12530 ∗ 3 +−234,24 ∗ 25

Para analizar la capacidad predictiva de nuestro modelo realicemos prediccionesutilizando la muestra que ya tenemos. Utilizando por ejemplo el programa Eviewstenemos.

71

Page 73: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

72

Page 74: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Si analizamos los errores de predicción podemos ver que en promedio son cero,tal como se demostró en clases.

Para ver la relación existente entre la varianza de la predicción y una de lasvariables explicativas podemos realizar un ajuste con una variable.

Podemos ver que la varianza de la predicción es mayor a medida que las variablesexplicativas están más lejos de su media.

73

Page 75: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.10. Estimación Máximo Verosímil (EMV)

Hasta el momento hemos adoptado el criterio de estimación consistente con es-coger los valores de los parámetros (β,σ2) de modo de minimizar la suma de losresiduos al cuadrado. A continuación, expondremos otra forma de obtener losparámetros de interés, el cual, a diferencia de OLS, descansa en un determinadosupuesto respecto de la distribución del término de error, teniendo por objetivo,como veremos más adelante, determinar los parámetros que maximicen la prob-abilidad de ocurrencia de la muestra observada. La ventaja de MV es que puedeproducir estimadores consistentes y asintóticamente ecientes cuando MCO falla.

Sea Y'=[y1, y2, . . ., yn] un vector n × 1 de valores muestrales para la variabledependiente, los cuales dependen de un vector k × 1 θ' = [θ1, θ2, . . ., θk]. Seaf(y; θ) la densidad conjunta asociada. A dicha probabilidad conjunta se le llamafunción de Verosimilitud y se denota por L(·):

L(θ; y) = f(y; θ)

Note que hemos invertido la notación entre L y la densidad. Ello porque la den-sidad describe los valores probables de Y dado un vector θ determinado, sinembargo, en nuestro caso el sentido es inverso: estamos interesados en el vector θdado un vector Y determinado.

Al maximizar L(θ; Y ) respecto de θ se obtienen los estimadores máximo verosímiles(θMV ), los cuales maximizan la probabilidad de ocurrencia de la muestra observa-da, es decir:

θMV = maxθ

L(θ; Y ) (2.73)

o equivalentemente12

θMV = maxθ

ln(L(θ; Y )) = maxθ

l(θ; Y ) (2.74)

Luego, si asumimos que las observaciones de Y son independientes, entonces 13:

l(θ; Y ) = ln(n∏

i=1

Li(θ; yi)) =n∑

i=1

li(θ; yi) (2.75)

12En general se utiliza el logaritmo de la función de verosimilitud, denotado como l = ln(L)como función objetivo. Note que dicha transformación es inocua, en términos de que el vectorde parámetros que maximize l será el que a su vez maximize L, ya que: ∂l

∂θ = 1L

∂L∂θ13Bajo independencia, la función de distribución conjunta de una muestra corresponde a la

multiplicación de las funciones de densidad individuales.

74

Page 76: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

La primera derivada de L es generalmente conocida como Score, s = (θ; Y ), porlo cual θMV se obtienen al igualar el score a cero.

2.10.1. Propiedades de los estimadores MV

Las propiedades de los estimadores ML se derivan en grandes muestras, por locual hablaremos de las propiedades asintóticas de los mismos. Ellas son:

1. Consistencia:

plim(θMV ) = θ (2.76)

es decir, asintóticamente, el parámetro estimado corresponde al parámetropoblacional.

2. Eciencia Asintótica: La varianza del estimador ML alcanza la llamadaCota Inferior de Cramer Rao, es decir I(θ)−1. Esta propiedad asintóticaes la principal virtud de los estimadores ML. La cota inferior de CramerRao corresponde al inverso de la matriz de información (que deniremos acontinuación), la cual corresponde a la mínima varianza que puede poseerun estimador insesgado.

3. Normalidad Asintótica:

θMV ∼a N(θ, I(θ)−1) (2.77)

es decir, el estimador ML distribuye asintóticamente normal, con media θy varianza igual al inverso de la llamada matriz de información (I(θ)).Esta última se dene como:

I(θ) = E

[∂l∂θ

∂l∂θ

′]= −E

[∂2l

∂θ∂θ′

]

donde note que la matriz hessiana de segundas derivadas de L es una matrizcuadrada y simétrica de orden k × k.

4. Invarianza: Si θ es el estimador ML de θ y g(θ) es una función continuade θ, entonces g(θ) es el estimador ML de g(θ).

75

Page 77: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.10.2. Estimación MV

Como ya es usual, sea el siguiente modelo poblacional:

Y = Xβ + u

donde las matrices poseen los tamaños usuales y uiid∼ N(0, σ2I). Entonces:

f(u1, u2, . . . , un; σ2I) = f(u1) ∗ f(u2) ∗ · · · ∗ f(un) =n∏

i=1

f(ui)

y asumiendo una distribución normal para los errores, tenemos que la función deverosimilitud corresponde a:

f(u1, u2, . . . , un; σ2I) =n∏

i=1

1√2πσ2

exp−u2

i2σ2 (2.78)

=1

(2πσ2)n2

exp−u′u2σ2 (2.79)

luego, dado nuestro modelo poblacional, tenemos que:

L = f(y1, y2, . . . , yn; X, σ2, β) =1

(2πσ2)n2

exp−(Y−Xβ)′(Y−Xβ)

2σ2 (2.80)

con lo cual, nuestros estimadores θMV = [βMV σ2MV ]′ se obtienen siguiendo la

regla expuesta en (2.74):

maxβ,σ2

ln(L) = maxβ,σ2

ln

(1

(2πσ2)n2

exp−(Y−Xβ)′(Y−Xβ)

2σ2

)

= maxβ,σ2

(−n

2ln(2π)− n

2ln(σ2)− (Y −Xβ)′(Y −Xβ)

2σ2

)(2.81)

con lo cual, las CPO:∂lnL

∂β=

1

σ2X ′(Y −Xβ) = 0

=⇒ βMV = (X ′X)−1X ′Y (2.82)

∂lnL

∂σ= − n

2σ2+

1

2σ4(Y −Xβ)′(Y −Xβ) = 0

=⇒ σ2MV =

(Y −XβMV )′(Y −XβMV )

n(2.83)

76

Page 78: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Entonces, bajo normalidad de los errores, el estimador βMV es equivalente al es-timador MCO. Sin embargo, note que el estimador de la varianza de los errores(σMV ) da lugar al estimador sesgado.

Nos queda entonces derivar la varianza de los estimadores MV. Vimos que lamatriz de varianzas correspondía al inverso de la matriz de información (I(θ)).Por facilidad de cálculo, generalmente se utiliza la segunda denición de I(θ), esdecir, la de las segundas derivadas de la función de verosimilitud. Entonces:

∂2l

∂β∂β′= −X ′X

σ2

−E

[∂2l

∂β∂β′

]=

X ′Xσ2

(2.84)

∂2l

∂β∂σ2= −X ′u

σ4

−E

[∂2l

∂β∂σ2

]= 0 (2.85)

∂2l

∂(σ2)2=

n

2σ4− u′u

σ6

−E

[∂2l

∂(σ2)2

]=

n

2σ4(2.86)

donde esta última esperanza se deriva del hecho que E(u′u) = nσ2. Entonces, lamatriz de información corresponde a:

I(β, σ) =

(X′Xσ2 00 n

2σ4

)(2.87)

mientras que su inversa:

I(β, σ)−1 =

((X ′X)−1σ2 0

0 2σ4

n

)(2.88)

Note que el hecho que la matriz de información (y por lo tanto su inversa) seauna matriz diagonal, reeja que X y u se distribuyen independientemente (de otra

77

Page 79: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

forma E(X ′u) 6=0).

Ejemplo: Considere la siguiente función de densidad condicional:

f(y|x) =λe−λy(λy)x

x!y ≥ 0, λ ≥ 0

Obtenga el estimador de máxima verosimilitud de λ.

Primero debemos recordar que cada observación i de la variable dependiente ytiene la siguiente densidad condicional a la variable explicativa x:

f(yi|xi, λ) =λe−λyi(λyi)

xi

xi!

El logaritmo de la función de verosimilitud asociada a cada observación i es:

li(λ|yi, xi) = ln

(λe−λyi(λyi)

xi

xi!

)

= ln λ− λyi + xi(ln λ + ln yi)− ln(xi!)

De esta forma, aplicando sumatoria a la ecuación anterior obtengo la verosimilitudconjunta:

L(λ|y,x) = n ln λ− λ

n∑i=1

yi + ln λ

n∑i=1

xi +n∑

i=1

xi ln yi −n∑

i=1

ln(xi!)

Maximizando la expresión anterior con respecto a λ obtenemos el estimador Máx-imo Verosímil:

∂L

∂λ=

n

λ−

n∑i=1

yi +

∑ni=1 xi

λ= 0

n− λ

n∑i=1

yi +n∑

i=1

xi = 0

λ =n +

∑ni=1 xi∑n

i=1 yi

λ =1 + x

y

Ahora suponga que disponemos de los siguientes datos de la variable x e y:

y 2 5 6 7x 4 10 18 20

78

Page 80: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

En este caso el estimador Máximo Verosímil de λ es:

λ =1 + x

y

=1 + 13

5= 2,8

79

Page 81: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.11. Inferencia en el contexto MV

2.11.1. Test de Razón de Verosimilitud (LR)

El valor de la función de verosimilitud, L(β, σ2), corresponde al valor de laverosimilitud irrestricta, es decir, sin imponer ninguna restricción sobre losparámetros del modelo. Suponiendo entonces que nuestro interés se centra enuna serie de restricciones lineales del tipo Rβ = r (donde R y r se denen comoen la sección 2.8), entonces el modelo original es estimable en su versión restringi-da, al maximizar la función de verosimilitud sujeta a Rβ = r, cuyo resultado sonlos estimadores β y σ2. Luego L(β, σ2) corresponde al valor de la verosimilitudrestringida.El valor de la verosimilitud restringida no puede ser superior al de la no restringi-da, sin embargo, podría esperarse que si las restricciones impuestas son correctas,el valor de la primera esté cerca del de la segunda. Entonces, denimos la razónde verosimilitud (λ) como:

λ =L(β, σ2)

L(β, σ2)

El test LR se dene entonces como:

LR = −2 ln λ = 2[ln L(β, σ2)− ln L(β, σ2)] ∼a χ2(q) (2.89)

donde q corresponde al número de restricciones impuestas (es decir, el número delas de R).

Intuitivamente, el valor del estadígrafo crecerá a mayor sea la discrepancia entrelos valores de la verosimilitud restringida y la no restringida, lo cual nos aleja dela posibilidad que las restricciones impuestas sea válidas (no rechazo de la nula).

En el caso que los errores distribuyan normal, es posible derivar una versiónalternativa del estadígrafo utilizando los residuos. Reemplazando βMV y σ2

MV enl es posible demostrar:

L(β, σ2) = (2πe)−n2 (σ2)−

n2 =

(2πe

n

)−n2

(u′u)−n2 (2.90)

Luego, si denimos como uNR los residuos del modelo irrestricto y como uR,reemplazando en la denición del test, obtenemos:

LR = n(ln u′RuR − ln u′NRuNR) (2.91)

80

Page 82: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

2.11.2. Test de Wald (W)

Un segundo test asintótico en el contexto MV corresponde al llamado Test deWald. Dicho test se basa en evaluar la hipótesis nula en los coecientes estimadosy evaluar cuan cercano es el resultado comprado a lo propuesto por la nula. Unade las ventajas del test de Wald es que sólo necesita de la estimación no restringi-da. Así, una vez obtenido β, un vector (Rβ− r) cercano a cero tendería a apoyarla hipótesis nula.

Siguiendo la misma lógica de la demostración del test F, si:

βa∼ (β, I(β)−1) (2.92)

entonces, bajo la hipótesis nula:

(Rβ − r)a∼ (0, RI(β)−1R′) (2.93)

entonces, se puede demostrar que:

(Rβ − r)′[RI(β)−1R′]−1(Rβ − r)a∼ χ2

q (2.94)

donde q es el número de las de R y por lo tanto, el número de restricciones (segúnla denimos en la sección 2.8). Luego, como los estimadores MV distribuyen asin-tóticamente normales, entonces la matriz de información expuesta en la ecuación(2.88) es válida en muestras grandes, tenemos que el estadístico de Wald se denecomo14:

W =(Rβ − r)′[R(X ′X)−1R′]−1(Rβ − r)

σ2

a∼ χ2q (2.95)

Una nota: Dijimos que el test era válido asintóticamente, donde hemos utilizadoel resultado de normalidad asintótica de MV. En caso de que los errores efecti-vamente distribuyan normal en muestra nita, el test (lógicamente) mantiene sudistribución.

2.11.3. Test del Multiplicador de Lagrange (LM)

Un tercer test corresponde al test LM, el cual también es conocido como el testdel Score. recordemos que el Score corresponde a la matriz de primeras derivadas

14Note que hemos utilizado sólo el bloque superior izquierdo de la inversa de la matriz deinformación. Ello porque el test corresponde a los parámetros asociados a los coecientes de laregresión. Además, ello es posible porque la matriz es diagonal, lo cual implica que no existecorrelación entre los errores y los regresores.

81

Page 83: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

de la función de Verosimilitud:

s(θ) =∂ ln L

∂θ

=∂l

∂θ

Como vimos en la introducción, s(θ) = 0, por lo cual, al evaluar el score en elestimador restringido bajo la nula Rβ − r = 0 (β), generalmente obtendremosun vector diferente de cero, sin embargo, si la nula no se puede rechazar, esper-aríamos obtener un vector cercano a cero.

Se puede demostrar que el score posee media cero y varianza igual a la matriz deinformación (I(θ)). Por lo tanto, tenemos que la forma cuadrática:

s′(θ)I(θ)−1s(θ)a∼ χ2

con lo cual, al evaluar en el vector de parámetros restringido tenemos que bajola nula, el test LM se dene y distribuye como:

LM = s′(θ)I(θ)−1s(θ) ∼a χ2q (2.96)

Note que contraposición al test de Wald, sólo necesitamos calcular el estimadorrestringido. De hecho, su popularidad reside en que muchas veces es más fácilcalcular el estimador restringido que el irrestricto.

Dada la normalidad asintótica de los estimadores MV, podemos reducir el es-tadígrafo a una forma mucho más simple. Para ver lo anterior, considere unanotación matricial del score:

s(θ) =

[∂l∂β∂l

∂σ2

]=

[1σ2 X

′u− n

2σ2 + u′u2σ4

]

entonces, para evaluar el score en la estimación restringida, utilizamos los residuosrestringidos, los cuales denotaremos por:

u∗ = Y −Xβ

y por lo tanto:σ2∗ =

u′∗u∗n

con lo cual:

s(θ) =

[1

σ2∗X′u∗

0

](2.97)

82

Page 84: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Entonces, tomado en cuenta la denición de I(θ)−1 dada en (2.87) y evaluándolaen el estimador restringido, tenemos que nuestro test en (2.96) queda como:

LM =[

1σ2 u

′∗X 0

] [σ2(X ′X)−1 0

0 2σ4

n

] [1σ2 u

′∗X

0

]

=u′∗X(X ′X)−1X ′u∗

σ2

= nu′∗X(X ′X)−1X ′u∗

u′∗u∗(2.98)

= nR2 ∼a χ2q (2.99)

donde el R2 corresponde a la bondad de ajuste de la regresión auxiliar entre u∗y X.

Resumiendo, el test se implementa en tres simples pasos:

1. Estimar el modelo restringido y obtener sus residuos

2. Con ellos correr una regresión de ellos contra X. Obtener el R2

3. Construir el estadístico

Ejemplo: Siguiendo con el ejemplo anterior, testee la hipótesis nula de que λ = 5.

(i) Test de Razón de Verosimilitud: recordemos que el estadístico de este test es:LR = 2[ln L(λ)− ln L(λ)] ∼a χ2(q)

Primero debemos evaluar el logaritmo de la verosimilitud en el parámetrono restringido (estimado):

L(λ|y,x) = n ln λ− λ

n∑i=1

yi + ln λ

n∑i=1

xi +n∑

i=1

xi ln yi −n∑

i=1

ln(xi!)

= 4 · ln(2,8)− 2,8 · 20 + ln(2,8) · 52 + 90,04− 97,014

= −5,317999436

El siguiente paso es computar el logaritmo de la función de verosimilitudrestringida, es decir, evaluada en el valor del λ bajo la hipótesis nula (λ = 5):

L(λ|y,x) = n ln λ− λ

n∑i=1

yi + ln λ

n∑i=1

xi +n∑

i=1

xi ln yi −n∑

i=1

ln(xi!)

= 4 · ln(5)− 5 · 20 + ln(5) · 52 + 90,04− 97,014

= −16,8481637

83

Page 85: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Luego debemos computar el estadístico restando ambas verosimilitudes enlogaritmos y multiplicar esta diferencia por 2:

LR = 2[ln L(λ)− ln L(λ)]

= 2[−5,317999436 +−16,8481637] = 23,06032853

Finalmente, debemos comparar el valor de este estadístico con el valor detabla de una χ2con 1 grado de libertad (sólo estamos testeando una hipóte-sis). El valor de la χ2 con un grado de libertad a un 5% de signicancia esde 3.84, por lo tanto se rechaza la hipótesis nula de que λ sea igual a 5.

(ii) Test de Wald: para poder realizar este test primero necesitamos computar lamatriz de varianzas y covarianzas del estimador, el inverso de la matriz deinformación. Recordemos la forma de esta matriz:

I(θ) = E

[∂l∂θ

∂l∂θ

′]= −E

[∂2l

∂θ∂θ′

]

El score (o primera derivada de el logaritmo de la función de verosimilitudera:

∂lnL

∂λ=

n

λ−

n∑i=1

yi +

∑ni=1 xi

λ

Ahora, la segunda derivada (o Hessiano) es:

∂lnL2

∂λ∂λ′= − n

λ2−

∑ni=1 xi

λ2

∂lnL2

∂λ∂λ′= −(n +

∑ni=1 xi)

λ2

Como la variable x es ja el valor esperado del hessiano corresponde a lamisma expresión, luego el negativo de esto constituye la matriz de informa-ción:

I(λ) =(n +

∑ni=1 xi)

λ2

I(λ) =(4 + 52)

λ2

I(λ) =56

λ2

Ahora el estadístico de Wald se construye de la siguiente forma:

W = (λ− 5)′I(λ)(λ− 5) ∼ χ21

84

Page 86: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

Reemplazando λ por 2.8:

W c = (2,8− 5)′(

56

(2,8)2

)(2,8− 5)

W c = 34,6

Como el valor calculado del estadístico de Wald resulta ser mayor al valorde tabla de una χ2 con un grado de libertad, se rechaza la hipótesis nula deque λ = 5.

(iii) Test de multiplicador de Lagrange: para construir este estadístico necesita-mos evaluar el score y la matriz de información en el estimador restringuido(λ), que en este caso es igual a 5:

s(λ) =n

λ−

n∑i=1

yi +

∑ni=1

λ=

4

5− 20 +

52

5= −8,8

I(λ) =56

(5)2= 2,24

Reemplazando en el estadístico:

LM = s(λ)′I(λ)−1s(λ)

LM = (−8,8)(2,24)−1(−8,8) = 34,6

Con lo cual se rechaza la hipótesis nula de que λ = 5.

2.12. Algunas acotaciones respecto a la estimacióny la inferencia MV

1. La sección 2.10.2 asume que la distribución de los errores sigue una dis-tribución normal. Sin embargo, suponer errores normales es sólo uno de losposibles supuestos respecto a la distribución de los errores. Existe una grancantidad de posibilidades al respecto, utilizándose otras como la distribuciónlogística y la exponencial, muy regularmente en otros tópicos econométricos.Lo anterior es una ventaja de la estimación MV, dado que sus propiedadesasintóticas se mantienen independientemente de la distribución utilizada.

2. Otra ventaja corresponde a la posibilidad de utilizar modelos no lineales.MCO (tal y como lo hemos estudiado) sólo permite estimar modelos linealesen parámetros, mientras que MV permite no linealidades (aunque ello im-plique la imposibilidad de obtener de obtener formas funcionales cerradas

85

Page 87: Benavente Otero Vasquez Apunte Econometria I

Capitulo 2: Modelo de Regresión LinealEconometría I

FACEA, Universidad de Chile

para nuestros estimadores, lo cual implica necesariamente utilizar métodosnuméricos para optimizar la función objetivo).

3. Otra ventaja reside en la inferencia. Toda la inferencia vista en MCO poseíadistribución exacta bajo el supuesto de normalidad. Los test asintóticosvisto en la inferencia MV son válidos bajo cualquier distribución supuesta(aunque asintóticamente).

4. Adicionalmente, los tres test vistos son capaces de lidiar con restricciones nolineales. ¾Por qué? Porque MV es capaz de lidiar con modelos no lineales15

5. Es posible demostrar que W ≥ LR ≥ LM al ser aplicados a un modelolineal. Los tres son asintóticamente equivalentes, sin embargo, en muestrasnitas arrojarán resultados diferentes.

6. ¾Cuándo es recomendable utilizar un test t o un test F por sobre un testasintótico?

7. Todos los paquetes estadísticos reportan el valor de la función de verosimili-tud (es decir, la función evaluada en los parámetros estimados). Ello, muchasveces es utilizado como un criterio de selección entre modelos (recuerde quenuestro objetivo es maximizar la función de verosimilitud).

15Un ejemplo de restricción no lineal corresponde a H0 : ln(β23) = −0,1+ ln(β2). Para estimar

el modelo restringido basta con aislar β2 e introducirlo en la función de verosimilitud que serámaximizada por métodos numéricos.

86

Page 88: Benavente Otero Vasquez Apunte Econometria I

Capítulo 3

Forma Funcional y Especicación

3.1. Regresores Estocásticos en el Modelo de Re-gresión Lineal

En el desarrollo del modelo de regresión lineal realizado en la sección 2.4 asum-imos que nuestras variables explicativas eran determinísticas (Supuesto 2). Enese contexto, cada vez que tomábamos una muestra diferente los regresores per-manecían jos y solo la variable dependiente cambiaba, haciendo entonces quela regresión muestral fuera una aproximación a la regresión poblacional. En estásección procederemos a eliminar este supuesto1 y veremos cuales son las con-secuencias de asumir regresores estocásticos en las estimaciones del modelo deregresión lineal. Es decir, asumiremos ahora que X es obtenida aleatoriamente apartir de alguna distribución de probabilidad.

Si X es estocástico, X debe ser independiente de u si queremos mantener laspropiedades estadísticas de los estimadores MCO. Un método adecuado paraobtener las propiedades estadísticas de β consiste en obtener primero los resulta-dos condicionados en X. Esto equivale al caso de los regresores no estocásticos.Después buscamos los resultados incondicionales "promediando"(por ejemplo, porintegración total) las distribuciones condicionadas. La clave de este razonamien-to es que, si podemos establecer insesgamiento condicionado en un X arbitrario,podemos promediar las X para obtener un resultado incondicionado.

Manteniendo los supuestos 3 y 4 dados por E(u|x)=E(u)=0, V ar(u|X) = V ar(u) =

1Todos los otros supuestos realizados anteriormente se mantienen.

87

Page 89: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

σ2 podemos al igual que antes estudiar si MCO es insesgado.

β = β + (X ′X)−1X ′u

E[β|X] = β + (X ′X)−1X ′E[u|X] = β

Ya que por supuesto 3 E[u|X] = 0. Podemos ahora calcular el valor esperadoincondicional aplicando esperanza sobre todo el espacio posible de los regresores.

E[β] = Ex[E[β|X]]

E[β] = β + Ex[(X′X)−1X ′E[u|X]] = β

Por lo tanto, β también es insesgado incondicionalmente.E[β] = Ex[E[β|X]] = β.El insesgamiento de los parámetros MCO es robusto a los supuestos de la matrizX.

Con respecto a la varianza de β condicionada en la matriz de variables inde-pendientes tenemos

V [β|X] = σ2(X ′X)−1

Sin embargo, la varianza incondicional de β esta dada por2

V [β] = Ex[V [β|X]] + Vx[E[β|X]]

V [β] = Ex[V [β|X]] + Vx[β]

V [β] = Ex[V [β|X]] = E[σ2(X ′X)−1] = σ2E[(X ′X)−1]

Nuestra conclusión inicial se altera un poco, tenemos que sustituir (X ′X)−1 porsu valor esperado para obtener la matriz de covarianzas apropiadas. La varianzaincondicionada de β solo puede ser descrita en términos del comportamientomedio de X. Sin embargo, el teorema de Gauss Markov seguirá aplicando. Ya quesi para cada X particular el estimador MCO es el mejor estimador lineal insesgadotambién lo será para los valores medios de los regresores.

2Aplicando descomposición de la varianza(Ver).

88

Page 90: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Conclusiones:

Si los errores son independientes de las X entonces se cumplirá el Teoremade Gauss Markov.

Bajo normalidad del error los test estadísticos tienen la misma distribuciónque en el caso de las X no estocásticas.

3.2. Incorporación de No Linealidades

En la sección 2 asumimos que el modelo de regresión debía ser lineal. Sin embargo,muchas de las relaciones económicas no son lineales. Veamos el siguiente ejemplode la relación entre las ventas de los portales de Internet y el número de visitasal portal.

Claramente la relación es no lineal. No es lo mismo en términos de ventas aumen-tar desde 40 visitas a 50 que de 10 visitas a 20. Pero, ¾Cómo podemos incorporarno linealidad entre Y y X en nuestro modelo de regresión?. Básicamente lo queharemos es utilizar algunos tipos de transformación de variables. Esto nos permi-tirá tener un modelo no lineal y a partir de la aplicación de las transformacionestener un modelo de regresión lineal para el que se cumplen todas las cosas quehemos visto.

89

Page 91: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Transformación Logarítmica

Suponga un modelo original no lineal de la siguiente forma Yi = β1Xβ2

i ui.Si aplicamos logaritmo nos quedará un modelo transformado de la sigu-iente forma

ln(Yi) = ln(β1) + β2ln(Xi) + ln(ui)

En donde β2 = ∂Y∂X

XY

corresponde a la elasticidad X de Y. Este tipo detransformaciones es muy útil en modelos de demanda y de producción.

Transformación Semilogarítmica

Suponga unmodelo original no lineal de la siguiente forma Yi = β1eβ2Xiui.

Si aplicamos logaritmo nos quedará un modelo transformado de la sigu-iente forma

ln(Yi) = ln(β1) + β2Xi + ln(ui)

En donde β2 = ∂Y∂X

1Y

corresponde a la semi elasticidad X de Y. Una uti-lización común de la formulación semilogarítmica se da en los casos decrecimiento exponencial. Si X es el tiempo t, entonces ∂ln(Y )

∂t= β2 =Tasa

media de crecimiento de Y.

Transformación Recíproca

Suponga un modelo original no lineal de la siguiente forma Yi = β1 +β2

1Xi

+ ui. El cual podemos expresar como un modelo transformado dela siguiente forma

Yi = β1 + β2Zi + ui

En donde β2 = ∂Y∂X

corresponde al parámetro usual.

Si no se conoce a priori la forma funcional, existen algunos métodos que podríanidenticar la existencia de alguna no linealidad. A continuación veremos uno deellos.

3.2.1. Test de No Linealidades Omitidas (Test de Reset)

Una pregunta interesante de plantearse es si nuestro modelo ha omitido no lin-ealidades en ciertos regresores3. Ramsey (1969) introdujo el siguiente test. Bajo

3Es importante no confundir la no linealidad en regresores Vs no linealidades en parámetros.Nuestro enfoque se basa en el primer tipo de ellas. El segundo es de mayor complejidad en tanto

90

Page 92: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

la nula, el modelo poblacional corresponde a:

Y = Xβ + u

luego, denotamos, como ya es usual, Y = Xβ. Ramsey propuso estimar el sigu-iente modelo auxiliar a través de MCO.

Y = Xβ1 + Zβ2 + u

donde:

Z =[

Y 2 Y 3 . . . Y m]

luego la nula:

H0: No Existen no linealidades omitidas

H0: β2=0

puede ser testeada utilizando un test de Wald sobre β2. Es posible demostrar quebajo la nula W∼a χ2

m−1. Por lo tanto, la nula se rechaza al α% de signicancia siel estadígrafo es mayor que el valor crítico correspondiente. Para implementar eltest, m (es decir, el número de potencias de Y a incluir en la regresión auxiliar)debe ser seleccionado previamente. Típicamente, valores pequeños como 2, 3 o 4parecen funcionar mejor.

que al derivar la función objetivo con respecto a los parámetros de interés, podemos no obteneruna forma funcional cerrada para nuestro estimador. Ello nos llevará generalmente a utilizarmétodos numéricos para maximizar o minimizar nuestra función objetivo, la cual, incluso puededejar de ser estrictamente cóncava.

91

Page 93: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.3. Variables Dummies o cualitativas

En en análisis de regresión, la variable dependiente esta inuida frecuentementeno solo por variables continuas como so el ingreso, producción, precios, costos,estatura, temperatura, etc..., sino también por variables que son esencialmentecualitativas, estos son regresores binarios, es decir, variables que sólo toman el val-or 0 o 1. Dichas variables son llamadas variables dummies, variables dicotómicaso variables cticias. Muchas veces el regresor es binario porque así fue recogidoen la encuesta. Sin embargo, en otros casos el regresor binario ha sido construidoa partir de otras variables de los datos.

Algunos ejemplos de variable dummies son: género, raza, religión, nacionalidad,región geográca, etc....Con respecto a las dos primeras variables mencionadaspor ejemplo, se ha encontrado que manteniendo todos los demás factores con-stantes, las trabajadoras mujeres ganan menos que sus colegas hombres, y quelas personas de color ganan menos que las blancas. Este patrón puede resultar dediscriminación sexual o racial, pero cualquiera sea la razón, las variables cualita-tivas tales como género o raza sí inuyen sobre la variable dependiente.

Por ejemplo, consideremos la siguiente variable dummy para género (mujer/hombre)del individuo. Entonces la variable dummy consistirá en un vector (n × 1) conelementos 0 o 1 según corresponda. Es decir:

d1i =

1 mujer0 hombre

(3.1)

A modo de ejemplo, pensemos en una ecuación simple de salarios E(Salario(W)/Género),la cual implica el siguiente modelo:

Wi = β0 + β1d1i + ui (3.2)

entonces, dada la especicación escogida para la dummy, tenemos que:

β0 = E(W/hombre)

β0 + β1 = E(W/mujer)

Alternativamente, podríamos haber denido la dummy de la siguiente forma:

d2i =

0 mujer1 hombre

(3.3)

92

Page 94: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

y el modelo comoWi = β0 + β1d2i + ui

entonces, en esta segunda especicación escogida para la dummy, tenemos que:

β0 + β1 = E(W/hombre)

β0 = E(W/mujer)

Una tercera forma de denir el modelo sería incluyendo ambas dummies:

Wi = β1d1i + β2d2i + ui

con el cual tendríamos que los retornos a ambos géneros serían:

β2 = E(W/hombre)

β1 = E(W/mujer)

Los tres modelos anteriores son equivalentes. Note que en el tercer modelono incluimos término constante ya que ello haría que la matriz X fuese singular ypor lo tanto, no invertible. Dicho error de especicación es llamado en la literatu-ra Trampa de las Dummies y corresponde a un error netamente del investigador,no de los datos.

Un modelo de regresión puede contener variables explicativas que son exclusi-vamente dicotómicas o cualitativas, tales modelos se denominas Modelos deanálisis de varianza (ANOVA), estos modelos son utilizados para determinarla signicancia estadística de la diferencias de medias entre grupos, por ejemplo,serviría para determinar si existe diferencia signicativa entre los ingresos mediosde los hombres y mujeres.

Ejemplo I:Contamos con datos de ingreso proveniente de la ocupación principal para el año2000, de acuerdo a zona geográca de Chile: Norte (de la primera a la cuartaregión), Centro (quinta región, sexta región y región metropolitana) y Sur (dela séptima a la duodécima región). Suponga que deseamos averiguar si el salariopromedio diere entre las distintas zonas geográcas, si tomamos el promedio delos salarios de los individuos en cada una de las zonas obtenemos lo siguiente:

Zona Geográfica Salario PromedioNorte $ 270,154Centro $ 296,857.8Sur $240,238.9

93

Page 95: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Estos números son claramente diferentes entre sí, pero lo que nos interesa saberes si esta diferencia es estadísticamente signicativa, para esto utilizaremos unmodelo ANOVA.

Consideremos el siguiente modelo de regresión:Yi = β0 + β1D1i + β2D2i + ui

donde:

Yi=Salario del individuo i.D1i=es una variable dummy que toma valor 1 si la persona i vive en el norte ycero sino.D2i= es una variable dummy que toma valor 1 si la persona i vive en el sur ycero sino.

Este modelo es como cualquier otro modelo de regresión lineal, la única difer-encia que ahora todo nuestras variables explicativas son binarias. De esta forma,el salario promedio de los individuos que viven en el norte es:

E(Yi|D1i = 1, D2i = 0) = β0 + β1

de igual forma el salario promedio de los individuos que viven en el sur es:E(Yi|D1i = 0, D2i = 1) = β0 + β2

y por último, el salario promedio de los individuos que viven en el centro es:E(Yi|D1i = 0, D2i = 0) = β0

Así, el salario promedio de los individuos de la zona centro esta dado por el inter-cepto de la ecuación de regresión, además los coecientes β1 y β2 ("pendiente"),indican la cantidad en que los salarios promedios del norte y sur dieren de los delcentro, respectivamente. Ahora necesitamos ver si estas diferencias son estadísti-camente signicativas.

El modelo estimado es:

94

Page 96: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Como los tres coecientes estimados resultan ser estadísticamente signicativos,la diferencia en los salarios promedios entre regiones es estadísticamente signi-cativa. De esta forma, se puede concluir que los salarios en la zona centro sonestadísticamente mayores a los de la zona norte y sur, y que los de la zona norteson estadísticamente superior a los de la zona sur.Es importante tener claro que las variables dicotómicas simplemente señalaranlas diferencias, si es que estas existen, pero no sugieren razones por las cualesestas se presentan.

Desde ahora llamaremos a la categoría que no se le asigna dummy (en nuestroejemplo la zona centro) como categoría base, todas las comparaciones se haránrespecto a esta categoría. Los coecientes correspondientes a las variables di-cotómicas los llamaremos coecientes de interacción diferencial.

Los modelos ANOVA que acabamos de analizar no son muy frecuentes en economía,sólo se utilizan para testear diferencias de medias.

Los modelos econométricos generalmente son más amplios e introducen tanto vari-ables explicativas continuas como dicotómicas. Por ejemplo, es razonable suponerque, además del género, existen otros factores que explican el salario (educacióny experiencia (entre otros) siguiendo a Mincer (1974)).

Especiquemos nuevamente el modelo en (3.2) como E(Salario (W)/Educación(E), Género):

Wi = β0 + β1d2i + β2Ei + ui

Dicho modelo presenta un efecto intercepto para el género, es decir, hombresy mujeres poseen diferente intercepto, pero igual pendiente (β2) en educación(retorno a la educación):

β0+β 1

β0

β

β2

2

Mujeres

Hombres

E

W

Salario y Educación, diferencia de intercepto entre hombresy mujeres

95

Page 97: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Ahora, si quisiéramos especicar un modelo en que además las pendientes varíencon el género (retornos a la educación diferenciados), tendríamos el siguientemodelo:

Wi = β0 + β1d2i + β2Ei + β3d2i · Ei + ui

donde:

E(Salario (W)/Educación (E), Hombre)=β0 + β1+β2E+β3E.E(Salario (W)/Educación (E), Mujer)=β0+β2E.

∂E(Salario(W )/Educacin(E),Hombre)∂E

= β2 + β3.

∂E(Salario(W )/Educacin(E),Mujer)∂E

= β2.

En el caso que existan otros regresores continuos (experiencia, por ejemplo), po-dría ser deseable poseer efectos diferenciados en la pendiente sólo para algunosde ellos.

β0+β 1

β0

β

β2

2

Mujeres

Hombres

E

W

Salario y Educación, diferencia de intercepto y pendienteentre hombres y mujeres

+β3

96

Page 98: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.3.1. Posibles usos de las variables Dummies

Como hemos mencionado las variable dummies pueden reejar características in-dividuales como género, status marital,raza, etc, y de esta forma las habiamosllamado variable cualitativas. Sin embargo, este no es el único motivo paraincluir dummies en una regresión. Existen además aquellas dummies llamadasdummies estacionales cuyo objetivo es controlar por factores temporales delos datos. Por ejemplo, estimando la demanda de helados, es posible que ex-ista un .efecto verano"por lo cual la demanda aumente en algunos trimestres obimestres, de esta forma para controlar dicho efecto, se deben incluir 4 dummiescada una correspondiente a un trimestre del año (o 6 en el caso del bimestre, o 2en el caso del semestre, etc.). Recuerde que el caso de incluir una constante deberetirar discrecionalmente alguna de ellas, la cual servirá como trimestre de ref-erencia. Las dummies también pueden ser útiles para captar efectos umbrales.Siguiendo con nuestro ejemplo de educación, podríamos tener que en la encuesta,la variable Educación no fue recogida en forma continua, sino discreta (es decir,si la persona posee: Educación Básica (8 años), Educación Media (12 años), Edu-cación Universitaria (17 años), Educación universitaria con postgrado (19 años)).Deniendo una dummy por cada nivel de educación, el coeciente asociado a ca-da una de ellas nos mostraría el retorno a cada tipo de educación. Finalmente,las dummies pueden ser de utilidad para cuanticar efectos condicionales. Yahabíamos enunciado éstas cuando vimos E(W/E,género), en que permitimos quela pendiente varíe entre géneros. Dichas dummies son de interés cuando queremoscaptar algún efecto condicional a alguna característica. Por ejemplo, el retorno ala educación dado que se es mujer, o que se es casado, o que se es blanco, etc.En dicho caso, basta introducir la dummy que identica el estado condicionalmultiplicada por la variable de interés.

Concluyendo, la forma en que se incluyan las variables binarias en el modelode regresión depende de la pregunta que el investigador desee responder o delobjetivo que tenga para incluirlas. Creatividad y teoría.

Desde el punto de vista de la teoría de regresión, di corresponde a un vari-able aleatoria del mismo proceso de muestro que generó el resto de las variables.Veamos entonces como manejarlas algebraicamente. Sea el modelo simple:

Wi = β1d1i + β2d2i + ui

o en nuestra notación matricial usual:

Y = Xβ + u

97

Page 99: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

donde β = (β1β2) y X = [D1D2], entonces:

β = (X ′X)−1X ′Y

=

[D′

1D1 D′1D2

D′2D1 D′

2D2

]−1 [D′

1YD′

2Y

]

=

[ ∑ni=1 d2

1i

∑ni=1 d1id2i∑n

i=1 d1id2i

∑ni=1 d2

2i

]−1 [ ∑ni=1 d1iyi∑ni=1 d2iyi

]

=

[n1 00 n2

]−1 [ ∑ni=1 d1iyi∑ni=1 d2iyi

]

=

[y1

y2

]

donde n1 y n2 son el número de observaciones con d1i=1 y d2i=1, respectivamente,y y1 y y2 corresponden a las medias muestrales entre las respectivas observaciones.

Y con respecto a la varianza de los estimadores:

V (β) = (X ′X)−1σ2

=

[σ2

n10

0 σ2

n2

]

donde:σ2 =

1

n

n∑i=1

u2i

es el estimador basado en la muestra completa.

98

Page 100: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Ejemplo II:A continuación veremos la aplicación de la llamada .Ecuación de Mincer"paraestimar el retorno a la educación. Los datos corresponden a un grupo de jóveneschilenos egresados de la educación media técnica, los que fueron entrevistados en1997. La primera gura muestra la estimación de la ecuación de Mincer en suversión original (1974):

ln(Salario)i = α + β1Educacioni + ui

Consideremos ahora una versión más completa del modelo en que incluimos laexperiencia y una dummy que toma el valor 1 si el individuo es una mujer:

Note que el retorno a la educación sigue siendo positivo, mientras que la dummypara mujer es negativa (¾Qué signica que el parámetro sea negativo?). Veamos acontinuación, la misma especicación, sólo que esta vez la dummy se dene como1 si el individuo es hombre:

99

Page 101: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

¾Cómo es el parámetro de la dummy para el hombre comparado con el de lamujer? ¾Qué pasa con la estimación del resto de los parámetros?.

100

Page 102: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.4. Variable Dependiente Rezagada

Cuando trabajamos con series de tiempo, es posible que sea de nuestro interésincluir rezagos de la variable dependiente como variables explicativas. Ello puedeocurrir cuando creemos que existe cierta persistencia de nuestra variable depen-diente. Por ejemplo, para tratar de explicar el comportamiento de la inación(πt), tendría sentido introducir como variables explicativas, junto con la tasa decrecimiento del dinero (mt), rezagos de la propia tasa de inación:

πt = β0 + β1πt−1 + β2mt + ut

Supongamos el modelo más simple posible:

yt = β1yt−1 + ut con |β1| < 1 (3.4)

Adelantándonos a la teoría de series de tiempo, el modelo anterior recibe el nom-bre de Proceso Autorregresivo de Primer Orden (AR(1)), donde el nombrede autorregresivo se debe a que la variable se explica por rezagos de ella misma yde primer orden porque depende sólo del primer rezago (el orden indica el númeromáximo de rezagos incluidos).

La estimación MCO del modelo anterior es β = (X ′X)−1X ′Y , donde X=[i,Yt−1],con la diferencia que esta vez poseemos n-1 datos, a menos que supongamos unvalor inicial para Y0. En este caso dejan de cumplirse uno de los supuestos bajolos cuales vimos las propiedades del estimador MCO y la inferencia asociada,aunque continuemos haciendo los supuestos pertinentes para el término de error,el modelo viola el supuesto de regresores jos (no estocásticos).

Analicemos esto con más detalle, el estimador MCO de β1 en (3.4) es:

β1 =

∑Tt=2 ytyt−1∑Tt=2 yt−12

=

∑Tt=2(β1yt−1 + ut)yt−1∑T

t=2 y2t−1

= β1 +

∑Tt=2 utyt−1∑Tt=2 yt−12

para que este estimador sea insesgado se requiere que:

E

[∑Tt=2 utyt−1∑Tt=2 yt−12

]= 0 (3.5)

101

Page 103: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

lo cual se cumplirá en la medida que ys y ut sean independientes para todo (t,s).

Para examinar este punto con más detalle, substituyamos el modelo en repetidasocasiones hasta llegar a una forma general:

y1 = β1y0 + u1

y2 = β1y1 + u2 ⇒ y2 = β1(β1y0 + u1) + u2 = β21y0 + (u2 + β1u1)

y3 = β1y2 + u3 ⇒ y3 = β1(β21y0 + u2 + β1u1) + u3 = β3

1y0 + β21u1 + β1u2 + u3

...yt = βt

1y0 + (ut + β1ut−1 + β21ut−2 + · · ·+ βt−1

1 u1)

Luego, multiplicando yt por ut, ut−1, ut−2, etc. y tomando esperanza, tenemosque:

E(ytut) = σ2

E(ytut−1) = β1σ2

E(ytut−2) = β21σ

2

Por lo tanto, el valor actual de y se encuentra correlacionado con el error actual ypasado (no con los futuros). De la misma forma, rezagando la expresión nal parayt, multiplicando por ut, ut−1, ut−2, etc. se puede vericar que el regresor yt−1 nose encuentra correlacionado con el valor actual del error, pero si con sus valorespasados. Ello implica que nuestro supuesto E(uiXi) = 0 ya no es válido, por locual, la matriz de varianzas y covarianzas involucradas ya no será una matriz deceros, lo cual se traducirá en que los estimadores MCO ya no serán insesgados,pero si consistentes (Demostrarlo).

Note que lo anterior es válido para rezagos de la variable dependiente, pero nopara rezagos de variables explicativas, en cuanto estos últimos pueden ser aúninterpretados como jos. El único problema que puede presentar el incluir estetipo de regresores es la alta correlación que existente entre el valor presente delregresor y de su o sus rezagos incluidos en el modelo. Ello da origen a problemasde multicolinealidad.

102

Page 104: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.4.1. Ejemplo y advertencias sobre el uso de variable de-pendiente rezagada como regresor

Tenemos la siguiente información sobre Índice de Precios al Consumidor (IPC)desde 1982 al 20034. A partir de esta información podemos construir la inación(cambio porcentual en el índice de precios):

πt =IPCt − IPCt−1

IPCt−1

Veamos que resultados obtenemos al realizar la siguiente regresión:

IPCt = β0 + β1IPCt−1 + ut

4Información obtenida del Banco Central de Chile: www.bcentral.cl

103

Page 105: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Cuando el coeciente de la variable dependiente rezagada es muy cercano a 1, sedice que la serie tiene raiz unitaria5. Sin embargo, este no es el caso. Si teorica-mente siempre se espera que la inación sea pequeña pero positiva, deberiamosesperar que el índice de precios siempre fuera creciendo, y por lo tanto esta seriemás que tener una raiz unitaria tiene una tendencia.

La persistencia en el índice de precios al consumidor es casi obvia. Lo que nosinteresa es determinar si existe persistencia en la inación, la que deberíamosesperar fuera estable en el tiempo y con valores relativamente bajos y positivos.Vemos que sucede al estimar el siguiente modelo:

πt = β0 + β1πt−1 + ut

El coeciente β1 es signicativo y del orden del 0.8 ¾Que signica esto?.5Cuando una serie tiene raiz unitaria, esta no es estacionaria, lo que signica que no uctúa

en torno a su valor promedio. El test t de signicancia del parámetro que acompaña a la variabledependiente, no sirve para evaluar la hipótesis de raiz unitaria. Comente error tipo I

104

Page 106: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.5. Selección de Modelos

Una pregunta crucial que se enfrenta en econometría aplicada es como escogerentre diversas especicaciones planteadas para responder una misma pregunta.No existe un respuesta única al problema anterior, sin embargo, algunas recomen-daciones son:

Elegir el modelo más parsimonioso (lo más pequeño posible)

Que posea un buen ajuste

Que sea consistente con los datos observados

Sin embargo, el caso de tener que elegir entre modelos anidados, es posible utilizarlos llamados Criterios de Información. Suponga que usted desea escoger entrealguno de los siguientes modelos:

Y = β0 + β1x1 + β2x2 + β3x3 + u (1)

Y = α0 + α1x1 + α3x3 + v (2)

Y = φ0 + φ(x1 + x2) + ω (3)

donde se dice que el modelo (1) encompasa al (2) y al (3), ya que los dos segundosson el versiones restringidas del primero. Luego, se dice (2) y (3) son anidados en(1)

La pregunta relevante es ¾Cuál de las tres especicaciones anteriores es mejor?.Los criterios de información nos ayudan a responder dicha pregunta. El primercriterio de información es el Criterio de Akaike (ACI) y se dene como:

ACI = −2 ln L

n+

k

n

mientras que el Criterio de Schwarz (BIC) se dene como:

BIC = −2 ln L

n+ k

ln(n)

n

Luego, el criterio de selección entre modelos anidados corresponde a elegir elmodelo con menor criterio de información. Note que para que los criterios seancomprables, deben poseer el mismo tamaño de muestra.

105

Page 107: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.5.1. Ejemplo: Retornos a la educación, diferencias entrehombres y mujeres

Recordemos lo aprendido en la sección 3.3 del curso. Veíamos que para estimar elretorno a la educación, es decir, cuanto ingreso adicional me genera un año másde educación, podíamos considerar al menos tres especicaciones:

Modelo I : Wi = β0 + β1d2i + β2Ei + β3Ei · d2i + ui

Modelo II : Wi = β0 + β1d2i + β2Ei + ui

Modelo III : Wi = β0 + β2Ei + ui

donde Wi era el logaritmo natural del salario del individuo i, d2i era una variabledummy que tomaba el valor 1 si la persona i era hombre y 0 sino, Ei eran losaños de educación del individuo i y Ei · d2i era una variable interactiva.Además tenemos que el Modelo II anida al modelo III, y el modelo I anida a losmodelos II y III. De esta forma, podemos utilizar los criterios de información deAkaike y Schwarz para determinar con que especicación nos quedamos.

Estimación del Modelo I:

Wi = β0 + β1d2i + β2Ei + β3Ei · d2i + ui

106

Page 108: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Estimación del Modelo II:

Wi = β0 + β1d2i + β2Ei + ui

Estimación del Modelo III:

Wi = β0 + β2Ei + ui

107

Page 109: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

En resumen:

Modelo Akaike SchwarzI 2.278 -680692.847II 2.279 -680676.053II 2.338 -676154.845

Como debemos elegir el modelo que minimize el criterio de información, de acuer-do a ambos criterios debemos elegir el Modelo I.

108

Page 110: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.6. Regresión Particionada

Sea el siguiente modelo de regresión lineal con k regresores:

Y = Xβ + u

La matrix X de dimensión n × k puede ser particionada en dos submatrices dedimensiones n× k1 y n× k2 que llamaremos respectivamente X1 y X2. De igualforma el vector de parámetros β debe ser particionado en dos subvectores β1 yβ2 asociado a cada una de las submatrices de variables explicativas.De esta forma, el modelo anterior puede ser reescrito como:

Y = X1β1 + X2β2 + u

En términos matriciales estamos haciendo lo siguiente:

Xn×k

=[

X1n×k1

X2n×k2

k×1=

β1k1×1

β2k2×1

tal que k = k1 + k2

Recordando que la estimación mínimos cuadrados ordinaria implica despejar elvector de parámetros del sistema de ecuaciones normales X ′Xβ = X ′Y , podemosescribir esto en función de las matrices particionadas:

[(X ′

1

X ′2

)· ( X1 X2

)] ·[

β1

β2

]=

[X ′

1YX ′

2Y

]

[X ′

1X1 X ′1X2

X ′2X1 X ′

2X2

]·[

β1

β2

]=

[X ′

1YX ′

2Y

]

Lo que puede ser expresado de la siguiente forma:

X ′1X1β1 + X ′

1X2β2 = X ′1Y (i)

X ′2X1β1 + X ′

2X2β2 = X ′2Y (ii)

De (ii) podemos despejar β2:

X ′2X2β2 = X ′

2Y −X ′2X1β1

X ′2X2β2 = X ′

2(Y −X1β1)

β2 = (X ′2X2)

−1X ′2(Y −X1β1) (iii)

109

Page 111: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Reemplazando (iii) en (i):

X ′1Y = X ′

1X1β1 + X ′1 X2(X

′2X2)

−1X ′2︸ ︷︷ ︸

P2

(Y −X1β1)

X ′1Y = X ′

1X1β1 + X ′1P2Y −X ′

1P2X1β1

X ′1Y −X ′

1P2Y = X ′1X1β1 −X ′

1P2X1β1

X ′1 (I − P2)︸ ︷︷ ︸

M2

Y = X ′1 (I − P2)︸ ︷︷ ︸

M2

X1β1

Así, obtenemos el estimador MCO de β1 (y β2 en forma análoga) de una regresiónparticionada:

β1 = (X ′1M2X1)

−1X ′1M2Y

β2 = (X ′2M1X2)

−1X ′2M1Y

También se puede demostrar que las matrices de varianzas y covarianzas de ambosestimadores son:

V (β1) = σ2(X ′1M2X1)

−1

V (β2) = σ2(X ′2M1X2)

−1

Donde σ2 se obtiene utilizando la muestra completa.

3.7. Omisión de Variables Relevantes

3.7.1. Impacto sobre el Insesgamiento

Considere el siguiente modelo poblacional (expresado en desvíos con respecto ala media):

Y = X1β1 + X2β2 + u

Suponga ahora que el investigador se equivoca y estima el siguiente modelo:

Y = X1β1 + u

Estimando el modelo incorrecto obtenemos:

β1 = (X ′1X1)

−1X ′1Y

= β1 + (X ′1X1)

−1X ′1X2β2 + (X ′

1X1)−1X ′

1u

110

Page 112: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

por lo cual:

E(β1) = β1 + (X ′1X1)

−1X ′1X2β2

= β1 + Zβ2

Ello implica que por lo general, la omisión de variables relevantes (que pertenecenal modelo poblacional), causará que los parámetros estimados sea sesgados. Ellono sucederá, sólo en el caso que Z=0 (es decir que X1 y X2 sea ortogonales) o siβ2=0 (aunque dicho caso es contradictorio, dado que implicaría que la variableno pertenece al modelo poblacional).

La dirección del sesgo es difícil de obtener, sin embargo, el análisis se simpli-ca si pensamos en β1 y β2 como escalares. En dicho caso:

E(β1) = β1 +Cov(X1, X2)

V (X1)β2

De lo anterior, se desprende que la dirección del sesgo depende de como covarienlas variables incluidas con respecto a las excluidas y del signo del parámetroomitido.

3.7.2. Impacto sobre la Varianza

Estimando el modelo incorrecto, el estimador de la varianza será:

V (β1/X1) = σ2(X ′1X1)

−1

mientras que si hubiéramos estimado el modelo correcto, se puede demostrar quela varianza del estimador insesgado de β1 (β∗1) correspondería a:

V (β∗1/X1, X2) = σ2(X ′1M2X1)

−1

donde M2 = I −X2(X′2X2)

−1X ′2. Luego, comparamos las inversas de ambas ma-

trices:

(V (β1/X1))−1 − (V (β∗1/X1, X2))

−1 = σ−2(X ′1X2(X

′2X2)

−1X ′2X1)

tal que se puede demostrar que dicha matriz es denida positiva.

Por lo tanto, el omitir variables relevantes implica que los parámetros estimadosserán sesgados y que sus varianzas serán menores. Más aún, también es posibledemostrar que el estimador de la varianza de los errores (σ2) es sesgado haciaarriba (la varianza poblacional es menor).

111

Page 113: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.7.3. Ejemplo

Suponga que un investigador quiere estimar el retorno a la educación y que elmodelo verdadero(obviamente es un caso ilustrativo) está dado por:

Wi = β1Ei + β2EXPi + ui (1)

Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde alos años de educación del individuo i, EXPi corresponde a los años de experiencialaboral del individuo i6 y ui corresponde a un término de error bien comportado.

Sin embargo este investigador utiliza el siguiente modelo para su estimación.

Wi = β1Ei + ui (1)

Los resultados del modelo verdadero son

Los resultados el modelo estimado son

6La cual esta denida como EXPi = Edadi − Ei − 6.

112

Page 114: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Podemos ver el parámetro que acompaña a la variable años de educación es menoren el modelo estimado que en el modelo verdadero. Esta dirección del sesgo sepuede explicar por el signo del parámetro que acompaña a la variable experienciaen el modelo verdadero y a la relación existente entre educación y experiencia enel mercado laboral.

113

Page 115: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.8. Inclusión de Variable Irrelevantes

3.8.1. Impacto sobre Insesgamiento

Considere ahora el siguiente modelo poblacional:

Y = X1β1 + u

Suponga ahora que el investigador se equivoca y estima el siguiente modelo:

Y = X1β1 + X2β2 + u

Estimando el modelo incorrecto obtenemos:

β1 = (X ′1M2X1)

−1X ′1M2Y

= β1 + (X ′1M2X1)

−1X ′1M2u

donde M2 se dene igual que el la sección anterior. Entonces:

E(β1) = β1

y con el mismo razonamiento, se puede demostrar que:

E(σ2) = E

(u′u

T − k1 − k2

)

= σ2

es decir, la inclusión de variable irrelevantes no causa sesgo en los parámetrosestimados, ni en la varianza de los errores estimados. Bajo dichos resultados,pareciera que es mejor poner muchos regresores en nuestro modelo. Sin embargo,nos falta estudiar que sucede con la varianza de los parámetros estimados.

3.8.2. Impacto sobre Varianza

Recordemos que:

β1 = β1 + (X ′1M2X1)

−1X ′1M2u

con lo cual, la varianza estimada:

V (β1/X1, X2) = σ2(X ′1M2X1)

−1

114

Page 116: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

mientras que la varianza verdadera:

V (β1

∗/X1) = σ2(X ′

1X1)−1

entonces, como probamos con anterioridad, la varianza verdadera es menor quela varianza estimada. Ello implica que el incluir regresores adicionales, aumentala varianza de nuestros parámetros estimados, lo cual se traduce en parámetrosmenos ecientes.

3.8.3. Ejemplo

Suponga que un investigador quiere estimar el retorno a la educación y que elmodelo verdadero(obviamente es un caso ilustrativo) está dado por:

Wi = β1 + β2Ei + ui (1)

Donde Wi corresponde al logaritmo del salario del individuo i, Ei corresponde alos años de educación del individuo i y ui corresponde a u término de error biencomportado.

Sin embargo este investigador utiliza el siguiente modelo para su estimación.

Wi = β1 + β2Ei + β3Di + ui (1)

Donde Di corresponde a una variable dicotómica que toma el valor 1 si el indi-viduo fuma y 0 si no fuma.

Los resultados del modelo verdadero son

Los resultados el modelo estimado son:

115

Page 117: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Podemos ver no existe una variación importante en los parámetros del modeloestimado y el modelo verdadero. Sin embargo, tal como habíamos demostrado, lavarianza de los parámetros aumenta disminuyendo entonces la eciencia.

116

Page 118: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.9. Perturbaciones no Esféricas

Un supuesto importante en el modelo clásico de regresión lineal (Supuesto 4) esque los errores ui son homocedásticos, es decir la varianza es constante para todovalor de Xi:

V ar(ui) = V ar(uj) para i 6= j

Figura 8: Homocedasticidad

Cuando el supuesto 4 no se cumple los errores son Heterocedasticos:

Figura 9: Heterocedasticidad

Además se suponía que los términos de error no estaban correlacionados entre si(Supuesto 5):

Cov(uiuj) = 0 para i 6= j

117

Page 119: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Es decir, teníamos que E[uu′]=σ2In, ahora si el término de error no cumple conlos supuestos del modelo de regresión lineal tenemos que E[uu′]=σ2Ω. Donde Ωes una matriz denida positiva.

3.9.1. Consecuencias de estimación por MCO

Recordemos que el estimador MCO es:

β = (X ′X)−1X ′Y

= β + (X ′X)−1X ′u

Como el supuesto de que E[u|X] = 0 se mantiene, tenemos que la E[β|X] = β ypor lo tanto, E[β − β]=0. De esta forma, el estimador MCO con perturbacionesno esféricas sigue siendo insesgado y consistente. Pero no será eciente, dadoE[uu′]=σ2Ω entonces la varianza de β es:

V ar(β) = E

[(β − β

)(β − β

)′]

= E[(X ′X)−1X ′uu′X(X ′X)−1

]

= σ2(X ′X)−1(X ′ΩX)(X ′X)−1

De esta forma, solo si Ω = In la matriz de covarianzas de β será igual a σ2(X ′X)−1,por lo tanto el estimador MCO en presencia de perturbaciones no esféricas notendrá varianza mínima, es decir, no será eciente. Entonces cualquier inferenciabasada en σ2(X ′X)−1 llevará a conclusiones erróneas.

3.9.2. Estimación Eciente: Mínimos Cuadrados General-izados

La estimación eciente de β en el modelo generalizado, donde los errores puedenno ser esféricos, requiere el conocimiento de Ω. Para comenzar supondremos queΩ es una matriz conocida, simétrica y denida positiva.

Bajo estas condiciones el Método de Mínimos Cuadrados Generalizados nospermite estimar de manera eciente los parámetros.

Dado que Ω es una matriz simétrica denida positiva, puede ser descompues-

118

Page 120: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

ta de la siguiente manera:7

Ω = CΛC ′

donde las columnas de C son los vectores propios de Ω y los valores propios (λj)de Ω se encuentran en la diagonal de Λ. Entonces sea Λ1/2, la matriz diagonalcon el j-ésimo elemento igual a

√λj y sea T = CΛ1/2. De esta forma, Ω = TT ′.

Además sea P ′ = CΛ−1/2 y por lo tanto, Ω−1 = P ′P . 8

Si pre multiplicamos Y = Xβ + u por P obtenemos:

PY = PXβ + Pu o

Y∗ = X∗β + u∗ (3.6)

Notemos que (3.6) es un modelo transformado de forma tal que:

V ar(u∗) = E[u∗u′∗]

= σ2PΩP ′

= σ2In (3.7)

Por lo tanto, el modelo transformado cumple con los supuestos del modelo clásicode regresión, y se puede utilizar MCO para estimar el parámetro β:

βMCG = (X ′∗X∗)−1X ′

∗Y

= (X ′P ′PX)−1X ′P ′PY

= (X ′Ω−1X)−1X ′Ω−1Y

Como el estimador MCG de β es idéntico al estimador MCO aplicado al modelotransformado (3.6) y que cumple con los supuestos, βMCG es MELI.

3.9.3. Test de Hipótesis

Nuevamente como el estimador MCG es igual al estimador MCO sólo que se aplicaal modelo transformado, todos los procesos para testear hipótesis y construirintervalos de conanza se mantienen.Por ejemplo si queremos testear q hipótesis lineales H0 : Q′β = c, se tiene el

7Esto se conoce como Descomposición Espectral de una matriz.8Esto viene de la ortogonalidad de C, lo que implica que I = C ′C = CC ′ y entonces

C ′ = C−1.

119

Page 121: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

siguiente estadístico F:(Q′βMCG − c

)′[Q′σ2

MCG(X ′∗X∗)−1Q]

−1(Q′βMCG − c

)

q∼ Fq,n−k

1

(Q′βMCG − c

)′[Q′(X ′

∗X∗)−1Q]−1

(Q′βMCG − c

)

σ2MCG

∼ Fq,n−k

donde σ2MCG es el estimador insesgado de σ2 en presencia de perturbaciones no

esféricas:

σ2MCG =

u′∗u∗n− k

=

(Y −XβMCG

)′Ω−1

(Y −XβMCG

)

n− k

3.9.4. Estimación cuando Ω es desconocida:Mínimos Cuadrados Factibles

Anteriormente asumimos que Ω era conocida, en este caso una simple transfor-mación del modelo de regresión lineal lleva a una matriz de covarianza esférica.En la práctica, Ω es desconocida y es necesario estimar los parámetros al interiorde esta matriz.

Entonces lo que debemos hacer es sustituir Ω por un estimador de ella Ω. Es-to se denomina estimador Mínimos Cuadrados Factibles (MCF), donde elestimador de β se dene de la siguiente forma:

βMCF =(X ′Ω−1X

)−1

X ′Ω−1y

El problema es que tenemos más incógnitas (n(n+1)/2) en Ω que observaciones,para n>1. En la práctica para lograr la estimación de Ω debemos asumir que esfunción de un número jo y reducido de parámetros θ. El problema se reduce aencontrar θ y usarlo para computar Ω = Ω(θ).

120

Page 122: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.9.5. Heterocedasticidad

La Heterocedasticidad surge cuando a pesar de que Cov(uiuj)=0 para i 6= j, lasvarianzas de cada observación son diferentes, es decir, V ar(uj) = σ2

j para j=1,...,n.La matriz de covarianzas en este caso es:

E[uu′] = σ2Ω =

σ21 · · · 0... . . . ...0 · · · σ2

n

= σ2

ω1 · · · 0... . . . ...0 · · · ωn

01

00

00

00

20

00

00

03

00

00

00

40

00

00

0sa

lario

8 10 12 14 16 18

xx

x xx x x

x xx

Figura 2: Distribución de los salarios para distintos niveles de educación.

Recta de regesiónpoblacional (RRP)

Escolaridad

La heterocedasticidad es un problema bastante recurrente, especialmente al tra-bajar con datos de corte transversal. Algunas razones por las que ui puede variarson las siguientes:

En los modelos de aprendizaje sobre errores, a medida que la gente aprende,sus errores de comportamiento son menores, así en este caso a medida queaumentan las horas de práctica de una cierta actividad, la varianza de loserrores se reduce.

A medida que aumentan los ingresos, la gente tiene más posibilidades dedisponer de parte de ese ingreso de la forma que desee. Así en una regresiónde ahorro contra ingreso, es posible que σ2

i aumente en la medida que elingreso aumenta.

La Heterocedasticidad también puede surgir por la presencia de factoresatípicos, que es muy diferente a las restantes observaciones.

121

Page 123: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Al omitir variables relevantes, a parte del sesgo que se produce en las estima-ciones por esto, se produce Heterocedasticidad ya que este variable estaráen el término de error y por lo tanto la varianza dependerá de ella.

Otra fuente de Heterocedasticidad es la asimetría en la distribución de unao más variables explicativas incluidas en el modelo, por ejemplo: ingreso,riqueza y educación.

122

Page 124: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Como mencionamos anteriormente en presencia de Heterocedasticidad el es-timador MCO seguirá siendo insesgado, pero no tendrá varianza mínima. El es-timador que si cumple con la propiedad de MELI es el de MCG. Este últimoestimador requiere conocimiento de la matriz Ω. Sin embargo, White (1980) hapropuesto una aproximación a la matriz de covarianzas del estimador MCO:

V ar(β|X) = (X ′X)−1(X ′σ2ΩX)(X ′X)−1

que no requiere una representación especica de la forma funcional que adopta laheterocedasticidad, por lo que no tendremos riesgo de asumir una forma funcionalincorrecta.

La sugerencia de White es que la varianza del estimador βMCO se exprese dela siguiente forma:

V ar(β|X) = n(X ′X)−1

(1

nσ2X ′ΩX

)(X ′X)−1

se dene:

Σ = n−1σ2X ′ΩX

= n−1

n∑i=1

σ2i xix

′i

la que se estima de la siguiente forma:

Σ = n−1

n∑i=1

ui2xix

′i

White demuestra bajo condiciones generales que:

Σ = n−1

n∑i=1

ui2xix

′i

p→ Σ

De esta forma, una estimación consistente de la matriz de covarianzas es:

V ar(β|X) = n(X ′X)−1Σ(X ′X)−1 (3.8)

su comparación con σ2(X ′X)−1 puede dar noción del grado de heterocedasticidad.

La estimación de White de una matriz consistente con Heterocedasticidad esun resultado muy útil, ya que no se necesita saber la naturaleza de la Hetero-cedasticidad. Ante la duda de presencia de este problema es mejor ocupar esteestimador ya que no produce alteraciones, y nos permite hacer inferencia correctacon o sin la presencia de Heterocedasticidad.

123

Page 125: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Contrastes de Heterocedasticidad:

1. El contraste de White: La hipótesis nula es de Homocedasticidad (aligual que en todos los contrastes que estudiaremos). Esto es, H0: σ2

i = σ2

∀ i, bajo la hipótesis nula el estimador de la matriz de covarianzas de β esV ar(β|X) = σ2(X ′X)−1, pero bajo la hipótesis alternativa es (3.8). Basa-do en la observación de esto, White propone un test que puede obtenerseal calcular nR2 de una regresión de u2

i contra todos los productos posiblesentre las variables explicativas. Demuestra que nR2 ∼ χ2

J−1, donde J es elnúmero de regresores de esta ecuación.

Consideremos el siguiente modelo:

yi = β0 + β1xi + β2zi + ui

Los pasos para realizar el test de White son:

a) Obtener β y los residuos de la estimación del modelo anterior por MCOuin

i=1

b) Correr una regresión de u2i sobre una constante, xi, zi, x2

i , z2i y xizi.

c) Computar nR2 de la regresión anteriord) Para el nivel de signicancia escogido, comparar nR2 con el valor críti-

co de una distribución chi cuadrado con 5 grados de libertad. Si nR2

excede el valor crítico se rechaza la hipótesis nula de Homocedastici-dad.

2. El contraste de Goldfeld y Quandt: este contraste parte del supuesto deque la magnitud de σ2

i depende de cierta variable zi, la que generalmentees una variable explicativa pero no es necesario. Supongamos que dicharelación es positiva, es decir, para valores más altos de zi mayor es σ2

i . Lasobservaciones se dividen en dos grupos, bajo la hipótesis nula ambos grupostienen la misma varianza, pero bajo la alternativa las varianzas dierensignicativamente. Entonces el contraste consiste en:

a) Ordenar las observaciones por los valores de la variable zi, de menor amayor.

b) Omitir p observaciones en la mitad de la muestra, se sugiere no eliminarmás de la tercera parte de las observaciones.

c) Estimar dos veces el modelo original, una con las n−p2

primeras ob-servaciones muestrales y otra con las n−p

2últimas observaciones en la

muestra. Notar que p debe ser lo sucientemente pequeño de maneraque T−p

2sea mayor al número de parámetros.

124

Page 126: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

d) Se calcula es estadístico:

u′2u2

u′1u1

∼ Fm,m con m =n− p

2− k

Si se sospecha que la varianza del error depende inversamente de zi, entonceslas observaciones se deben ordenar de mayor a menor.Si se llega a la conclusión de que el término de error del modelo no presentaheterocedasticidad, podría deberse a que hemos comenzado con una malaespecicación del parámetro σ2

i , que quizás depende de un variable diferentea la que hemos supuesto. Por esta razón el contraste debería realizarse variasveces con distintas variables de las que tengamos sospechas pueda dependerla varianza del término de error.

3. El contraste de Breusch y Pagan: supongamos que la varianza deltérmino de error de cada observación depende de un vector de variables zi

de dimensión p, es decir:

σ2i = h(z′iα) = h(α0 + α1z1i + α2z2i + ... + αpzpi)

Notemos que si todos los coecientes α's excepto el correspondiente a α0

fuesen cero, tendríamos una situación de Homocedasticidad. Por lo tanto,si puedieramos estimar los coecientes α0, α1,...,αp un contraste para lahipótesis nula de Homocedasticidad es:

H0 : α1 = α2 = ... = αp = 0

Los pasos para realizar este contraste son:

a) Se estima por MCO el modelo original y se obtienen los residuos cor-respondientes.

b) Se obtiene la serie de residuos normalizados al cuadrado:

e2i =

u2i

σ2u

i = 1, ..., n donde σ2u =

∑ni=1 u2

i

n

c) Se estima una regresión de e2i sobre una constante y las variables z1i,

z2i,...,zpi y se obtiene la suma explicada (SE) de dicha regresión.9

d) Bajo la hipótesis nula de Homocedasticidad y dado el supuesto denormalidad del término de error, la razón SE

2se distribuye χ2

p.9Recordemos que la suma explicada de una regresión es igual a

∑ni=1(yi − y)2, cuando yi es

la variable dependiente.

125

Page 127: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

4. El contraste de Glesjer: este contraste es más ambicioso que el anterior,ya que trata de estimar la verdadera estructura de Heterocedasticidad, nolimitándose a una estructura lineal. Sin embargo, una limitación del con-traste de Glesjer es que sólo resulta útil cuando se cree que dicha estructurapuede explicarse solo con una variable. Este contraste se hace en tres etapas:

a) Estimar el modelo por MCO y obtener los residuos correspondientes.b) Estimar una regresión del valor absoluto de ui, o su cuadrado u2, sobre

una potencia de la variable zi, es decir:

|ui| = δ0 + δ1zhi + νi

para distintos valores del exponente h: h =−1, 1, 1

2,−1

2

. Escoger el

valor de h que proporcione una mejor regresión (coeciente δ1 signi-cativo y una suma residual pequeña).

c) Una vez seleccionado h, se divide el vector de dimensión (k+1) formadopor las observaciones (yi,xi) de cada periodo por δ0+δ1z

hi si se estimo la

regresión de |ui| y por√

δ0 + δ1zhi si se estimo u2

i , y se estima el modelode nuevo por MCO, pero ahora con las variables transformadas.

Ejemplo: Producción y Empleo por comunidades autónomas de España

Como ejemplo, estimemos la relación que existe entre empleo y Pib en las comu-nidades autónomas españolas. Se dispone datos del PIB en miles de millones depesetas, y de ocupados, en miles de personas para 1989, los que se muestran enla siguiente tabla:

126

Page 128: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Estimador de ladesviación estandar

del error

σ2

u

~

=SEC/(n-k)

= 4307097.27/16

= 269193.56

σ u

~= 518.84

127

Page 129: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

El estimador del parámetro asociado al empleo resulta ser signicativo, por cada1,000 empleador el PIB aumenta en 3,760 millones de pesetas. Sin embargo, laestimación de la constante es bastante imprecisa, y por ello resulta ser no sig-nicativa. Existe la posibilidad de que la varianza del componente del PIB noexplicado por el empleo aumente con este, es decir, tengamos un problema deheterocedasticidad, donde σi depende de empleoi, y de esta forma, σ2

i dependede empleo2

i . Con esta sospecha, es necesario testear Heterocedasticidad.

1. Test Breusch-Pagan: para realizar este test, primero de la estimación MCOdel modelo de interés se obtienen los residuos, luego se computan los residuosnormalizados (dividir cada residuo al cuadrado por el estimador de la varianzadel error). Se estima una regresión entre los residuos generalizados y el empleo alcuadrado.

SE

Una vez realizada la estimación se construye el estadístico SE2

= 7,64, que resultaser mayor al valor de tabla de una χ2

1 al 95% de conanza (3.84), de esta formase rechaza la hipótesis nula de homocedasticidad.

2. Test Goldfeld y Quandt: es de esperar que la varianza dependa positiva-mente del nivel de empleo, de esta forma, ordenamos las observaciones de menor amayor nivel de empleo y omitimos las 6 observaciones que ocupan los lugares cen-trales. Luego estimamos dos modelos cada uno con 6 observaciones, y se computael estadístico λ igual a la división de la suma residual:

128

Page 130: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

λ = 93.2

Este estadístico λ debe ser comparado con el valor de tabla de una distribuciónFm,m al 95% de conanza, que es igual a 6.39. De esta forma, nuevamente serechaza la hipótesis nula de Homocedasticidad.

129

Page 131: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

3.9.6. Autocorrelación

Al comienzo de esta sección examinamos el caso general cuando la matriz de vari-anzas y covarianzas del error dejaba de cumplir los supuestos 4 y 5, en este caso lamatriz ya no era σ2In, sino que era igual a σ2Ω. La forma que tome esta matriz Ωdependerá de cual de los dos supuestos se estaba rompiendo. En la sección 3.8.5,vimos que forma toma la matriz Ω si se rompe el supuesto 4 de Homocedasticidaden el término de error, en este caso la matriz de varianzas y covarianzas del errores no escalar (o no esférica) porque los elementos de la diagonal eran distintospara cada observación i.

Por otra parte, la autocorrelación es un problema que surge cuando rompemos elsupuesto 5 de no autocorrelación en los errores. Ello implica que:

Cov(uiuj) 6= 0 para i 6= j

La autocorrelación en el término de error se da en los datos se serie de tiempo,donde es un problema bastante común.

Luego, nuestra matriz de varianzas y covarianzas del error ya no será una matrizdiagonal (como en el caso de varianzas esféricas y no esférica pero sólo con het-erocedasticidad) ya que el término de error se encuentra correlacionado consigomismo a través del tiempo. La forma que toma la matriz cuando sólo tenemosautocorrelación pero los errores son homocedásticos:

E[uu′] = σ2Ω =

σ2 σ1,2 σ1,3 · · · σ1,T

σ2,1 σ2 σ2,3 · · · σ2,T

σ3,1 σ3,2 σ2 · · · σ3,T... ... ... . . . ...

σT,1 σT,2 σT,3 · · · σ2

donde σt,q = cov(utuq).

Nuestro modelo ahora será:

yt = Xtβ + ut t = 1, 2, ..., T. (3.9)ut = ρut−1 + εt

donde, como vimos en la sección 3.4, el error sigue un proceso AR(1).

130

Page 132: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Matriz de Varianzas y Covarianzas cuando ut es un AR(1):

En este caso el término de error tiene la forma señalada en (3.9):

ut = ρut−1 + εt

1. V (ut) = V (ρut−1 + εt)=ρ2V (ut−1) + σ2ε , de esta forma V (ut) = σ2

ε

1−ρ2

2. Como E(ut) = 0, Cov(utut−1) = E(ut ·ut−1). Calculemos esta última esper-anza:

ut · ut−1 = ut−1 · (ρut−1 + εt)

= ρu2t−1 + ut−1εt /E(·)

E(ut · ut−1) = ρE(u2t−1)︸ ︷︷ ︸

σ2

+ E(ut−1εt)︸ ︷︷ ︸0

E(ut · ut−1) = ρσ2

3. Siguiendo la misma lógica anterior, E(ut, ut−2) se calcula de la siguienteforma:

ut · ut−2 = ut−2 · (ρut−1 + εt)

= ρut−1ut−2 + ut−2εt /E(·)E(ut · ut−2) = ρE(ut−1ut−2)︸ ︷︷ ︸

ρσ2

+ E(ut−2εt)︸ ︷︷ ︸0

E(ut · ut−2) = ρ2σ2

4. Así se puede derivar la siguiente expresión genérica:

E(ut · ut−(T−1)) = ρT−1σ2

131

Page 133: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Entonces:

E[uu′] = σ2Ω =

σ2 σ1,2 σ1,3 · · · σ1,T

σ2,1 σ2 σ2,3 · · · σ2,T

σ3,1 σ3,2 σ2 · · · σ3,T... ... ... . . . ...

σT,1 σT,2 σT,3 · · · σ2

=

σ2 ρ · σ2 ρ2 · σ2 · · · ρT−1 · σ2

ρ · σ2 σ2 ρ · σ2 · · · ρT−2 · σ2

ρ2 · σ2 ρ · σ2 σ2 · · · ρT−3 · σ2

... ... ... . . . ...ρT−1 · σ2 ρT−2 · σ2 ρT−3 · σ2 · · · σ2

= σ2

1 ρ ρ2 · · · ρT−1

ρ 1 ρ · · · ρT−2

ρ2 ρ 1 · · · ρT−3

... ... ... . . . ...ρT−1 ρT−2 ρT−3 · · · 1

Naturaleza y causas de la autocorrelación

Existe autocorrelación cuando el término de error de un modelo econométrico estácorrelacionado consigo mismo a través del tiempo. Por supuesto, no es necesarioque ut este correlacionado consigo mismo sólo un periodo atrás, esta correlaciónpuede ser de cualquier orden, es decir, ut puede ser un AR(1), AR(2),...,AR(q),etc. Así, dependiendo de cual sea el orden de la autocorrelación en el término deerror, la matriz de varianzas y covarianzas ira tomando distintas formas.

La autocorrelación en el término de error puede ser producida por varias causas:

Existencia de ciclos y tendencias : Si la autocorrelación es positiva (es decir,en (3.9) el coeciente ρ es positivo), un valor alto de ut que genera un valorde yt por sobre su media condicional, tendrá una probabilidad elevada de irseguido por un valor alto de ut+1, y por ello, de un valor de yt+1 por encimadel promedio; lo mismo ocurría para yt debajo del promedio.Sin embargo, si existe autocorrelación negativa, valores de yt por sobre suvalor promedio condicional irán seguidos, con alta probabilidad, de valoresde yt+1 por debajo de su promedio. Por lo tanto, la autocorrelación positivaesta asociada a la existencia de rachas de valores altos y bajos de yt.

132

Page 134: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Autocorrelación Positiva Autocorrelación Negativa

Entonces, si debido a la inercia presente en la mayoría de las variablesmacroeconómicas la variable endógena presenta ciclos, y estos no son bienexplicados por la variables exógenas del modelo, el término de error tendráautocorrelación.

Por otra parte, también es cierto que la mayoría de las variables económicas(y especialmente las variables medidas en términos nominales) tienen unatendencia, generalmente creciente. Si el conjunto de variables explicativasdel modelo no explican adecuadamente dicho comportamiento, entonces eltérmino de error incorporará dicha tendencia, lo que conduce a existencia deautocorrelación positiva:una primera racha de residuos negativos seguidospor otra racha de residuos positivos.

X

XXXX

XX

XXX

X

XX X

XX

X

XX

XX

X

Modeloverdadero

Modeloestimado

Autocorrelación producida por una tendencia

Variables omitidas : Omisión tanto de variables relevantes, de no lineali-dades y de relaciones dinámicas (rezagos de la variable dependiente) serán

133

Page 135: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

incorporadas al término de error, causando posible autocorrelación (ademásde las diculatdes que usted ya comoce de las secciones 3.4 y 3.6).

Corolario: Si usted encuentra autocorrelación en sus residuos, entoncesrevise su modelo, ya que el error está captando información relevante queusted está omitiendo.

Todo lo dicho en las secciones 3.8.1 hasta 3.8.4 aplican en este contexto (recuerdeque la matriz Ω se planteó en términos generales). De esta forma, MCO siguesiendo insesgado, pero pierde eciencia, por lo cual ya no es MELI. El estimadorde mínima varianza en este contexto es MCG, y en caso de desconocerse la formade la autocorrelación se debe utilizar MCF.

Sin embargo y siguiendo el espíritu de la corrección de White, Newey y West(1987) propusieron una corrección para la matriz de varianzas y covarianzas deMCO. Recordemos que en este contexto se cumple que:

V ar(βMCO/X) = σ2(X ′X)−1X ′ΩX(X ′X)−1

mientras que el estimador de Newey-West corresponde a:

V ar(βMCO/X) = n(X ′X)−1S(X ′X)−1 (3.10)

donde el estimador consistente de S es:

S =1

n

n∑t=1

n∑s=1

|t−s|<L

w(t− s)utusxtx′s (3.11)

donde L corresponde al orden máximo de autocorrelación del término de error(que no siempre es fácil de determinar).

134

Page 136: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Contrastes de Autocorrelación

1. Test de Durbin-Watson (d): Lejos el test más utilizado para detectarautocorrelación de los residuos es el test propuesto en 1951 por Durbiny G.S Watson. El test está diseñado para detectar autocorrelación en losresiduos de la forma ut = ρut−1+εt (AR(1)), donde ε es ruido blanco (mediacero y varianza constante). La nula corresponde a no autocorrelación de losresiduos (H0 : ρ = 0 H1 : ρ 6= 0)y el test se dene como:

d =

∑nt=2(ut − ut−1)

2

∑nt=1 u2

t

(3.12)

Si ρ > 0, los valores de u probablemente serán muy cercanos, por lo cual elnumerador será muy pequeño en comparación al residuo mismo. Ello im-plica que d será pequeño. Si ρ < 0, entonces el numerador probablementeserá grande, más grande que el residuos n si mismo. Ello implica que d serágrande10.

Se puede demostrar que para muestra grandes d converge a:

d ' 2(1− ρ) (3.13)

con:

ρ =

∑nt=2 utut−1∑n

t=1 u2t

donde ρ puede ser obtenido de la siguiente regresión:

ut = ρut−1 + ut (3.14)

Respecto a los valores críticos del test, la distribución en muestras nitasdepende del supuesto de normalidad de los errores y de la matriz X, porlo cual Durbin y Watson derivaron las tablas de valores de críticos parafacilitar la aplicación del test. Sin embargo, dichos valores poseen rangosindeterminados, en los cuales no podemos tomar una decisión respecto a lanula. El test distribuye con dos colas y se presenta en la siguiente gura:

10Por lo tanto, autocorrelación positiva tenderá a arrojar un pequeño d, mientras que auto-correlación negativa tenderá a arrojar un d grande

135

Page 137: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Por ejemplo, el test rechaza la nula de no autocorrelación en favor de laalternativa de correlación positiva si DW < dl y lo rechaza ante la alterna-tiva de correlación negativa de los errores si DW > 4−dl. El test posee doszonas grises que se presentan en los intervalos (dl,du) y (4-du, 4-dl), en lascuales no podemos decir nada respecto de la nula. Finalmente, si DW caedentro del intervalo (du, 4-du) no se rechaza la nula de no autocorrelación.

Sin embargo, las tablas de valores críticos son raramente utilizadas. Loanterior debido a que si no existe autocorrelación, por la ecuación (3.13)sabemos que el valor de d será cercano a dos, mientras que si hay evidenciade autocorrelación positiva d será muy pequeño y si existe evidencia deautocorrelación negativa,d será grande.

El test posee dos grandes omisiones. Primero, sólo sirve para detectar au-tocorrelación de orden 1 en los errores y segundo, no puede ser aplicado sise incluyen regresores de la variable dependiente en el modelo (porque seconstruye bajo el supuesto de regresores determinísticos). Además, se debetener presente que el test está construido bajo normalidad de los errores yque existen las zonas grises o indeterminadas de las que hablábamos conanterioridad.

2. Test de h-Durbin (h) Una variación del test DW puede ser aplicadacuando existen variables rezagadas de la variable dependiente en nuestro

136

Page 138: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

modelo. Esta variación se conoce como test de h-Durbin. El estadígrafo es:

h =

(1− DW

2

) √n

1− nσ2α

∼a N(0, 1) (3.15)

donde σ2α a la varianza del parámetro asociado al primer rezago de la variable

dependiente incluido en el modelo. Algunas notas respecto al test. Primero,no importa cuantos rezagos de Y se hallan incluido en el modelo: sólo nosinteresa la varianza del primero de ellos. Segundo, el test no es aplicablecuando nσ2

α > 1 y tercero, las propiedades del test sólo son conocidas as-intóticamente, por lo cual debe ser implementado con cuidado en muestraspequeñas.

3. Test de Breusch y Godfrey Este test es una alternativa para testearautocorrelaciones de ordenes superiores a 1 y se basa en el test LM in-troducido en la sección 2.12.3. La nula, al igual que en todos los test deautocorrelación es que los residuos no se encuentran correlacionados. Con-sideremos para distintos valores de k, el siguiente conjunto de estadísticos:

rk =

∑nt=1 utut−k∑n

t=1 u2t

(3.16)

note que si k=1, entonces estamos en una caso parecido al estadístico DW.Los pasos para realizar el test son:

a) Estimar el modelo por MCO y obtener los residuos u. El modelo puedeincluir rezagos de la variable dependiente.

b) Estimar una regresión auxiliar de ut sobre p rezagos: ut−1, . . . , ut−p,incluyendo las variables exógenas (X) del modelo original. Note quedeberá excluir p observaciones.

c) Calcular el R2 de la regresión auxiliard) Construir el estadígrafo nR2 ∼ χ2

p

La lógica del test se basa en que si no existe autocorrelación, entonces losresiduos MCO no deberían ser explicados por sus retardos, por lo cual elR2 de la regresión auxiliar debería ser cercano a cero, lo cual nos llevaría aun bajo valor del estadígrafo y a un no rechazo de la nula.

4. Test de Box-Pierce-Ljung (Q-Stat) Este test se basa en el cuadradode las primeras p autocorrelaciones de los residuos MCO. El estadígrafo sedene como:

Q = n

p∑j=1

r2j (3.17)

137

Page 139: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

donde:rj =

∑nt=j+1 utut−j∑

t=1 u2t

La distribución del estadígrafo bajo la nula de no autocorrelación es χ2 congrados de libertad igual a p menos el número de rezagos del error incluidosen la especicación autorregresiva del error. De ello se deduce que el testpermite detectar autocorrelación de ordenes superiores a 1.

Estimación de Modelos con Autocorrelación

Como vimos anteriormente la matriz Ω en presencia de autocorrelación es:

Ω =

1 ρ ρ2 · · · ρT−1

ρ 1 ρ · · · ρT−2

ρ2 ρ 1 · · · ρT−3

... ... ... . . . ...ρT−1 ρT−2 ρT−3 · · · 1

Se puede demostrar que la matriz P en este caso es:

P =

√1− ρ2 0 0 · · · 0−ρ 1 0 · · · 00 −ρ 1 · · · 0... ... ... . . . ...0 0 · · · −ρ 1

Entonces utilizando esta matriz P podemos transformar el modelo y aplicar Míni-mos Cuadrados Generalizados. Al premultiplicar X e Y por la matriz P tendremosque la primera observación se transforma de la siguiente forma:

√1− ρ2y1 = (

√1− ρ2)x′1β + (

√1− ρ2)u1 (3.18)

Y para el resto de las (T − 1) observaciones la transformación es la siguiente:

yt − ρyt−1 = (xt − ρxt−1)′β + ut − ρut−1︸ ︷︷ ︸

εt

(3.19)

El que la primera observación de la muestra tenga un trato especial, es porquepara ella no existe una observación anterior, y por lo tanto, es imposible aplicarla transformación en (3.19).

138

Page 140: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

1. Estimación MCF: El Método de Cochrane Orcutt

La matriz P que transforma nuestro modelo en un libre de autocorrelaciónen el error, es tal que cada observación de las variables dependientes, ex-plicativas y término de error, se debe transformar de acuerdo a (3.19). Sies que nuestro modelo es el siguiente:

yt = xtβ + ut

ut = ρut−1 + εt

El modelo transformado es de la siguiente forma:

yt − ρyt−1︸ ︷︷ ︸y∗t

= (xt − ρxt−1)︸ ︷︷ ︸x∗t

β + ut − ρut−1︸ ︷︷ ︸εt

⇒ y∗t = x∗t β + εt

El Método de Cochrane-Orcutt es un procedimiento iterativo para obtenerla estimación de β y ρ:

a) Estimar por Mínimos Cuadrados Ordinarios la regresión de interés,ignorando la presencia (conocida) de autocorrelación de primer ordenen el término de error.

b) Utilizar los residuos MCO para estimar el parámetro ρ. Esto puedehacerse mediante una regresión de ut contra ut−1, o a partir del es-tadístico DW de la estimación anterior.

c) Utilizar este parámetro ρ para transformar las variables, y obtener y∗ty x∗t .

d) Estimar por MCO un modelo con las variables transformadas, paraobtener un nuevo vector de coecientes β.

e) Utilizar esta nueva estimación para computar otro vector de residuos,y utilizar estos residuos para obtener una nuevaestimación de ρ

f ) Repetir este procedimiento hasta que los β convergan11.

Este Método puede ser fácilmente generalizado con autocorrelación de ordensuperior.

2. Estimación por Máxima Verosimilitud

11Esto sucede cuando la diferencia entre el vector de parámetros β diere innitesimalmentedel β obtenido en la vuelta anterior.

139

Page 141: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Supongamos que se pretende estimar el modelo de regresión con auto-correlación de primer orden. Además debemos asumir alguna distribuciónpara εt (recuerde que este es un requisito para poder estimar por máximaverosimilitud). Supongamos que εt se distribuye N(0, σ2

ε). Así, la funciónde verosimilitud es:

L =

(1

σε

√2π

)T

· exp

([−∑T

t=1 ε2t

2σ2ε

])(3.20)

Recordemos que P es la matriz que transforma ut en εt, es decir, εt =Put. La función de verosimilitud en (3.20) se puede expresar en función deltérmino de error ut (AR(1)) como12:

L =

(1

σε

√2π

)T

·√

1− ρ2 · exp

([−(1− ρ2)u2

1 −∑T

t=2(ut − ρut−1)2

2σ2ε

])

dado que en este caso el determinante de P (|P |) es√

1− ρ2.

Finalmente, la función de verosimilitud en función del término de errororiginal autocorrelacionado es:

L =

(1

σε

√2π

)T

·√

1− ρ2 · exp

([−u′Ω−1u

2σ2ε

])(3.21)

La ventaja de este método es que puedo estimar simultáneamente β y ρ.

12Ver Greene, Análisis Econométrico página 69. Si la función de densidad conjunta de lavariable εt es:

f(ε) =(

1σε

√2π

)T

· exp

([−∑T

t=2 ε2t

2σ2ε

])

o equivalentemente:

f(ε) =(

1σε

√2π

)T

· exp

([−ε′ε2σ2

ε

])

la función de densidad de conjunta de Put = εt es:

f(u) =(

1σε

√2π

)T

· |P | · exp

([u′P ′Pu

2σ2ε

])

140

Page 142: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

El logaritmo de la Verosimilitud Condicional13 en términos de observables es:

lnL = −(

T − 1

2

)ln(2π)−

(T − 1

2

)ln(σ2

ε)−1

2σ2ε

T∑t=2

[(yt − xtβ)− ρ(yt−1 − xt−1β)]2

Las condiciones de primer orden del problema de Máxima Verosimilitud son:

∂lnL

∂β=

1

σ2ε

T∑t=2

εtx∗t = 0 (k ecuaciones) (3.22)

∂lnL

∂ρ=

1

σ2ε

T∑t=2

(ut − ρut−1)ut−1 = 0 (1 ecuacion) (3.23)

∂lnL

∂σ2ε

= −(T − 1)

2· 1

σ2ε

+

∑Tt=2 ε2

t

σ4ε

= 0 (1 ecuacion) (3.24)

De (3.22) podemos encontrar el estimador MV de β, que como podemos observarcoincide con el estimador MCF.

De (3.23) se determina el estimador MV de ρ:

ρ =

∑Tt=2 utut−1

ut−1

que corresponde exactamente a lo sugerido por el método de Cochrane-Orcutt.

Ejemplo: Estimación de Función Consumo

Suponga estamos interesados en estimar una función Consumo:

Ct = β0 + β1Yt + ut (3.25)

donde Ct es el consumo e Yt es el Ingreso. Para esto contamos con informacióndel consumo agregado del sector público y privado y del PIB de España para losaños 1954-1988. Estas series se muestran en el siguiente gráco:

13La estimación condicional toma la primera observación como dada y es eliminada de laestimación, es decir, se estima con (T-1) observaciones

141

Page 143: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

0

4000

8000

12000

16000

20000

1955 1960 1965 1970 1975 1980 1985

CONSUMO PIB

Ahora estimemos (3.25) utilizando la información disponible:

142

Page 144: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Dependent Variable: CONSUMO

Method: Least Squares

Date: 11/09/04 Time: 15:51

Sample: 1954 1988

Included observations: 35

CONSUMO=C(1)+C(2)*PIB Coefficient Std. Error t-Statistic Prob.

C(1) 76.53412 81.89808 0.934504 0.3568

C(2) 0.768971 0.006842 112.3909 0.0000

R-squared 0.997394 Mean dependent var 8615.809

Adjusted R-squared 0.997315 S.D. dependent var 3490.620

S.E. of regression 180.8607 Akaike info criterion 13.28878

Sum squared resid 1079450. Schwarz criterion 13.37765

Log likelihood -230.5536 Durbin-Watson stat 0.338818

Si comparamos el valor del DW (0.34) con el valor de tabla (k'=1 y n=35 al 95%de conanza, di=1.4 y ds=1.52), tenemos que se rechaza la hipótesis nula de noautocorrelación a favor de autocorrelación positiva. Además podemos apreciargrácamente la forma autorregresiva de los residuos:

-400

-200

0

200

400

0

4000

8000

12000

16000

1955 1960 1965 1970 1975 1980 1985

Residual Actual Fitted

Veamos que sucede con nuestros parámetros estimados si aplicamos la correcciónde Newey-West a nuestra estimación MCO:

143

Page 145: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Dependent Variable: CONSUMO

Method: Least Squares

Date: 11/09/04 Time: 15:59

Sample: 1954 1988

Included observations: 35

Newey-West HAC Standard Errors & Covariance (lag truncation=3)

CONSUMO=C(1)+C(2)*PIB

Coefficient Std. Error t-Statistic Prob.

C(1) 76.53412 105.8340 0.723152 0.4747

C(2) 0.768971 0.008968 85.75039 0.0000

R-squared 0.997394 Mean dependent var 8615.809

Adjusted R-squared 0.997315 S.D. dependent var 3490.620

S.E. of regression 180.8607 Akaike info criterio 13.28878

Sum squared resid 1079450. Schwarz criterion 13.37765

Log likelihood -230.5536 Durbin-Watson sat 0.338818

144

Page 146: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Para realizar la estimación MCF de la propensión marginal a consumir (quees equivalente a la estimación Máximo Verosímil) debemos primero estimar lafunción autorregresiva del error. Para esto determinemos primero el vector deresiduos de la estimación MCO de nuestro modelo de interés:

Y luego estimamos el siguiente modelo:

145

Page 147: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

ρ^

Una vez estimado ρ podemos transformar el modelo original de acuerdo a laecuación (3.19), de forma que el error transformado (εt) cumple con los requisitospara que MCO sea MELI:

146

Page 148: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

La estimación del modelo transformado arroja los siguientes resultados:

147

Page 149: Benavente Otero Vasquez Apunte Econometria I

Capitulo 3: Forma Funcional y EspecicaciónEconometría I

FACEA, Universidad de Chile

Primero, podemos notar que el DW es 1.81, mayor al límite superior de tabla(1.52) y menor a (4 − ds) = 2,48, por lo tanto no se puede rechazar la nulade no autocorrelación. El parámetro de la propensión marginal a consumir esexactamente el mismo que el obtenido de la estimación MCO del modelo original.

148

Page 150: Benavente Otero Vasquez Apunte Econometria I

Capítulo 4

Problemas con los datos

4.1. Multicolinealidad

Es prácticamente imposible encontrar dos variables económicas cuyo coecientede correlación es una determinada muestra sea numéricamente cero, dicho coe-ciente puede tomar valores pequeños pero nunca llegar a ser cero. Granger yNewbold (1974) entre otros autores han ilustrado como el sólo hecho de intro-ducir una tendencia lineal en dos series de tiempo independientes aumenta sucorrelación notablemente.

LaMulticolinealidad aparece cuando las variables explicativas en modelo econométri-co están correlacionadas entre si, esto tiene efectos negativas cuando se quire es-timar los parámetros del modelo por MCO.

Existen diversas fuentes de la multicolinealidad:

El método de recolección de información empleado, obtención de muestrasen un intervalo limitado de valores de los regresores en la población.

Restricción en el modelo o en la población objeto de muestreo.

Especicación del modelo.

Consideremos el siguiente modelo:

yi = β1 + β2x2i + ... + βkxki + ui

149

Page 151: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

Si existe la inversa de X'X, el estimador MCO de este modelo, viene dado porβMCO = (X ′X)−1X ′y y su matriz de covarianzas es Var(β)=σ2

u(X′X)−1.

Supongamos que la xji tiene un alto grado de correlación con las demás vari-ables explicativas de modelo, es decir que la regresión lineal:

xji = δ1 + δ2x2i + ... + δj−1xj−1,i + δj+1xj+1,i + ... + δk−1xki + νi (4.1)

tiene un coeciente de determinación alto.

En estas condiciones la variable xji puede escribirse aproximadamente como unacombinación lineal del resto de las variables explicativas del modelo, lo que sepuede apreciar en la ecuación (4.1). Como consecuencia una de las columnasde la matriz X, la correspondiente a xji, puede escribirse como una combinaciónlienal aproximada de las demás columnas de X, y de esta forma (X'X) será aprox-imadamente singular.

En la medida que el determinante de (X'X) sea distinto de cero, existirá (X'X)−1,y por lo tanto también existirá es el estimador MCO, y sigue cumpliendo con lapropiedad de MELI, pero se tienen las siguientes consecuencias:

1. La solución del sistema de ecuaciones normales está mal denido: mientrasla dependencia de xji sea aleatoria como lo muestra la ecuación (4.1) y noexacta, X'X no será exactamente singular y existirá un único estimadorMCO, ya que existe una única solución al sistema de ecuaciones normales,pero también habrá un número de vectores β1, β2, ..., que al sustituirlos enel sistema de ecuaciones normales, serían aproximadamente una solución almismo.

2. Pequeñas variaciones muestrales por incorporar o sustraer un número re-ducido de observaciones muestrales, introducirá ligeros cambios en (X'X) yX'y, pero podrían generar importantes cambios en la solución β del sistemade ecuaciones normales.

3. Al ser la matriz X'X casi singular, es muy pequeña. Como consecuencia lamatriz de covarianzas será muy grande, por lo tanto el estimador MCO espoco preciso en este caso.

150

Page 152: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

4.1.1. Multicolinealidad Exacta y Multicolinealidad Aprox-imada

La presencia de multicolinealidad en un modelo de regresión lineal puede ser dedos formas:

Multicolinealidad Exacta: una de las variables explicativas es una com-binación lineal determinística de todas las demás (o algunas de ellas).

Multicolinealidad Aproximada: ocurre cuando una de las variables esaproximadamente igual a una combinación lineal de las restantes, como enla ecuación (3.1).

En la práctica, contrario a lo que se pudiera esperara es más complicado la mul-ticolinealidad aproximada que la exacta.

4.1.2. Detección de Multicolinealidad

Puesto que la multicolinealidad es un problema de naturaleza muestral, que surgeprincipalmente por el carácter no experimental de la mayoría de la informaciónrecopilada en las Ciencias Sociales, no tiene una manera única de ser detectada.Lo que se tiene son algunas reglas prácticas detalladas a continuación:

1. El R2 es alto, pero los parámetros no resultan ser individualmente signica-tivos.

Por ejemplo: Considere los siguientes datos:

Tabla 6: MulticolinealidadPeriodo yi x2i x3i x4i

1 20 5 10 102 12 2 8 63 28 7 12 164 26 6 4 125 14 4 16 86 24 8 14 147 16 3 6 4

Las variables x3 y x4 tienen las mismas observaciones numéricas solo que endistinto orden, de forma tal que la correlación entre x2 y estas dos variables

151

Page 153: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

son: ρ23 = 0,32 y ρ24 = 0,93, altamente diferentes entre sí.Una regresión de yi sobre x2i, x3i y una constante generó las siguientesestimaciones MCO:

yt = 10,81(2,6)

+ 2,92x2i(0,42)

− 0,54x3i(0,21)

+ ui (4.2)

R2 = 0,92 σ2u = 2,09

Una regresión de y contra una constante, x2 y x4, produjo las siguientesestimaciones:

yi = 6,67(3,27)

+ 1,33x2i(1,61)

+ 0,67x4i(0,81)

+ ui (4.3)

R2 = 0,83 σ2u = 3,16

Ambas regresiones no incluyen las mismas variables explicativas y por lotanto, no son comparables. Sin embargo, en el segundo modelo donde el gra-do de correlación entre las variables explicativas es alto, podemos apreciarque a pesar de que el R2es alto, los parámetros resultan ser insignicativosindividualmente (t4=2.78).

152

Page 154: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

2. Pequeños cambios en los datos, produce importantes variaciones en las es-timaciones mínimo cuadráticas.

3. Los coecientes pueden tener signos opuestos a los esperados o una magni-tud poco creíble.

4.1.3. Otros métodos de detección de multicolinealidad(a) Métodos basados en la correlación entre variables explicativas: una

de las consecuencias de la multicolinealidad era varianzas de los estimadoresbastante altas. Entonces, ¾Cúal es la relación entre la varianza estimada yel grado de correlación entre las variables explicativas?.Si descomponemos la matriz X de la siguiente forma:

X = [xj; Xj]

donde xj es un vector columna correspondiente a la j-ésima variable ex-plicativa y Xj una matriz de n×(k-1) con las observaciones de las restantesvariables. Entonces, X'X puede escribirse como:

X ′X =

[x′jxj x′jXj

X ′jxj X ′

jXj

]

De esta forma, el elemento (1,1) de (X ′X)−1 es (Demostrar): 1

[(x′jxj)− x′jXj(X′jXj)

−1(X ′jxj)]

−1 = (x′jMjxj)−1

donde Mj = In−Xj(X′jXj)

−1X ′j y donde x′jMjxj corresponde a la suma de

los residuos al cuadrado de una regresión de xj sobre Xj, de esta forma setiene que:

V ar(βj) =σ2

u

x′jMjxj

(4.4)

Lo que tiene la siguiente expresión:

V ar(βj) =σ2

u

STj(1−R2j )

(4.5)

1Recordar que la inversa de una matriz particionada es:[

A11 A12

A21 A22

]−1

=[

A−111 (I + A12F2A21A

−111 ) −A−1

11 A12F2

−F2A21A−111 F2

]

donde F2=(A22-A21A−111 A12).

153

Page 155: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

donde STj es la suma total de la regresión entre xj y Xj (STj=∑n

i=1(xji −xj)

2) y R2j es el coeciente de determinación de esta misma regresión.

La varianza de βj depende de tres cosas:

La varianza del término de error, que es independiente del grado decorrelación entre las x's.La suma total propia de la variable xj, la que depende solo de estavariable.El coeciente de determinación R2

j , el que si depende del grado del gra-do de correlación entre la variable xj y las restantes, es decir, dependedel grado de multicolinealidad.

La cota inferior para la varianza de βj, cuando R2j=0, es:

V ar(β0j ) =

σ2u

STj

Por lo que la relación entre las varianzas de la estimación de βj en un casode correlación entre variables explicativas y el caso de independencia lineales:

V ar(βj)

V ar(β0j )

=1

1−R2j

154

Page 156: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

De acuerdo con este análisis, los coecientes de determinación obtenidosen las regresiones de cada variable explicativa con el resto son un buenindicador de una posible situación de multicolinealidad.

(b) Métodos basados en el tamaño de la matriz X'X: cuando tenemos mul-ticolinealidad la matriz X'X es casi singular, de esta manera una medida detamaño de esta matriz nos permite detectar la presencia de multicolineali-dad. El determinante no es una medida buena, ya que tiene problemas desensibilidad a los cambios de unidades. Pero sabemos que el determinantede una matriz simétrica es igual al producto de sus valores propios, y por lotanto el examen de estos valores nos da una idea del tamaño de la matriz.De esta forma, Belsley propone la siguiente medida para ver el grado demulticolinealidad:

γ =

√λmax

λmin

Esta medida se denomina número de condición de la matriz X, y númerosde este indicador mayores 25 suelen considerarse problemáticos.Los λ's corresponden a los valores propios de la matriz B = S(X ′X)S,donde S es la siguiente matriz diagonal:

S =

1√x′2x2

0 · · · 0

0 1√x′3x3

0...

... 0. . . 0

0 · · · 0 1√x′kxk

Esta matriz nos permite librarnos del problema de unidad en el tamaño delos valores propios, ya que normaliza cada una de las variables al dividirtodas las observaciones por su desviación estándar.El número de condición de la matriz X (γ), implica que mientras mayor eseste valor, el valor de λmin es realmente pequeño al compararlo con λmax,indicando el potencial problema de multicolinealidad.

4.1.4. Remedios contra la Multicolinealidad

Se han propuesto varios métodos para hacer frente a la multicolinealidad. Lasolución más sencilla es eliminar de la regresión las variables que se sospeche sonla causa del problema. Obviamente de este método surgen problemas de especi-cación, como la omisión de variables relevantes. Es necesario recordar que el

155

Page 157: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

estimador MCO sigue siendo el mejor estimador lineal insesgado de los parámet-ros. El problema es que, cuando hay multicolinealidad, el mejor no resulta sermuy bueno.

Las soluciones propuestas en la literatura (estimador de ridge o estimador crestay estimador de componentes principales) tienen como característica buscar unestimador ligeramente sesgado pero cuya varianza sea mucho menor, es decir, unestimador con menor error cuadrático medio. No existe una metodología que per-mita eliminar el problema de alta multicolinealidad sin alterar las propiedades yla interpretación de los parámetros.Estas metodologías tienen poco respaldo intuitivo, por lo tanto la interpretaciónde los parámetros es desconocida.

156

Page 158: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

4.2. Error de Medición

Una dicultad en todo trabajo empírico en Economía es la imposibilidad dedisponer de las observaciones muestrales de las variables de interés. Por ejemplo,las variables de contabilidad nacional como el PIB, stock de capital o consumo,son sólo estimaciones de conceptos teóricos que no se observan en la realidad. Enotros casos, como la Renta Permanente, inteligencia o habilidad de un trabajador,no disponemos ni siquiera estimaciones, y debemos utilizar variables Proxies, queaproximan los conceptos que se quieren utilizar. Así por ejemplo se utilizan añosde experiencia del trabajador para aproximar su habilidad.

Podemos adelantar que el error de medición o el uso de variables proxies generarásesgos en las estimaciones por MCO, el que será menor:

cuanto más se aproxime la verdadera variable que debería incluirse en elmodelo con que que incluyo efectivamente.

cuanto más independiente sea el error de medida de las restantes variablesdel modelo.

Consideremos el siguiente modelo lineal simple:

yi = βxi + ui i = 1, ..., n (4.6)

en el que la variable dependiente yi está medida con error, es decir, solo observa-mos:

y∗i = yi + νi i = 1, ..., n (4.7)

donde asumimos que νi ∼ N(0, σ2ν) y es independiente de xi y ui.

Reemplazando (4.7) en (4.6):

y∗i = βxi + (ui + νi) = βxi + εi (4.8)

Bajo los supuestos mencionados es fácil darse cuenta que el estimador de β seráel mismo que si observáramos el verdadero valor de yi.En consecuencia, los errores de medida en la variable endógena no producenningún problema importante al estimar por MCO.

Ahora supongamos que la variable xi esta medida con error, es decir:

x∗i = xi + ωi i = 1, ..., n (4.9)

157

Page 159: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

donde ωi ∼ N(0, σ2ω) y es independiente de ui, xi y de yi.

El modelo en términos de las variables observables es:

yi = βx∗i + (ui − βωi) = βx∗i + εi (4.10)

contrario a lo que ocurría en (4.8) en este caso tenemos dicultad al estimar porMCO, ya que el término de error εi esta relacionado con x∗i , lo que va en contradel supuesto 6, veamos:

Cov(εi, x∗i ) = Cov(ui − βωi, xi + ωi)

= Cov(ui, xi)− βCov(ωi, xi) + Cov(ui, ωi)− βCov(ωi, ωi)

= 0− β · 0 + 0− βσ2ω

Esto hace que el estimador MCO de β en el modelo (4.10) sea sesgado:

β =

∑Ni=1 x∗i yi∑Ni=1 x∗2i

/· 1/N

1/N

β =1N

∑Ni=1 x∗i yi

1N

∑Ni=1 x∗2i

/plim

plimβ =plim 1

N

∑Ni=1 x∗i yi

plim 1N

∑Ni=1 x∗2i

plimβ =plim 1

N

∑Ni=1(xi + ωi)(βxi + ui)

plim 1N

∑Ni=1(xi + ωi)2

plimβ =plim 1

N

∑Ni=1(xi + ωi)(βxi + ui + βωi − βωi)

plim 1N

∑Ni=1(xi + ωi)2

plimβ = β +plim 1

N

∑Ni=1(xi + ωi)(ui − βωi)

plim 1N

∑Ni=1(xi + ωi)2

plimβ = β +−βσ2

ω

S2x + σ2

ω

plimβ =β

1 + σ2ω

S2x

donde S2x = plim 1

n

∑ni=1 x2

i , que supondremos existe.

El resultado en términos generales es que el estimador MCO en presencia deerror de medición estará sesgado hacia en origen.

158

Page 160: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

En el caso del modelo de regresión múltiple:

y = Xβ + u

X∗ = X + ω

donde todas las variables pueden estar medidas con error. Extendiendo lo desar-rollado anteriormente:

plim βMCO = β − [Σxx + Σωω]−1Σωωβ (4.11)

donde Σxx = plim X′Xn

y Σωω = plim ω′ωn.

Lo que implica que un sólo error basta para generar inconsistencias en todoslos coecientes del modelo.

4.2.1. Estimación por Variables Instrumentales

La estimación consistente de los parámetros en presencia de errores de medida esposible si se disponen de instrumentos.

Denición: Un instrumento es una variable no incluida en el modelo, que cumplecon:

No estar correlacionada con el término de error.

Esta correlacionada con la variable explicativa para la cual actúa comoinstrumento (en este caso la variable medida con error).

Volviendo al modelo en (4.10), el sesgo del estimador MCO de β surge por lacorrelación entre la variable x∗i y εi. Supongamos ahora que se dispone de lavariable zi, tal que:

E(ziεi) = 0 E(zix∗i ) 6= 0

Entonces el estimador de variables instrumentales de (4.10) es:

βV I =

∑ni=1 ziyi∑ni=1 zix∗i

En un modelo de regresión múltiple, tenemos que encontrar una matriz Z quecontenga los instrumentos de las variables medidas con error. El estimador deVariables Instrumentales se obtiene de una regresión MCO en dos etapas:

159

Page 161: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

i. En la primera etapa, se hace una regresión entre X∗ y la matriz de instrumentosZ, para obtener el valor estimado de X∗:

X∗ = Zϕ + ε

ϕ = (Z ′Z)−1Z ′X∗

X∗ = Z(Z ′Z)−1Z ′X∗

ii. En la segunda etapa se reemplaza el valor estimado de X∗ en el modelo deregresión original:

y = X∗β + ε

y = X∗β + ε

y obtengo el estimador de β mediante MCO:

βV I = (X∗′X∗)−1X∗′y

= [X∗′Z(Z ′Z)−1Z ′X∗]−1X∗′Z(Z ′Z)−1Z ′y (4.12)

Si todas las variables explicativas están medidas con error cada una de ellas senecesita un instrumento, entonces Z tiene dimensión n×k al igual que X∗, en estecaso se puede demostrar (Hacerlo) que:

βV I = (Z ′X∗)−1Z ′y

con matriz de varianzas y covarianzas (también demostrar):

V ar(βV I) = σ2ε(Z

′X∗)−1(Z ′Z)(X∗′Z)−1

4.2.2. Test de Hausman

Bajo errores de medida, el estimador MCO es inconsistente, mientras que el esti-mador de variables instrumentales es consistente. Si en ralidad no hubiese erroresde medida, ambos estimadores serán consistentes, y MCO es además eciente,lo que no ocurre con cualquier estimador de variables instrumentales (es un esti-mador en dos etapas, lo que hace perder eciencia).

Por lo tanto, para contrastar la existencia de errores de medida Hausman plantearealizar un test estadístico comparando (βMCO− βV I) con su matriz de varianzasy covarianzas.

160

Page 162: Benavente Otero Vasquez Apunte Econometria I

Capitulo 4: Problemas con los datosEconometría I

FACEA, Universidad de Chile

La hipótesis nula es que no existe error de medida, es decir:

H0 : βMCO − βV I = 0 (4.13)

Hausman demuestra que la matriz de varianzas y covarianzas de (βMCO − βV I)es igual a V (βV I) − V (βMCO). De esta forma, se puede construir el siguienteestadístico de Wald para la hipótesis nula en (4.13):

W = (βMCO − βV I)′(V (βV I)− V (βMCO))−1(βMCO − βV I) ∼ χ2

k

161