curso econometria

397
NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA Universidad Nacional de Colombia Facultad de Economía Este documento es un borrador sujeto a correcciones y su única finalidad es servir como complemento a una actividad docente Carlos Mendoza Astroz

Upload: stefany-salamanca

Post on 04-Jan-2016

134 views

Category:

Documents


13 download

TRANSCRIPT

Page 1: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA

U n i v e r s i d a d N a c i o n a l d e C o l o m b i a F a c u l t a d d e E c o n o m í a

E s t e d o c u m e n t o e s u n b o r r a d o r s u j e t o a c o r r e c c i o n e s y s u ú n i c a

f i n a l i d a d e s s e r v i r c o m o c o m p l e m e n t o a u n a a c t i v i d a d

d o c e n t e

Carlos Mendoza Astroz

Page 2: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 1

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Tabla de contenido Parte I CONCEPTOS BÁSICOS ................................................................................................................................. 3 1. TEORÍA ASINTÓTICA ..................................................................................................................................... 4 3. VALORES Y VECTORES PROPIOS ................................................................................................................ 14 4. DISTRIBUCION NORMAL MULTIVARIANTE .............................................................................................. 20 PARTE II MODELOS MULTIVARIANTES .............................................................................................................. 30 1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP) ................................................................................... 31

1.1. INTRODUCCIÓN .................................................................................................................................... 31 1.2 INTERPRETACIÓN GEOMETRICA ............................................................................................................. 32 1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP ....................................................................... 35 1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES ............................................................................. 38 1.5. PROCESO DE EXTRACCIÓN ................................................................................................................. 41 1.6. TEOREMAS ............................................................................................................................................ 45 1.7. COMPONENTES PRINCIPALES NORMADO O POR CORRELACIONES .............................................. 52 1.8. COMPONENTES PRINCIPALES PARA MATRICES DE COVARIANZAS CON ESTRUCTURAS ESPECIALES ...................................................................................................................................................... 61 1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA ......................................................... 65 1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES .................................................................... 73 1.11. PRUEBAS ESTADÍSTICAS ................................................................................................................. 75 1.12. CONCLUSIONES ................................................................................................................................ 78

MODELOS DE DATOS PANEL LINEALES ............................................................................................................. 79 I. INTRODUCCIÓN ........................................................................................................................................ 80 II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL ................................................... 88 OVERVIEW DE METODOS DE PANELES DE DATOS ...................................................................................... 91 CARACTERISTICAS DE DATOS PANEL ......................................................................................................... 113 VARIACION BETWEEN-WITHIN ................................................................................................................... 100 VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS ................................................................................ 103 III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS PANEL ............................................ 118 3. MODELOS DE EFECTOS FIJOS Y ALEATORIOS..................................................................................... 168 ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? .................................................... 213 IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE VARIANZA.......................................... 186 V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL ........................................................................... 206 PRUEBA DE HAUSMAN .................................................................................................................................. 216 CONTRASTES DE AGRUPACIÓN DE DATOS ................................................................................................. 219 VIII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS PANELES ..................................................... 249

PARTE VI. ANALISIS DE SERIES DE TIEMPO ..................................................................................................... 255 PROCESOS ESTACIONALES ................................................................................................................................ 341 VECTORES AUTOREGRESIVOS (VAR) .............................................................................................................. 370

Page 3: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 2

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Page 4: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 3

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Parte I CONCEPTOS BÁSICOS

Page 5: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 4

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1. TEORÍA ASINTÓTICA El análisis asintótico esta interesado en varias clases de convergencia de sucesiones de estimadores a medida que los tamaños de muestra crecen. Se comienza con algunas de las definiciones respecto a sucesiones no estocásticas de números. Cuando se aplican estos resultados en econometría, N es el tamaño de muestra, y esto se efectúa para todos los números enteros positivos. Definición 1. Una sucesión de números no aleatorios {an|n=1,2,3,….,N} converge a un valor a (tiene limite en a) si para todo ε>0, existe un Nε tal que si N>Nε entonces, |an-a|<ε. Se nota como an→a como N→∞. Definición 2. Una sucesión {an|n=1,2,3,….,n} es acotada, si y solo, si existe algún b<∞ tal que |an|≤b para todo n=1,2,3,….,N. de otro modo, se dice que {an} es no acotada. Estas definiciones aplican a vectores y matrices elemento a elemento. Ejercicio. Suponga las siguientes series:

1. an=2+1/n entonces an converge a 2, an→2. 2. an=(-1)n entonces no es convergente pero es acotada. 3. an=n1/4 entonces an no es convergente ni es acotada.

Serie 1 Serie 2 Serie 3

Page 6: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 5

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Convergencia en Probabilidad Definición 3. La variable aleatoria xn converge en probabilidad a una constante c si limn Prob( xn c > )=0 para cualquier >0. La definición anterior indica que se hace cada vez más improbable que xn tome valores distintos a c, a medida que n, el tamaño de la muestra, aumenta. La convergencia en probabilidad se denomina convergencia débil. Ejemplo. Supongamos que tenemos una variable aleatoria xn cuya distribución de probabilidad es la siguiente:

nxsin

xsinxf

n

n

n 1

01

1)(

En este caso, limn Prob( xn 0 > )=0 Es decir, xn converge en probabilidad a cero. A medida que n aumenta, xn, toma el valor de n con una probabilidad cada vez menor (1/n converge a cero a medida que n→∞). Esto es, toda la masa de la distribución se concentra en aquellos puntos en la vecindad de cero. En general, si, xn, converge en probabilidad a c, es posible escribir plim xn=c o cx

P

n

Definición 4. Convergencia “casi segura” (almost surely o “a.s”) o con probabilidad 1 se denomina convergencia fuerte. Esta se define como:

Page 7: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 6

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Prob{ limn xn( )=x( )} = 1 Esto es, la sucesión {xn} converge a x con probabilidad 1. Esto se simboliza como: 1

..sa

nx

Ejemplo 2. La convergencia fuerte, se observa en los siguientes casos:

a. Si {xn} es una sucesión de variables aleatorias independientes e idénticamente distribuidas con E(xn)=μ<, entonces:

.._ sa

nx

Por la ley fuerte de los grandes números. b. Prob{lim n xn=0} = 1 0 0

..sa

nx

Es común encontrar notaciones O(1/n) y o(1/n). Se dice que cn es O(1/n) ocurre que si plim(ncn) es una constante finita distinta de cero. En tanto, se dice que c es o(1/n) si ocurre que plim(ncn)=0. Por ejemplo,

2

31

nncn es O(1/n) dado que plim(ncn)=1

2

1

ncn es o(1/n) dado que plim(ncn)=0

Si xn es una sucesión de variables aleatorias con media μn y varianza 2

n , tal que:

limn n = y limn 2

n =0

Entonces se dice que xn converge en media cuadrática (quadratic mean o“q.m”). Esto se representa como:

..mq

nx

Page 8: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 7

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Además, se tiene que plim xn=μ. Este último resultado se basa en la desigualdad de Chebychev, la cual establece que si xn es una variable aleatoria con c y como constantes, entonces: Prob( xn c > ) E(xn c)2/ 2 Si hacemos c=mn, tenemos que Prob( xn n ) E(xn n)2/ 2= 22 / n

. Si tomamos límites en

ambos lados de la desigualdad cuando n tenemos: limn Prob( xn n ) limn 22 / n

Lo cual implica que plim xn= , dado que limn n= y lim n 2

n

=0. La Convergencia en media cuadrática implica convergencia en probabilidad, pero no viceversa. Estimador Consistente Se dice que un estimador

de un parámetro θ es consistente si y

sólo plim

La media muestral x de cualquier población con media finita y varianza finita σ2 es un estimador consistente de . La media muestral esta dada por

n

i

ixx1

__

donde x1,...,xn es una muestra de

una población cuya distribución tiene media y varianza finitas y σ2, respectivamente. Entonces:

)(11

1

___

nn

xEn

En

i

ix

n

nn

xVarn

Varn

i

ix2

2

21

2

___

)(11

Asumiendo que las variables aleatorias x son independientes e idénticamente distribuidas. De lo anterior, limn E(x)= y

Page 9: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 8

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

limn Var(x)=0. Por lo tanto, x converge en media cuadrática a . Ello implica que plim x

__

=

Teorema 1. Con muestreo aleatorio, para cualquier función g(x), si E(g(x)) y Var(g(x)) son constantes finitas, se tiene que:

n

i

ii xgExgn

p1

)()(1

lim

Teorema de Slutsky. Para una función continua g(xn) que no es una función de n se tiene: plim g(xn)=g(plim xn). Reglas de la Probabilidad Límite Escalares. Si xn e yn son variables aleatorias con plim xn=c y plim yn=d, entonces:

1. plim(xn+yn)=c + d (regla de la suma) 2. plim(xn yn)=c d (regla del producto) 3.

d

c

y

xp

n

n

lim (regla de la división (con d≠0).

Ejemplo. Supongamos que la media y varianza muestral del conjunto de variables aleatorias i.i.d de x1,..,xn tienen una esperanza y varianza poblacional μ y σ2 respectivamente, que son estimadores consistentes. Esto es, plim x

__

=plim

n

i

ixn 1

1 y plim s2 =

n

i

i xxn 1

22__

)(1

1

Entonces,

Matrices. Sea Wn una matriz cuyos elementos son variables aleatorias, tal que plimWn=𝛀, con 𝛀 matriz invertible. Entonces: plim Wn

-1= 𝛀 -1

Page 10: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 9

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si Xn e Yn son matrices de variables aleatorias, tal que plim Xn=A y plim Yn=B, entonces, plim(XnYn)=AB (regla de la matriz producto) Convergencia en Distribución xn converge en distribución a una variable aleatoria x con función distribución acumulada (f.d.a) F(x) si: limn ( F(xn) F(x) )=0 En todos aquellos puntos de continuidad de F(x). Esto se simboliza como: xx

d

n

Reglas para la Distribución Límite. Si xxd

n y plim yn=c, entonces:

1. Si xcyxd

nn

2. Si cxyxd

nn 3. Si xx

d

n y g(xn) es una función continua, entonces )()( xgxgd

n

4. Si plim(xn-yn)=0, entonces xn e yn tienen la misma distribución límite.

Ejemplo. Supongamos una muestra de n observaciones i.i.d. extraídas de la distribución x~N(0, σ2). Sabemos que la distribución se comporta bajo una distribución de la forma:

Donde,

Bajo ciertas condiciones de regularidad, se tiene que plim s2=σ2

y ),0( 2__

Nxnd

. Entonces,

Page 11: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 10

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

)1,0(1 __

Nxns

d

La convergencia en probabilidad implica convergencia en distribución, pero no viceversa. Es decir, el concepto de convergencia en probabilidad es más fuerte. En primer término, si plim( n

), entonces d

n

. Ello, porque:

....0

1)(limpoe

sif nnn

Gráficamente,

Por otra parte, convergencia en distribución no implica convergencia en probabilidad a una constante. Para probar tal aseveración, basta con dar un contraejemplo. Supongamos que:

Se tiene que xx

d

n , donde

Es decir, xn converge a una variable aleatoria pero no a una constante.

Page 12: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 11

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Distribución Asintótica de una Función de una Variable Aleatoria

Supongamos que ),0()( 2 Nznd

n entonces si g(zn) es una función

continua que no depende de n, se tiene que:

)))((,0())()(( 22 gNgzgnd

n

Para analizar el caso multivariado, consideremos un vector zn de variables aleatorias, μ un vector de medias, ambos de tamaño kx1 y Σ la matriz de covarianzas de tamaño kxk, tal que,

),0()( Nznd

n . g(zn) es un vector de J funciones continuas de zn

que no dependen de n, entonces:

),0())()(( Td

n CCNgzgn

Donde C es una matriz jx k cuya j-ésima fila es el vector de derivadas parciales de la j-ésima función con respecto a zn, evaluado en μ:

Consistencia y Normalidad Asintótica de Mínimos Cuadrados Ordinarios (MCO) Consideremos el modelo clásico de regeresión lineal expresado en términos matriciales: y=Xβ +ε donde E(ε|X)=0, E(εεT)=σ2I, con σ2 constante finita. Asumamos que = limn (1/n)XTX=Q, matriz positiva definida e invertible, donde, por simplicidad, se asume que X es una matriz de variables no estocásticas. El estimador MCO viene dado por:

Page 13: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 12

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

)1

()1

()( 11 TTTT Xn

XXn

YXXX

)()()( 11

XXXXYXXX TTTT )

1()

1()( 11 TTTT X

nXX

nYXXX

Entonces, plim

= β +limn 1)(1 XXn

T limn )(1

TXn

Por las propiedades de probabilidad límite descritas en secciones anteriores se tiene que:

__

11

)(1

wwxXn

n

i

i

n

i

ii

T

Donde xi es el vector 1xk correspondiente a la i-esima fila de la matriz X y wi≡xiεi. Se tiene que:

De ello, se puede observar que:

Esto implica que

__

w converge en media cuadrática a cero y, por lo tanto, plim w =0. Es decir, plim (1/n)XTε=0. En consecuencia, el estimador MICO es consistente.

=Q-10=β Distribución Asintótica del Test de Restricciones Lineales Supongamos que queremos contrastar un conjunto de J restricciones lineales. Se realiza la prueba sobre la hipótesis nula, H0, contra la hipótesis alternativa H1. H0: Rβ=q H1: Rβ ≠q,

Page 14: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 13

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde R es una matriz J x k, β es un vector k x 1 y q es un vector J x 1. Por ejemplo, se dea comprobar si un subconjunto de los coeficientes es igual a cero, de la forma: H0: β1=0, β2=0, β3=0 H1: βi≠0 ∀ i Con las siguientes matrices

Dicho conjunto de J restricciones puede ser contrastado con el siguiente estadístico:

Donde

es el estimador MCO no restringido. Este se distribuye F(J, n-k) bajo normalidad de los errores poblacionales del modelo lineal. No obstante, aun cuando el supuesto de normalidad no se satisfaga, es posible obtener la distribución asintótica del estadistico. Específicamente, en muestras grandes se tiene que:

Page 15: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 14

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. VALORES Y VECTORES PROPIOS

I. Conceptos. Los vectores propios, valor característico o eigenvectores de un operador lineal son los vectores no nulos que cuando son transformados por el operador dan lugar a un múltiplo escalar de sí mismos, con lo que no cambian su dirección.

Suponga la transformación del espacio para la siguente pintura:

En esta transformación de la MONALISA, la imagen se ha deformado. El vector azul, representado por la flecha azul que va desde el pecho hasta el hombro, ha cambiado de dirección, mientras que el rojo, representado por la flecha roja, no ha cambiado. El vector rojo es entonces un vector propio de la transformación, mientras que el azul no lo es.

Page 16: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 15

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Dado que el vector rojo no ha cambiado de longitud, su valor propio es uno (1). Todos los vectores de esta misma dirección son vectores propios, con el mismo valor propio.

El escalar λ recibe el nombre valor propio, valor característico o eigenvalor. A menudo, una transformación del espacio queda completamente determinada por sus vectores propios y valores propios.

Las transformaciones lineales del espacio como rotación, reflexión, ensanchamiento, o cualquier combinación de las anteriores pueden interpretarse mediante el efecto que producen en los vectores. Los vectores pueden visualizarse como flechas de una cierta longitud apuntando en una dirección y sentido determinados. Dado lo anterior se puede inferir que: 1. Los vectores propios de las transformaciones lineales son

vectores que, o no se ven afectados por la transformación o se ven multiplicados por un escalar, y por tanto, no varían su dirección.

2. El valor propio de un vector propio es el factor de escala por el que ha sido multiplicado para que no se vean afectados por la transformación.

Por ejemplo, un vector propio de una rotación en tres dimensiones es un vector situado en el eje de rotación sobre el cual se realiza la rotación. El valor propio correspondiente es 1 y el espacio propio es el eje de giro. Como es un espacio de una

Page 17: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 16

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

dimensión, su multiplicidad geométrica es uno. Es el único valor propio del espectro (de esta rotación) que es un número real. Otro ejemplo sería una lámina de metal que se expandiera uniformemente a partir de un punto de tal manera que las distancias desde cualquier punto al punto fijo se duplicasen. Esta expansión es una transformación con valor propio 2. Cada vector desde el punto fijo a cualquier otro es un vector propio, y el espacio propio es el conjunto de todos esos vectores.

II. Definiciones. Sea una matriz simétrica Σ con de orden PxP con las siguientes características:

pppp

p

p

21

22221

11212

Definición 1. La traza de Σ denotada por tr(Σ) se define como:

P

i

iipp

1

1111

Por lo tanto, la traza es la suma de todos los elementos de la diagonal.

Page 18: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 17

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Definición 2. Los valores propios (llamados raíces características) de Σ son las raíces de la ecuación polinomica. |Σ-𝛌I|=0 (1) Cuando es desarrollada la expresión del determinante la ecuación resultante es:

01

1

21

pp

pp cccc (2)

La ecuación (2) es una ecuación polinominal de λ con grado p. Los valores propios son la solución a la ecuación anterior. Definición 3. Cada valor propio tiene asociado un vector no cero correspondiente, e, llamado vector propio que satisface la condición: Σe =𝛌e (1) Debido a que Σ tiene P valores propios (ya que la matriz es de orden PxP), tendrá P vectores propios. Denotemos, por e1,e2,…ep

los vectores propios de Σ correspondientes a los valores propios λ1, λ2,… λp respectivamente. Ejemplo. Suponga la siguiente matriz de covarianzas, encuentre sus valores y vectores propios.

Σ = [6 22 3

]

a. Valores propios

Σ = [6 22 3

]

Σ − λI = [6 22 3

] − λ [1 00 1

]

Σ − λI = [6 − λ 2

2 3 − λ]

Page 19: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 18

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El determinante de la matriz Σ-𝛌I, |Σ-𝛌I|, es igual a la siguiente ecuación cuadrática o ecuación característica: 𝛌2-9𝛌+14=(𝛌-7)(𝛌-2)=0. La solución son dos valores propios reales, diferentes y positivos 𝛌1=7 y 𝛌2=2. b. Vectores propios Es necesario calcular el vector propio asociado para la matriz Σ, que para este caso corresponde al valor propio más grande (λ1=7) por lo tanto se construye el siguiente sistema de ecuaciones: Σe=λe

[6 22 3

] [e1

e2]=7[

e1

e2]

Construyendo un sistema de ecuaciones se llega a que: 6e1+2e2=7e1

2e1+3e2=7e2 Resolviendo y dejándolo en términos de vectores se tiene que:

[2e2

3e2 − 7e2]=[

7e1 − 6e1

−2e1] [

2e2

4e2]=[

e1

2e1]

Existen infinitas soluciones. De manera que cualquier vector propio de tamaño 2X1 que tenga su primer elemento igual al doble del segundo será el vector propio de Σ asociado con el primer valor propio λ1. Si se asume, para eliminar infinitas soluciones, que la variación

de la primera componente del vector propio e es igual a uno (e2=1) se tiene que: e2=1: 2e2= e1 e1=2 y por tanto e1=2: 4e2=2e1 e2=1

Page 20: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 19

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Entonces el vector propio asociado para el primer valor propio (λ=7) es:

x=[21

]

Es usual en la práctica determinar un valor propio de modo que su tamaño sea la unidad. Es decir, si existe el sistema 𝚺x=𝛌x, es

posible tener e=x/√xt x , entonces:

√xt x =√[2 1] [21

]=√5

El vector propio normalizado de Σ correspondiente al primer valor propio 𝛌1=7, corresponde a:

e1= [2/√5

1/√5]=[

0.89440.4472

]

Programación en STATA matrix input A = (6,2\2,3) matrix symeigen Vectores Valores = A matrix list Valores matrix list Vectores Ejercicio. Encuentre los valores y vectores propios de la siguiente matriz de covarianzas:

𝚺 = [7 44 9

]

Page 21: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 20

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

4. DISTRIBUCION NORMAL MULTIVARIANTE Cuando se trabaja en la vida real, un supuesto habitual asume que la variable en estudio, X, se distribuye con un comportamiento normal. Por ejemplo, la altura, riqueza o inteligencia de las personas, entre otras. La distribución normal univariada es una expresión de este hecho partiendo de un promedio muestral µ y varianza muestral σ2, que tiene la función de densidad de probabilidad:

2/)(2/1

22

1)(

xexf -∞<x<∞

Un gráfico de esta función es una forma de campana que agrupa en el intervalo de una desviación estándar alrededor de la media el 68.0% de la población, es decir, P(µ-σ≤X≤ µ+σ)=68% y agrupa en el intervalo con dos desviaciones estándar alrededor de la media el 95.0% de la población P(µ-2σ≤X≤ µ+2σ)=95%. La función de densidad normal univariada usualmente se nota como N~(µ,σ2). Esta formulación puede ser extendida al caso cuando p>1. El tratamiento generalizado sobre variables como una distribución normal se encuentra fundamentado en el Teorema del Límite Central, que demuestra como la suma de variables independientes se distribuye en el límite, o cuando la muestra tiende al infinito, bajo esta función de distribución. Teorema 1. Teorema de límite central. Sea X1,…..,Xn observaciones independientes de cualquier población con media µ y covarianza σij, entonces: )(

____

Xn se aproxima a NP(0, σ)

Page 22: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 21

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para tamaños de muestra grande donde n debe ser más grande que p. De una manera simplificada, indica que si existen X1,...,Xp variables aleatorias (v.a.) independientes con media µ y varianza común σ2<∞, la función de densidad se aproxima a la distribución normal Z∼N(0,1) cuando el tamaño de muestra, n, es grande. Esto es, para n grande ),(

...... __321 NX

n

XXXX n

Para observar la aplicación en un ejemplo práctico sobre una muestra aleatoria, es posible verificar el cumplimiento del teorema del límite central bajo el supuesto de diferentes tamaños de muestra.

n=30 n=1000 n=5000 Distribución normal bivariante Es una generalización para vectores continuos del modelo normal univariado. En el caso bivariante, la distribución normal no se basa en un número, sino en un vector de variables aleatorias (X1,X2) con vector medias muestrales µ = (µ1, µ2) y matriz de covarianzas Σ, definida por:

Basado en el caso univariado tiene como función de densidad

Una distribución normal bivariada con media µ y matriz de covarianzas Σ se nota como N(µ, Σ), y se puede representar gráficamente como:

Page 23: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 22

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Propiedades 1. La distribución marginal de X es N(µ1,σ1) 2. La distribución marginal de Y es N(µ2,σ2) 3. La distribución de Y condicionada por X = x0 se puede representar como:

Donde ρ es el coeficiente de correlación para el caso bivariado. ρ= cov(X1,X2) σ1σ2 4. Si un vector aleatorio (X1,X2) tiene distribución N(µ,Σ) y Cov(X1,X2)=0, entonces se puede representar su matriz de covarianzas, Σ, de la forma:

Sustituyendo esta expresión en la función de densidad de probabilidad para una distribución normal bivariada se obtiene que f(x,y)=f(x)·f(y), en este caso se denominan factores los vectores aleatorios estadísticamente independientes.

Page 24: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 23

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Distribución Normal Multivariada Se dice que un vector de variables aleatorias XT=[X1,X2…..Xp] tiene una distribución normal multivariada si existe un vector a=[a1,a2,…..,ap], tal que:

p

i

ii

T xaXa1

Donde cada uno de sus elementos del vector tiene una distribución univariada para todos los conjuntos posibles de valores seleccionados. La media de un vector de variables aleatorias X se denota por μ1xp y la matriz de covarianzas de X se denota por 𝚺pxp. Definidas por:

)

)

)

)(

)(

)(

)( 2

1

2

1

ppXE

XE

XE

XE

La matriz de covarianzas 𝚺 =Cov(X)=E[(X- μ)( X- μ)], de orden pXp puede ser calculada como:

pppp

p

p

21

22221

11212

Donde σii=Var(Xi)=E[(Xi-μi)2] y σij=cov(Xi)=E[(Xi-μi)(Xj-μj)] Función de densidad de probabilidad normal multivariada Suponga p variables estandarizadas aleatorias independientes e idénticamente distribuidas (v.a.i.i.d.), Zi, i=1,…n por el Teorema del Limite Central poseen una función de distribución de probabilidad Zi~N(0,Σ) si n es grande. Puesto que Zi es

Page 25: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 24

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

independiente y con la matriz Σ es posible obtener una función de distribución de probabilidad de la forma:

n

i

in zfzfZZf1

1 )()(),.....( si se supone una distribución

normal multivariada

2

2

1

1-2/1

1 ||)2()(),.....( izn

i

n ezfZZf

n

i

i

n

n zezfZZf1

21

2

n-2/

1 ||2)(),.....(

ZZezfZZf Tn

n

1

2

n-2/

1 ||2)(),.....(

Donde ZT=(Z1,...,Zt) es un vector transpuesto de v.a.i.i.d. normales. Ahora suponga la transformación X=AZ+B donde A es una matriz no singular de tamaño nxn y B es un vector es un vector nX1 de constantes. Es posible realizar la siguiente transformación:

ZZeAzg Tn 1

2

12/ ||2)( pero Z=A-1(X-B)

)()(||2)( 111

2

12/ BXABXAeAzgTn

))()()(||2)( 11

2

12/ BXAABXeAzg tTn

Puesto que E[Z]=0, entonces E[X]=B y la propiedad de independencia que implica sobre la matriz de covarianzas cov[Z]=In, por tanto cov(X)=AAT. Estableciendo que μ=B y Σ= AAT es posible reescribir g(x) de la forma estándar: ))()(||2)( 11

2

2/12/ xxezg Tn

La cual se conoce como distribución normal multivariada con media μ y matriz de covarianza Σ.

Page 26: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 25

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Teoremas Teorema 2. Si Σ es positiva de modo que Σ-1 existe, entonces Σe=𝛌e implica que Σ-1 e=

1 e

Así el par de valores propios y vectores propios de Σ correspnden al par (1/𝛌,e) para Σ-1. También Σ-1 es definida positiva. Teorema 3. Si X es distribuido como una NP(μ,Σ) las q combinaciones lineales

pqpqq

pp

pp

XaXaXa

XaXaXa

XaXaXa

AX

2211

1211111

1211111

Son distribuidos Nq(Aμ,AΣAT) . También, X+d donde d es un vector de constantes es distribuida Nq(A+b,Σ). Teorema 4. Si X es distribuido N(μ,Σ), entonces cualquier combinación lineal de variables aTX=a1X1+a2x2+…..+apXp es distribuido N(aTμ,aTΣa). También, si la combinación lineal aTX es distribuida como N(aTμ, aTΣa) para cada a, entonces X debe ser N(μ,Σ). Teorema 5. Todos los subconjuntos de X están normalmente distribuidos. Si se particiona X, su vector de medias μ y matriz de covariazas Σ será de la forma,

Page 27: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 26

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

2

1

X

X

X

2

1

2221

1211

|

|

Teorema 6. Si X1 y X2 son dos vectores aleatorios independientes de orden qX1 y qX2 respectivamente, entonces a. Las covarianzas entre dichos vectores son iguales a cero,

Cov(X1,X2)=0. La matriz de ceros es de orden q1Xq2. b. Si

2

1

X

X es

2221

1211

2

1

21

|

|

,

qqN

entonces X1 y X2 son independientes si y

solo si Σ12=0. c. Si X1 y X2 son independientes y distribuidas Nq1(μ1,Σ11) y

Nq2(μ,Σ) respectivamente, entonces [X1 X2] es normal multivariante distribuido como:

11

11

2

1

21

|0

0|

,

qqN

Teorema 7. Sea X una variable distribuida Np(𝛍,𝚺) con |𝚺|>0. Entonces,

a. La matriz (x-μ)TΣ-1(x-μ) es distribuida como una chi-cuadrado con p grados de libertad, χ2

(0.5,2). b. La distribución Np(𝛍,𝚺) asigna una probabilidad 1-𝛂 a la

elipse solida tal que {x|(x-μ)TΣ-1(x-μ) χ2(0.5,2)}, donde χ2

(𝛂,p) denota el contorno superior del 𝛂 y se describe como el percentil de la distribución χ2.

Ejemplo. Suponga las diez empresas más grandes de Colombia con los datos de ventas, utilidades y activos expresados en millones de dólares.

Page 28: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 27

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Determine si las ventas y utilidades registradas por estas empresas hacen parte de una distribución normal bivariada. El resultado puede ser comparado utilizando el resultado establecido como: (x-μ)TΣ-1(x-μ) ≤ χ2

(0.5,2) Si no se conoce la varianza poblacional, Σ, es necesario utilizar la varianza muestral, S, de la forma: (x-μ)TS-1(x-μ) ≤ χ2

(0.5,2) Donde se prueba si se encuentra sobre un distribución normal bivariada con una distribución chi cuadrado con dos grados de libertad que toma un valor de 1.39 χ2

(0.5,2)=1.39. Valores superiores afirma que no se encuentra sobre una distribución normal.

El resultado indica que siete de esas distancias (70%) son inferiores a 1.39. Si fuera una distribución normalmente

No ventas utilidades activos

Ecopetrol 126.97 4.22 173.29

Avianca 96.93 3.83 160.89

Suramerica 86.65 3.51 83.21

Tablemac 63.43 3.75 77.73

Coltejer 55.26 3.93 128.34

Coltabaco 50.97 1.8 39.08

Éxito 39.06 2.94 38.52

ETB 36.15 0.35 51.038

ISA 35.2 2.48 34.71

Argos 32.41 2.41 25.63

POBLACIONAL MUESTRAL Variables centradas

9005.32 230.38 1000.59 25.60 No ventas utilidades χ2(0.5,2)

230.38 12.89 25.60 1.43 Ecopetrol 64.667 1.298 4.343

Avianca 34.627 0.908 1.199

0.0002 -0.00366 0.0018 -0.032915 Suramerica 24.347 0.588 0.594

-0.00366 0.14296 -0.0329 1.2866317 Tablemac 1.127 0.828 0.823

Coltejer -7.043 1.008 1.866

Coltabaco -11.333 -1.122 1.019

Éxito -23.243 0.018 1.023

ETB -26.153 -2.572 5.343

ISA -27.103 -0.442 0.815

Argos -29.893 -0.512 0.975

varianza

inversa

Page 29: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 28

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

distribuida es de esperarse que cerca de la mitad, cinco observaciones, se encuentren dentro del contorno, razón por la cual se rechaza la hipótesis que esta sea una distribución normal bivariada. Constrastes de multinormalidad Para contrastar la normalidad univariada,como primer pasose han desarrollado estrategias graficas que alertan sobre la normalidad de un conjunto de datos. Al estrategia mas usada consiste en graficar cuantilas de datos frente a cuantilas de distribución univariada, estos graficos se conocen como QxQ plot. Las cuantilas son similares a los percentiles, un grafico QxQ plot se obtiene:

1. Se ordenan las observaciones de mayor a menor. Así la cuartila muestral xi es la cuartila i/n.

2. Se ubican los pares y se examina la linealidad resultante. Ejemplo. Suponga que se generaron números aleatorios distribuidos bajo una distribución normal estándar con 500 observaciones. Se genera el siguiente QxQ plot.

El contraste estadístico de mayor significancia y utilización de para corroborar la normalidad univariada es el Kolmogorov-

Normal gráfico Q-Q de VAR00001

Valor observado

43210-1-2-3-4

Val

or N

orm

al e

sper

ado

4

3

2

1

0

-1

-2

-3

-4

Page 30: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 29

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Smirnov. Este estadístico calcula la distancia entre la función de distribución empírica de la muestra, Fn(X) y la teórica, F(X), en este caso la normal. El estadístico de prueba consiste en: Dn=max{|Fn(X)-F(X)|} Donde max es la función máximo. Lo que intenta la prueba es determinar la distancia máxima entre la distribución teórica y la muestral, con ello realizar el estadístico. La prueba de hipótesis asociada H0: no es normal la muestra H1: es normal la muestra Ejemplo. Suponga que se generaron números aleatorios distribuidos bajo una distribución normal estándar con 500 observaciones. Se demostrara el uso del estadístico Kolmogorov-Smirnov (KS).

La prueba parte de un estadístico KS con un valor de 0.555 lo que indica que la significaciona tiene un valor de 0.917 lo cual rechaza la hipótesis nula de no normalidad de la muestra. Con este resultado se puede asegurar con un 95.0% de confianza que la muestra parte de una distribución normal.

Page 31: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 30

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PARTE II MODELOS MULTIVARIANTES

Page 32: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 31

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1. ANÁLISIS DE COMPONENTES PRINCIPALES (ACP)

1.1. INTRODUCCIÓN Un análisis de componentes principales (ACP) está interesado en explicar la estructura de varianzas y covarianzas (información) de un conjunto de variables a través de combinaciones lineales de estas. Dicha representación debe ser tal que al desechar dimensiones superiores (generalmente de la tercera o cuarta en adelante) la pérdida de información sea mínima. El objetivo principal que persigue el ACP es la representación de las medidas numéricas de varias variables en un espacio de pocas dimensiones donde puedan percibir relaciones que de otra manera permanecerían ocultas en dimensiones superiores y permitir, en primer lugar, reducir los datos, y en segundo lugar, efectuar interpretación de resultados. Aunque p componentes son necesarias para reproducir la variabilidad completa del sistema, muchas veces esta puede ser resumida por un pequeño número k de componentes principales (k<p). Si es así (casi siempre) mucha información en los k componentes se refleja como si existiera en las p variables originales.

Page 33: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 32

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1.2 INTERPRETACIÓN GEOMETRICA

La representación gráfica implica la creación de un plano r-dimensional y ubicarlo de tal manera que se encuentre lo más aproximado al gráfico de dispersión de los datos originales. Suponga un plano inicial que cruza a través del origen determinado por la combinación lineal u1, u2,…,ur consistente de todos los puntos con las siguientes caracteristicas: x=b1u1+b2u2+………..+brur=UB para algun B Este plano, puede ser trasladado a cualquier ubicación a través de un punto a lo cual se convierte en a+UB para algún b. El objetivo de los componentes principales (ACP) es seleccionar un plano r-dimensional a+UB que minimice la suma de las distancias al cuadrado, ∑ dj

2nj=1 , entre las observaciones xj y el

plano r-dimensional a+UB. Grafico 1. Visión grafica del análisis de componentes principales

Page 34: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 33

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Las k componentes principales pueden reemplazar las p variables iniciales del conjunto de datos originales, consistente de p variables reducidas a un conjunto de datos de k componentes principales. Un análisis de componentes principales muchas veces revela relaciones que no fueron previamente sospechadas, por lo tanto, permite efectuar interpretaciones que ordinariamente no tendrían algún tipo de sustento. El análisis de componentes principales es un paso intermedio, más que un fin en si mismo, debido a que es un intermediario para procesos más largos de investigación. Por ejemplo, puede ser insumo para regresiones múltiples, análisis de cluster, construcción de indicadores, entre otros. Se quiere construir un nuevo sistema de coordenadas ortogonales (perpendiculares) en el cual los puntos puedan ser representados de una manera tal que sus proyecciones sobre el nuevo primer eje recojan la mayor cantidad posible de variación (varianza). Las proyecciones sobre el segundo eje recoja el resto, y asi sucesivamente. Intuitivamente, para un grafico con dos variables, encontramos que tales ejes corresponden a las rectas F1 y F2, representadas en la gráfica 2 cuyo origen se encuentra en la intersección de los promedios de las variables X y Y, que desde ahora será denominado centro de gravedad G de la nube de puntos.

Page 35: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 34

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Grafica 2. ACP para dos componentes

Con mucha frecuencia se maneja simultáneamente un número p de variables numéricas. Si cada variable se representa sobre un eje, se necesitaría un sistema de coordenadas con p ejes perpendiculares entre sí para ubicar las coordenadas de los puntos y poderlos representar. Este grafico es imposible incorporarlo cuando p≥4, pero la idea esbozada en el ejemplo anterior sigue siendo válida, buscar un nuevo sistema de coordenadas con origen en el centro de gravedad, G, de tal manera que el primer eje del nuevo sistema (F1) refleje la mayor cantidad posible de variación a través de la minimización de las distancias entre el plano y los datos. El segundo eje (F2), refleje la mayor cantidad posible entre la variación restante, el tercer eje (F3) la mayor variación posible remanente después de las dos anteriores, y así sucesivamente. Observando la figura anterior se puede deducir que el nuevo sistema de coordenadas se logra después de dos movimientos en la nube de puntos. Un primer movimiento es una traslación que permite situar el nuevo origen en el centro de gravedad de la nube, G.

Page 36: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 35

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La nueva nube, obtenida después de esta traslación se llama nube centrada. Un segundo movimiento que se hace sobre la nube centrada es una rotación, usando el centro de gravedad como punto pivotal. Existe una visión alternativa de rotación a través de senos y cosenos Esta rotación ha de hacerse de tal manera que el nuevo primer eje del sistema de coordenadas apunte en la dirección de máxima dispersión de la nube centrada. El segundo eje apunte en la dirección con la segunda mayor dispersión y perpendicular al anterior. El tercer eje en la dirección de tercera mayor dispersión perpendicular a las dos anteriores y así sucesivamente. Es evidente que el nuevo sistema de coordenadas tiene entonces tantos ejes perpendiculares entre sí como tenía el antiguo, es decir, tantos ejes como variables se hayan considerado inicialmente. 1.3. RESULTADOS MATEMATICOS Y GRAFICOS DEL ACP Suponga considerar los componentes principales derivados de variables aleatorias con una distribución normal multivariante. Suponga X es distribuido como N(μ,Σ), aunque este supuesto no es necesario. Se puede demostrar que la densidad de X es constante sobre elipsoides centrados μ con la formula: (X-μ)Σ-1(X-μ)=c2

Page 37: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 36

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La cual tiene ejes ±c√λiei i=1,2,….p donde (λi,ei) es la

combinación de valor propio y vector propio de Σ. Es decir, Gráfico 3. Representación grafica por elipsoides

Un punto sobre el eje i-esimo de la elipsoide tendrá coordenadas a 𝐞i

t=[ei1,ei2,……,eip] en el sistema de coordenadas que tiene origen en μ y los ejes son paralelos a los ejes originales x1,x2,….,xp.

Será conveniente, en principio, establecer el punto en el origen, es decir, μ=0 de manera que con A=Σ-1 es posible reescribir:

c2=xtΣ-1x=1

λ1(𝐞𝟏

𝐭 𝐱)2+1

λ2(𝐞𝟐

𝐭 𝐱)2+……..+1

λp(𝐞𝐩

𝐭 𝐱)2

Esta ecuación define una elipsoide (puesto que λ1,λ2,…..,λp son positivas) en un sistema de coordenadas con ejes y1,y2,….yn en las direcciones e1,e2,….,ep, respectivamente. Si λ1 es el valor propio más grande, entonces el eje principal tiene que ir a en la dirección e1. Los restantes ejes serán definidos por las direcciones de e2,…,ep.

Page 38: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 37

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para resumir, los componentes principales y1=𝐞1t x, y2=𝐞2

t x,….. yp=𝐞p

t x se encuentran en las direcciones de los ejes de una

elipsoide con densidad constante. Por lo tanto, cualquier punto sobre el eje de la elipsoide i-esima tiene coordenadas x proporcionales a 𝐞i

t=[ei1,ei2,……, eip] y necesariamente la coordenada de la primera componente principal tiene la forma [0,0,….,yi,0,……0]. Cuando μ≠0, es la componente principal centrada en la medida que yi=𝐞i

t(x-μ) tiene media cero y dirección del vector propio ei.

Una elipse de densidad constante y componentes principales para un vector aleatorio normal bivariante con μ=0 y 𝛒=0.75 se demuestran en la siguiente figura. Grafico 4. Elipse de densidada constante de tamaño xtΣx=c2 y las componentes principales y1,y2 para un vector aleatorio normal bivaraido X teniendo una media de cero.

Se puede observar que las componentes son obtenidas rotando las coordenadas de los ejes originales en un angulo θ hasta que coincida con los ejes de un plano r-esimo con densidad

Page 39: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 38

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

constante. Este resultado aplica para p>2 dimensiones de igual forma. En conclusión, los resultados algebraicos y graficos indican que los componentes principales son combinaciones de P variables aleatorias x1,…,xp. Geometricamente estas combinaciones representan una selección de un nuevo sistema de coordenadas obtenido de rotar el sistema original con x1,…,xp como eje de coordenadas. Los nuevos ejes representan las direcciones con máxima variablilidad y proporciona una descripción más simple y parsimoniosa de la estructura de covarianza de los datos. 1.4. CÁLCULO DE LOS COMPONENTES PRINCIPALES Consideremos p variables aleatorias de tipo numérico X1,X2,….,Xp

las cuales posiblemente estén correlacionadas entre sí. Podemos pensar que las p variables anteriores, consideradas conjuntamente, forman una variable aleatoria multivariada, denotada por un vector X=(X1,X2,….,Xp). La matriz de covarianzas asociada al vector X está definida como Σ donde la entrada en la fila i columna j es el valor de la covarianza entre Xi y Xj , Cov(Xi,Xj). Esto hace que la diagonal de Σ esté conformada por las varianzas Var(X1),Var(X2),….,Var(Xp) y que sea simétrica1. Estas características también implican que sean semidefinida positiva.

1 Se puede probar que es una matriz definida positiva, es decir, la forma cuadrática asociada a ella tiene todas sus raíces positivas.

Page 40: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 39

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La idea que se persigue es determinar un nuevo conjunto de variables y1,y2,...,yp, no correlacionadas entre sí (ortogonales o perpendiculares), cuyas varianzas decrezcan desde la primera nueva variable hasta la última, llamadas componentes principales. Cada componente principal yj (donde j=1,...,p) es una combinación lineal de las x1,x2, ...,xp variables originales, es decir: Suponga para el conjunto de variables iniciales representados por un vector de variables X la j-esima componente principal:

yj = aj1x1+aj2x2+...+ajpxp (1) O de forma matricial:

yj = aTx (2) Donde aT=(aj1,…..,ajp) es un vector de constantes y xT=[x1,x2,... ,xp] es un vector de p variables aleatorias que componene la j-esima variable ortogonal, yj. El objetivo es recoger la mayor cantidad posible de variación (maximizar la varianza explicada) por cada combinación lineal yj. La forma para maximizar la varianza explicada es modificar los coeficientes aij por cada combinación lineal yj incorporando las condiciones de ortogonalidad definidas anteriormente.

Page 41: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 40

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Por ello, para mantener la ortogonalidad de la transformación, y evitar esta solución trivial de crecimiento infinito, se impone que la suma de cuadrados de los coeficientes sea igual a uno y este sea el módulo del vector aT=(a1j, a2j,..., apj), es decir, expresado de manera formal:

p

k

kjj

T

j aaa1

2 1 (3)

El primer componente se calcula eligiendo el vector de parámetros que maximice la información expresada, o minimice la distancia entre el plano y los datos a través del valor del vector a1. La primera componente (y1) tiene la mayor varianza posible y se calcula obteniendo los parámetros que minimizan la distancia entre los datos y el plano r-dimensional a través de las ponderaciones a1 del vector y1=𝐚1

t x, sujeta a la restricción que los parámetros no aumenten infinitamente, expresado como que la suma de los cuadrados de las ponderaciones sobre las variables

originales, X, sea igual a la unidad, es decir, 𝐚1t 𝐚1 =1.

El segundo componente principal, y2, se calcula obteniendo los parámetros que minimizan la distancia entre los datos y el plano r-dimensional a través de las ponderaciones a2 del vector y2=𝐚2

t x. Además, sujeta a la restricción que los parámetros no aumenten infinitamente y la variable obtenida esté no correlacionada con la primera componente principal (y1). Es decir, exprese la mayor varianza posible no explicada por el primer componente.

Page 42: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 41

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Del mismo modo, se eligen y3,y4,···,yp componentes no correlacionadas entre sí, de manera que las nuevas variables obtenidas tengan cada vez menor varianza. 1.5. PROCESO DE EXTRACCIÓN El objetivo del proceso para encontrar las componentes principales (yi) es elegir un vector de constantes a1 de modo que se maximice la varianza de y1 sujeta a la restricción de que

𝐚1t 𝐚1 =1, como ya fue justificado.

El método habitual para maximizar una función de varias variables sujeta a restricciones de igualdad es el método de multiplicadores de Lagrange, usualmente aplicado en economía. El problema consiste en maximizar la varianza explicada ponderada por un vector de coeficientes a que determinan los

pesos de cada variable, a1t Σa1 , sujeta a la restricción 𝐚1

t 𝐚1 =1. La incógnita que se busca es un vector a1 desconocido de parámetros sobre el vector de variables originales X que balance las p variables existentes y determine una combinación lineal óptima que maximiza la varianza explicada o que minimice las distancias entre un plano y cada uno de los puntos originales.

Page 43: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 42

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De esta forma, se puede representar un problema de optimización matemática y su representación en una función lagrangiana, ℓ(•), de la forma:

Max 𝐚𝟏𝐭 𝚺𝐚𝟏 (4)

a1

S.A. 111 aaT La función lagrangiana esta representada por:

)()( 11111 Iaaaaa TT Las condiciones de primer orden (CPO) del problema de optimización respecto a los parámetros a están dadas por:

022()

11

1

Iaa

a

0)( I (5) Desarrollando la expresión anterior se tiene que: (Σ−λI) = 0 Σ = λI premultiplicando por 𝐚𝟏

𝐓

𝐚𝟏𝐓Σa1 = 𝐚𝟏

𝐓λIa1

Var(y1) = 𝐚𝟏𝐓 λIa1 pero 𝐚𝟏

𝐓Σa1=Var(y1)

Var(y1) = 𝐚𝟏𝐓 λIa1

Var(y1) = λ𝐚𝟏𝐓a1 pero 𝐚𝟏

𝐓a1=1 Var(y1) = λ (6) De este modo, λ, es conocido como el primer valor propio de la matriz de covarianzas, Σ, que es solución de la ecuación característica (5) expresado en la ecuación (6).

Page 44: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 43

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Este resultado puede ser interpretado como la varianza de la primera componente principal (y1) esta representada por el primer valor propio de la matriz, Σ, Var(y1)=λ1. El segundo componente principal se calcula como y2=𝐚𝟐

𝐓x y se obtiene mediante un argumento parecido. Además, se requiere que y2 esté no correlacionado con el anterior componente y1, es decir, para asegurar la ortogonalidad o independencia, se tiene que imponer que la covarianza entre las variables (y2,y1) sea igual a cero, Cov(y2,y1)=0. Por lo tanto, suponga la covarianza entre la primera (y1) y segunda (y2) componente principal de la forma: Cov(y2, y1) = Cov(𝐚𝟐

𝐓x, 𝐚𝟏𝐓x)

= E[𝐚𝟐𝐓(x−µ)·(x−µ)T𝐚𝟏 ]

= 𝐚𝟐𝐓Σ𝐚𝟏

Cov(y2, y1) = 𝐚𝟐𝐓Σ𝐚𝟏

Por los resultados de la primera componente que:

Σ = λI

Σa1 = λI𝐚𝟏

Cov(y2, y1) = 𝐚𝟐𝐓Σa1 = 𝐚𝟐

𝐓λ𝐚𝟏

= λ𝐚𝟐𝐓a1 pero λ> 0 entonces

𝐚𝟐𝐓Σa1 = 0.

Es decir, se demuestra que los vectores de las ponderaciones de la primera y segunda componente principal son ortogonales.

Page 45: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 44

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De este modo, se tiene que maximizar la varianza de la segunda componente principal, y2, es decir, a2Σa2, sujeta a dos restricciones. La primera, sobre el tamaño restringido de la suma de cuadrados del vector de ponderaciones de la segunda componente principal, 𝐚𝟐

𝐓a2=1. La segunda, la independencia entre las ponderaciones de la primera (y1) y segunda (y2) componente principal descrita como 𝐚𝟐

𝐓a1=0. De esta forma, es posible construir un problema de optimización lagrangiana, ℓ(•), de la forma:

Max 𝐚𝟐𝐓𝚺𝐚𝟐

a2

Sujeto a 0

1

12

22

aa

aaT

T

La función lagrangiana, ℓ(•), es representada entonces por )()1()( 122221222 aaaaaaa TTT Las condiciones de primer orden (CPO) del problema están dadas por:

022()

12212

2

aIaa

a

Page 46: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 45

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si se premultiplica por 𝐚1T la CPO en la ecuación entonces:

= 2𝐚1TΣ𝐚2 -2𝐚1

Tδ1Ia2-𝐚1Tδ2𝐚1 =0

= 2𝐚1TΣ𝐚2 -2δ1I𝐚1

Ta2-δ2𝐚1T𝐚1 =0

Si se conoce que 𝐚1T𝐚1 =1 y 𝐚1

T𝐚2 =0. Entonces:

0=2𝐚1TΣ𝐚2 -δ2

O lo que es lo mismo:

δ2=2𝐚1TΣ𝐚2

Pero se demostró anteriormente que 𝐚1TΣ𝐚2 =𝐚𝟐

𝐓Σa1=0. De este modo, queda finalmente la CPO como:

022()

222

2

Iaa

a

Usando el mismo procedimiento que antes, elegimos λ2 como el segundo valor propio mayor de la matriz de covarianzas, Σ, con su vector propio asociado a2. 1.6. TEOREMAS Los resultados anteriores se pueden expresar de una manera sintética y con el formalismo necesario en los siguientes teoremas. Teorema 1. Sea Σ una matriz de covarianza asociada con vectores aleatorios xT=x1, x2,……,xp. Suponga que la matriz Σ tiene pares de valores y vectores propios (λ1,e1), (λ2,e2),…..,(λp,ep) donde λ1≥λ2≥……≥λp≥0, la i-esima componente principal esta dada por:

pixexexexey ppiii

T

ii ,....,2,1....2211

De esta forma,

Page 47: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 46

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ii

T

ii eeyVar )(

kieeyy k

T

iki 0),cov(

Si algunos λi son iguales la elección del coeficiente ei asi como yi no son únicos. La solución a los problemas de optimización planteados anteriormente por un método lagrangiano son resueltos paralelamente a través de hallar los valores y vectores propios de la matriz de covarianzas, Σ. Teorema 2. Suponga que xT=x1, x2,……,xp tienen una matriz de covarianzas con pares de valores y vectores propios (λ1,e1), (λ2,e2),…..,(λp,ep) donde λ1≥λ2≥……≥λp≥0. Por otra parte, sea la siguiente combinación y1=𝐞1

t x, y2=𝐞2t x,……., yp=𝐞p

t x. Entonces:

σ11+σ22+…..+σpp =

p

i

ip

p

i

i yXVar1

21

1

)var(....)(

El resultado indica que la varianza poblacional (VP) es la suma de los valores propios o el valor de la traza de la matriz Λ. La proporción total de la varianza explicada (PVE) por la k-esima componente es:

PVE=k

k

....21

k=1,2,….p

Muchas veces este porcentaje es bastante alto con un pequeño valor de k<p lo que se traduce en una alta representatividad en un espacio de pocas dimensiones. Como puede deducirse de lo anterior, la varianza total se descompone en un número finito de partes disjuntas λj de tamaños cada vez menores, lo que en la práctica proporciona un

Page 48: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 47

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

mecanismo para reducir la dimensionalidad de representación de las variables. En efecto, si se olvidan las últimas p-k componentes principales, las primeras p tendrán una tasa de representatividad igual a

%100VT

21

kp de la varianza total de las variables

originales. Si por ejemplo, 80% o 90%, de la varianza poblacional total puede ser atribuida a la primera y segunda componente entonces estos pueden sustituir las p variables originales por las componentes sin perdida de demasiada información. Teorema 3. Si y1=𝐞𝟏

𝐓x, y2=𝐞𝟐𝐓x,….. yp=𝐞𝐩

𝐓x son componentes

principales obtenidos de la matriz de covarianzas, Σ, entonces:

kk

iki

XY

ek

,1 i=1,2….p

Son los coeficientes de correlación entre la componente principal i-esima (Yi) y la variable k-esima (xk). Lo que indica el teorema anterior es que cada componente del vector 𝐞i

t =[ei1,e12,…,eip] también debe ser inspeccionado. La magnitud de eik mide la importanica de la k-esima variable sobre i esima componente principal, sin tener en cuenta otras variables que se denominara “driver”.

Page 49: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 48

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En particular eik es proporcional al coeficiente de correlación entre la componente (Yi) y la variable (xk). Aunque las correlaciones de las variables (X) con la componente principal (Yi) muchas veces ayuda a interpretar los componentes, ellas miden únicamente la contribución univariada de un individuo X frente a la componente Y. Es decir, ellas no indican la importancia de la variable X a la componente principal Y, solo su grado de correlación en la presencia de otras variables X. Aunque coeficientes del vector propio y correlaciones calculadas pueden conducir a distintas clasificaciones como medidas de importancia, no se aprecian diferencias sustanciales en sus valores. En la práctica financiera, variables con relativamente altos coeficientes de los componentes del vector (en valor absoluto) tienden a tener alternativamente más correlacion entre la componente y la variable. De este modo las dos medidas, la primera multivariada (coeficiente eik) y la segunda univariada (correlacion) frecuentemente arrojan resultados similares. Siempre es recomendado examinar los coeficientes y las correlaciones en búsqueda de interpretar los componentes, por esta razón, se recomienda en primera instancia verificar los coeficientes eik, posteriormente las correlaciones aunque en la mayoría de los casos arrojen resultados similares.

Page 50: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 49

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Ejemplo. Suponga la siguiente de matriz de varianzas y covarianzas, Σ, con variables aleatorias X1, X2, X3:

Σ = [1 −2 0

−2 5 00 0 2

]

Despues de incluir la matriz en STATA se utiliza el comando pcamat abc, n(0) names(x1 x2 x3) components(3) covariance que arroja los siguientes resultados:

Tabla 1

La conclusión arroja los valores y vectores propios determinados como: λ1=5.83 𝐞1

t =[-0.383, 0.924,0] λ2=2.00 𝐞𝟐

𝐭 =[0, 0, 1] λ3=0.17 𝐞3

t =[0.924, 0.383, 0] Por lo tanto, las componentes principales se convierten en:

Y1=e1t 𝐗=-0.383X1+0.924X2

Y2=e2t 𝐗=X3

Y3=e3t 𝐗=0.924X1+0.383X2

Page 51: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 50

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La suma de los componentes principales λ1+λ2+λ3 extraidos de la matriz de covarianzas Σ es igual a la traza de esta matriz. Ambos son iguales a ocho (8). Utilizando los resultados del TEOREMA 1, se desea determinar la varianza de la primera componente (Y1), es decir:

Var(y1)=e1t Σe1

O mejor

Var(y1)=Var(-0.383X1+0.924X2) Var(y1)=(0.383)2Var(X1)+(0.924)2Var(X2)-2(0.383)(0.924)

Recurriendo a la matriz de covarianzas, Σ, implica que Var(X1)=1, Var(X2)=5 y cov(X1, X2)=-2. Entonces:

Var(y1) = 0.147(1)+0.854(5)-0.708(-2) Var(y1) = 5.83 Var(y1) = λ1

La varianza de la primera componente principal corresponde al primer valor propio. La varianza total utiliza el TEOREMA 2 a partir de la matriz de covarianzas, Σ, la calcula de la siguiente forma:

p

i

i

p

i

i yXVar1

321

1

)var()( = σ11+ σ22+ σ33=1+5+2

La proporcion de la varianza explicada por la primera componente principal (VEC1) es:

VEC1= λ1

λ1+λ2+λ3=

5.83

λ1+λ2+λ3=

5.83

8.00=0.7286

Page 52: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 51

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es decir, la primera componente explica el 72.86% de la varianza total. Este mismo procedimiento se efectua para las demás componentes. En este caso, los componentes Y1 y Y2 podrían reemplazar las tres variables originales (X1, X2, X3) sin mayor perdida de información ya que entre los dos explican el 97.86% de la varianza total. Es decir, la proporcion de la varianza explicada por la primera y segunda componente principal (VEC1|2) es:

VEC1|2= λ1+λ2

λ1+λ2+λ3=

5.83+2

λ1+λ2+λ3=

7.83

8.00=0.9786

Por otra parte, utilizando el TEOREMA 3 es posible encontrar el coeficiente de correlacion entre la primera componente (Y1) y la variable X1 de la forma:

ρY1,X1=e11√λ1

√σ11=

−0.383√5.83

√1 = -0.925

Para la componente (Y1) y la variable X2 se calcula de la siguiente forma:

ρY1,X2=e12√λ1

√σ22=

0.924√5.83

√5 = 0.998

Observese la variable x2 con el coeficientea asociado del valor propio de -0.925 que recibe en la primera componente Y1. Tambien tiene la más alta correlacion con 0.998 (en valor absoluto).

Page 53: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 52

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La correlación de x1 con Y1 (-0.925), por otra parte, es casi tan grande como la de x2 (.0.998) son casi igualmente importantes para la primera componente principal (Y1). Los pesos relativos (en valor absoluto) de los coeficientes de X1 y X2 suguiere que X2 contribuye mas en la determinación de Y1 de lo que hace X2. Puesto que ambos coeficientes son razonablemente grandes y de signos opuestos, se puede afirmar que ambas variables colaboran en la interpretación de Y1. 1.7. COMPONENTES PRINCIPALES NORMADO O POR

CORRELACIONES Todo lo mencionado anteriormente tiene un sentido geométrico y matemático muy claro pero en la práctica tiene un problema de interpretación. ¿Qué significado tiene una variable artificial Fj que ha sido construída, como una combinación de otras variables cuyas naturalezas pueden ser muy diferentes? ¿Qué nombre puede recibir por ejemplo, una variable conformada por una combinación de edad, peso, ingresos, etc? Por otra parte, el peso de cada variable original, traducido fundamentalmente en volatilidad, puede ser muy diferente para cada variable. Una variable muy dispersa puede contribuir enormemente a la varianza total mientras que una variable más homogénea contribuye menos. Esto finalmente determina la participación de

Page 54: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 53

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

cada variable en la conformación de un factor generando ruido en el cálculo. El cálculo de los componentes principales de una serie de variables x1,x2...,xp depende habitualmente de las unidades de medida empleadas. Si transformamos las unidades de medida, lo más probable es que cambien a su vez los componentes obtenidos. Una solución frecuente es usar variables x1,...,xp normalizadas. Con ello, se eliminan las diferentes unidades de medida y se consideran todas las variables implícitamente equivalentes en cuanto a la información recogida. Realizar ACP con variables originales estandarizadas resuelve los dos problemas. El primero, con las variables estandarizadas no tiene nombre, son simplemente números sin unidades en las cuales se expresen las mediciones. De otra parte, la estandarización lleva todas las escalas de medida a una forma común de media 0 y varianza 1, con lo cual se elimina el problema de medición y variabilidad diferente de las variables originales. El ACP realizado con variables originales estandarizadas se llama ACP normado. El ACP normado equivale al ACP corriente pero partiendo de la matriz de correlaciones ρ en vez de la matriz de covarianzas Σ.

Page 55: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 54

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El ACP normado debe ser la técnica a seguir en cualquier caso, a menos que se quieran explorar algunas otras posibilidades de tipo teórico o que se tengan variables muy similares tanto en su naturaleza como en su escala de medida. Los componentes principales de la matriz de correlaciones, le da igual importancia a todas las variables originales, a diferencia del ACP por matriz de covarianzas. En la matriz de correlaciones todos los elementos de la diagonal son iguales a 1. Si las variables originales están normalizadas, esto implica que su matriz de covarianzas es igual a la de correlaciones, con lo que la variabilidad total (la traza) es igual al número total de variables. La suma total de todos los valores propios será p y la proporción de varianza recogida por el valor propio j-ésimo (componente) será de λj/p. Los componentes principales pueden ser obtendos de variables estandarizadas de la forma:

Z1=(X1 −μ1 )

√σ11;

Z2=(X2 −μ2 )

√σ22;

: :

Zp=(Xp −μp )

√σpp

En notación matricial: Z=(V1/2)-1(X-μ)

Page 56: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 55

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde la matriz V1/2 es diagonal constituida por desviaciones estándar. Donde E(Z)=0 y su matriz de covariazas es igua a:

Cov(Z)=(V1/2)-1Σ(V1/2)-1=ρ Los componentes principales de Z pueden ser obtenidos de los vectores propios de la matriz de correlaciones ρ de X. Todos los resultados previos aplican exactamente igual con algunas simplificaciones, puesto que la varianza de Zi es la unidad. En el caso de variables estandarizadas se utilizará la misma notación Yi para referirse a la i-esima componente principal y (λi,ei) al par de valores y vectores propios de la matriz de correlaciones, ρ, o matriz de covarianzas Σ. Sin embargo, (𝛌i,ei) derivado de la matriz de covarianzas Σ en general no son las mismas que las derivadas a través de la matriz de correlaciones. Teorema 4. La i-esima componente principal de variables estandarizadas Z=[Z1,Z2,….,Zp] con una matriz de covarianzas cov(Z)=ρ esta dada por:

Yi=𝐞itZ=𝐞i

t[(V1/2)-1](X-μ) i=1,…..,p De forma matricial, (V1/2)-1 es una matriz diagonal con cada uno de los componentes de la diagonal igual a la desviación estándar de la j-esima variable, 1/√σjj. Ademas:

∑ Var(Yi )

p

i=1

= ∑ Var(Zi )

p

i=1

= p

Page 57: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 56

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Las covarianzas entre las variables estandarizadas y las componentes principales esta definida como:

ρYi,Zk=eik√λi i,k=1,2,…..,p

En este caso (λ1,e1), (λ2,e2),….., (λp,ep) son los pares de valores y vectores propios de la matriz de correlaciones ρ dada la característica de λ1≥λ2,….. ≥λp≥0. La varianza total poblacional (variables estandarizadas) es simplemente p, la suma de los elementos de la diagonal de la matriz de correlaciones ρ. Con variables estandarizadas Z en vez de variables sin estandarizar (X) es posible encontrar la proporción de varianza total explicada (VTE) por la k-esima componente principal de Z como:

VTE = λk

p k=1,2,……,p

Ejemplo. Suponga la siguiente de matriz de covarianzas, Σ, con variables aleatorias X1, X2:

Σ = [𝟏 𝟒𝟒 𝟏𝟎𝟎

]

Y una matriz de correlaciones, ρ, asociada:

𝛒 = [𝟏 𝟎. 𝟒

𝟎. 𝟒 𝟏]

Se calularon los pares de valores y vectores propios en STATA con la siguiente sintaxis: pcamat covarianza, n(0) names(x1 x2) components(2) covariance

Page 58: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 57

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para la matriz de covarianzas, ρ, y para la matriz de correlaciones, Σ, se utilizó: pcamat correlaciones, n(0) names(x1 x2) forcepsd components(2). Grafico. Comparación resultados de PCA con matriz de covarianzas y correlaciones CORRELACIONES COVARIANZAS

a. Matriz de covarianzas Los valores y vectores propios de la matriz de covarianzas, Σ, se tienen que: λ1=100.16 𝐞1

t =[0.04, 0.99] λ2= 0.84 𝐞𝟐

𝐭 =[0.99,-0.04]

Las componentes principales se convierten en: Y1=e1

t 𝐗=0.04X1+0.99X2

Y2=e2t 𝐗=0.99X1 - 0.04X2

Page 59: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 58

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

b. Matriz de correlaciones Los valores y vectores propios de la matriz de correlaciones, ρ, se tiene que: λ1=1+ρ=1.4 𝐞1

t =[0.707, 0.707] λ2=1-ρ= 0.6 𝐞𝟐

𝐭 =[0.707,-0.707] Las componentes principales se convierten en:

Y1=e1t 𝐗=0.707X1+0.707X2

Y2=e2t 𝐗=0.707X1 - 0.707X2

Por ejemplo, para la primera componente, Y1, se tiene que:

Y1=0.707Z1+0.707Z2=0.707[X1−μ1

1]+0.707[

X2−μ2

√100]

Para la segunda componente Y2, se tiene que:

Y2=0.707Z1+0.707Z2=0.707[X1−μ1

1]-0.707[

X2−μ2

√100]

Dada la diferencia de las varianzas observadas por los valores propios (λ1=100.16 y λ2=0.84), la variable X2 domina completamente la primera componente principal (Y1) determinada por la matriz Σ. Ademas, La primera componente principal explica una proporción de la varianza poblacional de 99.2%, es decir:

λ1

λ1 + λ2=

100.16

100.16 + 0.84= 0.992

Cuando las variables están estandarizadas, sin embargo, el resultado de las variables contribuye de igual manera a las

Page 60: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 59

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

componentes principales determinadas por la matriz de correlaciones ρ. Utilizando el TEOREMA 4 se puede obtener que la correlación entre la variable estandarizada Z1 respecto a la primera componente principal se calcula como:

ρY1,Z1=e11√λ1=0.707√1.4=0.837

La correlacion entre la variable estandarizada Z2 respecto a la segunda componente principal se calcula como:

ρY1,Z1=e21√λ1=0.707√1.4=0.837

En el caso de la primera componente principal explica una proporción de 70% dela varianza total estandarizada, es decir:

λ1

p=

1.4

2= 0.7

La importancia relativa de las variables, por ejemplo, la primera componente principal se ve significativamente afectada por la estandarización. Cuando la primera componente principal se obtiene de la matriz de correlaciones ρ esta expresada en términos de X1 y X2, las magnitudes relativas calculadas de las ponderaciones son 0.707 y 0.707, valores equilibrados, que están en oposición directa a aquellas ponderaciones 0.04 y 0.99 obtenidas de la componente principal calculada por la matriz de covarianzas Σ.

Page 61: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 60

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El ejemplo precedente demuestra que los componentes derivados de la matriz de covarianzas Σ son diferentes a los derivados de la matriz de correlaciones 𝛒. Ademas, se puede establecer que los componentes principales no es una función simple de otra. Es decir, efecutar el proceso de estandarización tiene consecuencias en el cálculo y conclusiones. Las variables deberían estar estandarizadas si ellas están medidas en escalas con amplios rangos de diferencia o unidades de medida que no son fácilmente comparables. Por ejemplo, Si X1 representa ventas anuales en un rango de $10.000 y $350.000 y X2 es la razón de rentabilidad sobre el activo (ingreso brutos/total de activos) que se encuentra en un rango de 1.0% y 6.0%. Si se calcula utilizando la matriz de covarianzas, Σ, la variación total será exclusivamente correspondiente a las ventas anuales. En este caso se debe esperar una sola primera componente muy importante (recoge la mayor cantidad de varianza explicada) con una alta ponderación para X1. Alternativamente, si ambas variables están estandarizadas, sus magnitudes pueden ser del mismo orden, y X2 o (Z2) juega un rol importante en la construcción de los componentes principales.

Page 62: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 61

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1.8. COMPONENTES PRINCIPALES PARA MATRICES DE COVARIANZAS CON ESTRUCTURAS ESPECIALES

Existen ciertos patrones sobre la matriz de covarianzas o correlaciones donde los componentes principales pueden ser expresados en formas simples. Suponga la matriz diagonal de covarianzas, Σ, es decir:

Si se tiene un vector propio de la forma 𝐞i

t=[0,0,….,1,….,0,0] con un uno (1) en la posición i-esima se observa que:

O visto de otra manera Σei=𝛔iiei. Se puede concluir de lo anterior que (𝛔ii,ei) es el par valor propio vector propio. Puesto que la combinación lineal 𝐞i

tX=Xi, por tanto, se establece que el conjunto de componentes principales corresponde al total de variables original aleatorias no correlacionadas. Con una matriz diagonal de covarianzas, Σ, no se gana nada extrayendo componentes principales.

Page 63: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 62

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Desde otro punto de vista, si X esta distribuido Np(μ,Σ), el contorno de la densidad constante son elipsiodes donde los ejes cartesianos se encuentran en la dirección de la maxima varianza. Consecuentemente no es necesario rotar las coordenadas del sistema. Si se desea efecuar estandarización de las variables, este procediento substancialmente no altera la situación para una matriz diagonal de covarianzas, Σ. En este caso se llega a que la matriz de correlaciones, ρ, es iguala a la matriz identidad de orden pxp, o mejor ρ=I. De este modo, si ρei=1ei, el valor propio de uno (1) que pertenence al vector de valores propios e es multiplicado por el correspondiente coeficiente de correlacion ρ, asi las cosas, 𝐞i

t=[0,0,…..,1,…..,0,0] con i=1,2,…,p son elecciones convenientes para los valores propios. Consecuentemente, las componentes de la matriz de correlaciones ρ son también las variables originales Z1,…Zp. Otro patrón de matriz de varianzas y covarianzas, Σ, el cual describe algún tipo de correlación entre variables, tiene la siguiente forma general:

La matriz de correlaciones, ρ, resultante es:

Page 64: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 63

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es también la matriz de covarianzas de variables estandarizadas. La matriz de correlaciones anterior implica que las variables X1,X2,….,Xp estan igualmente correlacionadas. Para este caso, los p valores propios de la matriz de correlaciones correspondiente pueden ser divididos en dos grupos. Cuando el coeficiente de correlacion ρ es positivo, el más grande es:

λ1=1+(p-1)ρ Con vectores propios asociados:

Los restantes (p-1) valores propios son:

λ2= λ3=……….=λp=1-ρ Los restantes vectores propios son:

La primera componente principal sobre variables estandarizadas corresponde a:

Page 65: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 64

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es proporcional a la suma de p variables estandarizadas y puede ser juzgada como un índice con igual ponderación. Esta componente principal explica una proporción del total de la varianza de la población como:

Si λ1/p=ρ para la correlacion cercana a uno (1) o p muy grande. Por ejemplo, si la correlacion es ρ=0.8 y el numero de variables p=5, la primera componente explica el 84% del la varianza total. Cuando la correlación es cercana a uno, ρ=0.8, las ultimas p-1 componentes colectivamente contribuyen muy poco a la varianza total y muchas veces pueden ser ignoradas. En este caso especial, retener únicamente al primera

componente principal Y1=(1/√p)[1,1,….,1]X, una medida de

tamaño total, explica la misma proporción de la varianza de la forma:

Si las variables están estandarizadas Z1,Z2,…,Zp tienen una distribución normal multivariante con matriz de covarianzas dada por:

Page 66: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 65

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Las elipsoides de densidad son constantes, con el eje principal proporcional a la primera componente principal

Y1=(1/√p)[1,1,….,1]Z,. Esta componente principal es la

proyección de Z sobre el plano 1t =[1,1,….,1] . El eje secundario (y restantes componentes principales) ocurren de forma simétrica y esférica en dirección perpendicular al eje principal (y la primera componente principal). 1.9. COMPONENTES PRINCIPALES A PARTIR DE UNA MUESTRA La matriz de covarianzas, Σ, por ser desconocida, no puede ser usualmente utilizada directamente en los cálculos. En la práctica, se usa la matriz de covarianzas estimada, S, a partir de una muestra observada de n individuos. Esta matriz constituye una estimación de Σ, por tanto, los resultados obtenidos con ella constituyen estimaciones de los valores poblacionales. Sin embargo, es necesaria una muestra aleatoria cuyo tamaño n sea mayor que el número p de variables consideradas. El hecho de usar la matriz de covarianzas muestrales, S, en vez de la matriz de covarianzas poblacionales, Σ, puede eventualmente acarrear complicaciones de tipo computacional.

Page 67: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 66

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Suponga x1,x2,…,xn representan n variables independientes de alguna población p-dimensional con vector de media μ y matriz de covarianzas, Σ. Estos datos arrojan una media muestral, ��, la matriz de covarianza muestral S y la matriz de correlaciones muestrales R. El objetivo es construir combinaciones lineales no correlacionadas entre si de las medidas características que cuentan en mayor medida con la variación en la muestra. La combinación no correlacionada de variables que explican la varianza serán llamadas componentes principales muestrales. La combinación se encuentra descrita como: 𝐚𝟏

𝐭 x=a11,xj1+a12xj2+………+a1pxjp para j=1,2,….,n

Tiene una media muestral a1t �� y varianza muestral a1

t 𝐒a1 . Tambien, los pares (a1

t ��, a2t ��), para dos combinaciones lineales

tienen la covarianza muestral a1t 𝐒a2 .

Los componentes principales muestrales están definidos como aquellas combinaciones lineales las cuales tienen máxima varianza muestral. Como para las cantidades poblacionales, se tiene que reescribir

los coeficientes de los vectores para satisfacer 𝐚𝐢𝐭𝐚𝐢 =1.

Especificamente:

Page 68: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 67

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Primera componente principal muestral

= Combinacion lineal a1t xj que

maximiza la varianza muestral de

a1t xj sujeto a 𝐚𝟏

𝐭 𝐚𝟏 =1.

Segunda componente principal muestral

= Combinacion lineal a2t xj que

maximiza la varianza muestral de

a2t xj sujeto a 𝐚𝟐

𝐭 𝐚𝟐 =1 y la covarianza muestral de los pares COV(a1

t xj, a2t xj)=0.

:::::: :::::: :::::: ::::::

i-esima componente principal muestral

= Combinacion lineal aitxj que

maximiza la varianza muestral de

aitxj sujeto a 𝐚𝐢

𝐭𝐚𝐢 =1 y la covarianza muestral de todos los pares COV(ai

txk, aitxj)=0 ∀k.

La primera componente principal plantea el siguiente problema de maximización:

MAXIMIZAR a1

t a1t 𝐒a1

S.A. 𝐚𝟏𝐭 𝐚𝟏 =1

La varianza corresponde al máximo valor propio, λ1, tal como se demostró para los resultados poblacionales. Lograda por la elección del vector propio ��1 de la matriz de covarianzas muestrales S.

Page 69: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 68

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La eleccion sucesiva de maximizar las ponderaciones ai sujeto la

función objetivo ait𝐒ek =ai

tλ1ek =0, o mejor perpendicular al

vector propio ��𝐤 .De este modo, se tiene el siguiente teorema. Teorema 5. Si S={sik} es una matriz de covarianza muestral de orden pxp con pares de valores y vectores propios

(λ1e1 ),( λ2e2 ),….,( λpep ), la i-esima componente principal esta

dada por:

yi = eit𝐱 = ei1x1+ ei2 x1+

…….+eipxp

Donde λ1≥λ2≥…….≥λp≥0 y x es cualquier observación de las

variables X1, X2,….,Xp. Tambien, se puede observar que:

Varianza muestral (yk )= λk para k=1,2,…..,p

Covarianza poblacional (yi , yk )=0 i≠k

Adicionalmente:

Varianza total muestral =∑ Siipi=1 = λ1 +λ2+…….+λp

El coeficiente de correlación entre la componente i-esima y la variable k-esima se calcula como:

ryi,xk=

eik√λi

√skk

Existe una notación diferenciada entre la visión poblacional y muestral. Se denotan los componentes principales muestrales

Page 70: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 69

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

como y1 , y2 ,….,yp independiente si son obtenidas por la matriz

de covarianzas muestrales S o de correlaciones muestrales R. El proceso de extracción de los componentes construidos de la matriz de covarianzas muestrales, S, o de la matriz de correlaciones muestrales, R, no son los mismos, en general y como se demostró para el caso poblacional, pero debe ser claro

del contexto la cual esta siendo utilizado, y la notación yi se mantiene. También es conveniente nombrar de manera adecuada los

vectores de coeficientes muestrales y el vector propio ��i y la

varianza de los valores propios λi para ambas situaciones. Los componentes principales muestrales pueden ser obtenidos de ��=S como estimaciones por máxima verosimilitud de valores poblacionales de la matriz de covarianzas Σ, si Xj esta normalmente distribuido. En este caso los valores propios de Σ son distintos y en estos casos los componentes principales muestrales como estimaciones máximo verosímiles de sus correspondientes contrapartes poblacionales. La matriz de covarianzas muestrales �� tiene valores propios [(n-

1)/n] λi y sus correspondientes vectores propios, ��i , donde

(λi , ��i ) son los pares de valores propios y vectores propios para la matriz de covarianza muestrales S.

Page 71: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 70

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De este modo, tanto la matriz de covarianzas muestrales S y la matriz de covarianzas estimada por máxima verosimilitud �� tienen la misma primera componente principal ��i

tx y la misma

proporción de la varianza explicada λ1 /(λ1 +λ2 + λp ).

Finalmente, ambas S y �� arrojan la misma matriz de correlaciones R asintoticamente, si las variables son estandarizadas la elección entre S o �� es irrelavante. Las observaciones xj son muchas veces centradas sustrayendo la media muestral, x. Esto no afecta la matriz de covarianzas muestrales y arroja la i-esima componente principal.

yi = ��𝐢𝐭(𝐱 − ��) i=1,2,….,p

Los componentes principales muestrales también puede ser obtenida de ��=S, la estimación por máxima verosimilitud de la matriz de covarianzas, Σ, si Xj esta normalente distribuida. Ejemplo 3. En el cálculo de un score de crédito se proporciona información sobre 5 variables sociodemográficas en el área de Bogotá y sus alrededores. Los datos corresponden a 6100 potenciales clientes. Los datos de la muestra seleccionada tienen las siguientes estadísticas:

Page 72: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 71

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

X1 X2 X3 X4 X5 ��t = 4.47 3.96 71.42 26.91 1.64 Variable Total

poblacional Grado

profesional Edad por empleado

Empleado del gobierno

Valor medio de vivienda

Medida Cientos (porcentaje) (porcentaje) (porcentaje) Cientos

La matriz de covarianzas muestrales de la forma:

Se puede resumir la información anterior en uno o dos componentes principales? La operatividad de STATA parte de una matriz creada en Excel la importa a STATA, posteriomente los datos son convertidos en una matriz a través del comando mkmat var1 var2 var3 var4 var5, matrix(ejercicio) rowprefix(Matriz) Donde genera una matriz llamada ejercicio. Posteriomente, ejecuta en análisis de componentes principales utilizando la sentencia pcamat ejercicio, n(0) names(x1 x2 x3 x4 x5).

Page 73: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 72

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Tabla 2

La primera componente explica el 67.7% de la varianza muestral. Las primeras dos componentes, colectivamente explican el 92.8% del total de la varianza. Consecuentemente, la variacion muestral es resumida muy bien por las dos componentes principales sin mayor pérdida de información. La primera componente aparece esencialmente como una diferencia ponderada para esta base de variables sociodemográficas entre el porcentaje del empleo del gobierno (x4) y edad por empleado (x3). La segunda componente aparece como una suma ponderada de las dos. Las componentes poblacionales, los coeficientes ��ik

t y las correlaciones r

yi xk deben ser examinados en cada uno de los

componentes principales para efectuar una adecuada interpretación.

Page 74: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 73

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Cada componente de los vectores propios ei=[e1i, e2i,… epi] debe ser analizada en la medida que corresponden a la magnitud de la componentes del vector propio i-esimo, eki, que mide la importancia de la k-esima variable en la i-esima componente principal sin relacionar las demás variables. En particular, eki es proporcional al coeficiente de correlación entre yi y xk. Este análisis debe hacerse obligatoriamente con la primera componente, es decir, ek1 que mide la importancia de la k-esima variable en primera componente principal, además especifica eki el coeficiente de correlación entre yi y x1.

1.10 IDENTIFICACIÓN DE LOS COMPONENTES PRINCIPALES

Cuántos factores son suficientes para una buena representación de un problema? Tal vez los dos más extendidos son: a. El criterio de Kaiser, según el cual se deben retener tantos

factores como valores propios de la matriz de covarianzas Σ estén por encima del promedio de varianza total sobre componentes existentes (VT/P).

b. Otro criterio, quizás más natural y lógico, consiste en retener tantos factores como sean necesarios para lograr un alto porcentaje de explicación de la varianza total. Para ello se usan los porcentajes acumulados de los valores propios con base en la varianza total del problema, junto con un criterio personal acerca de qué se considera un buen porcentaje de explicación.

Page 75: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 74

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Habitualmente, se conservan sólo aquellos componentes que recogen la mayor parte de la variabilidad, hecho que permite representar los datos en dos o tres dimensiones si se conservan dos o tres ejes principales, pudiéndose identificar entonces grupos naturales entre las observaciones. Si la varianza poblacional se encuentra concentrada en un 80% en las dos o tres componentes es posible trabajar con estas variables sin mayor perdida de información. La herramienta grafica de verificación utiliza el gráfico de sedimentación (scree plot) para determinar el peso de los componentes principales dentro de la varianza explicada. Grafico. Scree plot

valor

Valor propio

Page 76: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 75

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1.11. PRUEBAS ESTADÍSTICAS

PRUEBA DE ESFECICIDAD DE BARLETT Antes de aplicar el análisis de componentes principales debe comprobarse si es necesario, es decir, si la correlación entre las variables analizadas es lo suficientemente grande como para justificar la factorización de la matriz de coeficientes de correlación. Esta comprobación puede hacerse mediante la prueba de Bartlett (1950), que parte de la hipótesis nula que la matriz de coeficientes de correlación muestral, R, no es significativamente distinta de la matriz identidad. Ho: R=I H1: R≠I Bartlett calcula un estadístico basado en el valor del determinante de la matriz de coeficientes de correlación, R, del siguiente modo:

Donde k es el rango de la matriz que corresponde al número de variables, n es el tamaño de la muestra y |R| es el determinante de la matriz de correlaciones donde el estadístico de contraste es una distribuida χ2. El test de Bartlett tiene un gran inconveniente. Tiende a ser estadísticamente significativo cuando el tamaño muestral n crece (n→∞) o asintóticamente significativo. Algunos autores advierten que únicamente se utilice cuando la razón n=k sea menor que 5.

Page 77: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 76

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PRUEBA KMO Definicion. Coeficiente de correlacion parcial. Permite conocer el valor de la correlación entre dos variables A y B, si la variable C permance constante para la serie de observaciones consideradas. El índice de Kaiser-Meyer-Olkin o medida de adecuación muestral KMO tiene el mismo objetivo que la prueba de Bartlett, trata de saber si es posible factorizar las variables originales de forma eficiente. El punto de partida, al igual que con al prueba de esfericidad de Barlett, es la matriz de correlaciones muestrales, R, entre las variables observadas. Las variables pueden estar relativamente correlacionadas, pero la correlación entre dos de ellas puede estar influenciada por las otras. El índice KMO compara los valores de las correlaciones lineales simples y parciales. Al comparar la magnitud de los coeficientes de correlación simple y parcial determina el impacto entre variables. El estadístico KMO varía entre 0 y 1. Si el índice KMO está próximo a 1, el ACP tiene sentido. Si el índice es bajo (próximo a 0), el ACP no será irrelevante. El estadístico tiene la siguiente forma:

Page 78: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 77

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde rij es el coeficiente de correlación lineal simple entre las variables i-esima y j-esima y sij es el coeficiente de correlación parcial entre las variables i-esima y j-esima. Existen dos escenarios: a. Si el coeficiente de correlación parcial es cercano a cero,

sij≅0, muestra que no existe relación entre las variables i-esima y j-esima de forma directa. Sin embargo, si existe un factor común a explicar entre todas las variables visto en la correlacion lineal simple. Su resultado es el estadistico de ajuste igual a uno, KMO≅1.

b. Si el coeficiente de correlación parcial es cercano a uno, sij≅1, indica que las variables NO están midiendo un factor común, únicamente la relación directa entr las variables i-esima y j-esima, por tanto, el estadistico de ajuste es igual a cero, KMO≅0.

Algunos autores han definido una escala para interpretar el índice KMO de un conjunto de datos.

KMO CRITERIO

0.00 to 0.49 inaceptable

0.50 to 0.59 Bajo

0.60 to 0.69 Mediocre

0.70 to 0.79 Medio

0.80 to 0.89 Meritorio

0.90 to 1.00 Excelente

Page 79: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 78

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

1.12. CONCLUSIONES

Los resultados encontrados por el método de análisis de componentes principales pueden resumirse en las siguientes conclusiones: 1. La varianza total es igual a la suma de los valores propios de

Σ. Es decir, la varianza total es la misma con las variables originales que con las variables transformadas, Fi.

2. Las componentes principales son variables aleatorias no correlacionadas entre sí obtenidas mediante transformaciones lineales ortogonales de las variables originales centradas. Esto es: Fj=ajX=aj1X1+ aj2X2+….+ aj2X2 para j=1,2,….p

3. Si todas las variables originales Xi son normalmente distribuidas entonces todas las componentes principales son normales.

Page 80: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 79

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

MODELOS DE DATOS PANEL LINEALES

Page 81: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 80

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

I. INTRODUCCIÓN En el análisis de información (financiera, económica, empresarial, comercial, etc.) pueden existir diferentes dimensiones sobre las cuales se podría estar interesado en la estimación de modelos que traten de extraer relaciones de causalidad o comportamiento. Una de estas dimensiones la constituye el análisis de series de tiempo, la cual incorpora información de variables individuales durante un período determinado (ventana temporal). Por otra parte, existe otra dimensión, independiente a la anterior, que no incorpora el aspecto temporal sino que representa el análisis de información para unidades individuales de estudio en un momento determinado del tiempo (dimensión estructural). En este tipo de análisis, o corte transversal, cada elemento no lo constituye el tiempo sino las unidades de análisis. Desde un punto de vista de corte transversal o dimensión estructural, se podría, por ejemplo, modelar de forma estructural los ingresos de las firmas del sector asegurador (I). Un análisis de regresión basado en datos de corte transversal para un año en particular podría incluir una serie de variables explicativas tales como calidad de la gestión de la administración (G), monto monetario del capital liquido (K), costos asociados a mano de obra en número de horas (L), nivel de apalancamiento financiero (A) y un término de error estocástico (uit). Con la

Page 82: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 81

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

información incluida, el modelo de corte transversal se podría expresar como2: I=β0+ β1G+β2K+β3L+β4A+uit Sin embargo, este modelo no podría identificar, o tomar en cuenta, como la variable explicativa del ingreso (I) puede identificar cualquier incremento en la productividad que pueda ocurrir en el transcurso del tiempo como consecuencia de mejoras tecnológicas, aprendizaje o procesos que hayan sido incorporados. De otro lado, desde una dimensión temporal o una visión de series de tiempo, o modelo ARIMA, para este mismo ejemplo, se podría determinar una estructura dinámica del comportamiento de los ingresos (It) sobre una ventana temporal que depende del comportamiento anterior de la variable k periodos atrás, así como de los errores o innovaciones pasadas (uit). La estructura del modelo es la siguiente: It=ϕ1It-1+ϕ2It-2+……….+ ϕkIt-k+θ1uit-1+ θ2uit-2

……….+ θkuit-k Este modelo no tendría en cuenta la relación con otras variables que pueden determinar su comportamiento, es decir, excluye del análisis la gestión de la administración (G), monto monetario del capital liquido (K), costos asociados a mano de obra en número

2 Si se deseara utilizar variables rezagadas sobre una variable endógena, por ejemplo, considere el siguiente modelo de rezagos distribuidos de Almon:

Donde xt es una variable exógena y ut es un término de perturbación estocástica. En general, las variables rezagadas xt y xt-1 son cercanas. Adicionalmente, si se desea observar el cambio de la variable x en el tiempo entonces se tiene que xt-1+∆xt-1= xt-1+(xt-1- xt-2)=2xt-1-xt-2. Esta estructura expone un alto componente de colinealidad entre variables. En general, no existe suficiente información para efectuar una estimación precisa sin supuestos a priori.

Page 83: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 82

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

de horas (L), nivel apalancamiento financiero (A) como variables de estudio. Ambos tipos de análisis de información independientemente permiten extraer conclusiones, sin embargo, los modelos de corte transversal (análisis de regresión) y series de tiempo (serie temporal) tienen ciertas limitaciones inherentes a su estructura. Para el primero, no arrojan luces sobre dependencia intertemporal de eventos, tampoco resuelven satisfactoriamente problemas fundamentales acerca de los orígenes de la persistencia en el comportamiento, es decir, del verdadero estado de dependencia entre variables o individuos o si su causa es de origen espurio, siendo una metodología que no permite controlar comportamientos heterogéneos de la población. Para el segundo, su metodología no asume una forma estructural, únicamente temporal, su principal utilidad radica en la potencia frente de pronóstico de corto plazo. Un modelo de datos panel incluye una muestra repetida de entidades (individuos, empresas, bancos, ciudades, países, etc) para un período determinado de tiempo, esto es, combina ambos tipos de datos (dimensión temporal y estructural). Las estructuras panel son mas informativas que una serie de tiempo agregada, en la medida narra una historia individual. Por ejemplo, una serie de tiempo analiza el comportamiento histórico de la tasa de desempleo del 10% al año. Sin embargo, es

Page 84: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 83

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

menos informativa que un panel de individuos, en la medida que con una tasa del 10% desempleado puede ser que exista del total de la población un total del 10% desempleado aleatoreamente distribuido o que siempre exista el mismo tipo de personas que corresponde al 10% de la población desempleada. Las políticas son distintas. Para obtener, por ejemplo, un panel sobre desempleo se cuenta con variables exógenas como salarios, sector, horas trabajadas, etc. Se selecciona aleatoriamente a un conjunto de individuos de la población en un momento del tiempo y se recoge esa información. En otro momento (próximo mes, trimestre, año) se debe realizar la misma entrevista a los mismos individuos. Este es el típico procedimiento para construir bases de datos panel, por ejemplo, encuestas de hogares que permiten obtener información de interés para el mismo grupo de individuos en diferentes periodos. Una definición, un poco más formal, de datos panel, o datos longitudinales (longitudinal data), representa medidas repetidas en diferentes puntos del tiempo sobre la misma unidad individual, como por ejemplo, personas, firmas, estados, países. Con esta información se cuenta con un gran potencial en resolver problemas más allá del corte transversal o series temporales que no puede manejarse de manera satisfactoriamente indivudualmente.

Page 85: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 84

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Las regresiones panel pueden capturar variaciones sobre unidades desde dos puntos de vista distintos, el primero, similar a la regresión de corte transversal, el segundo, variación sobre el tiempo o estructuras dinámicas. La diferencia entre corte transversal y datos de panel radica en que en el segundo sigue a las mismas unidades registradas en el primero (individuos, familias, etc.), en distintos periodos de tiempo. Un panel entonces requiere observar al mismo conjunto de unidades en al menos dos momentos del tiempo diferentes.

ESTRUCTURA DE DATOS PANEL

Por ejemplo, pueden construirse paneles de hogares, firmas o países. Un ejemplo tradicional radica en las encuestas sobre hogares (en Colombia la Encuesta Nacional de Hogares -ENH). Suponga que se comienza en el año 1968 con 4802 familias, incluyendo hogares pobres. Se efectúan entrevistas anuales donde se observan conductas y características socioeconómicas de cada familia y de aproximadamente 31.000 individuos

TE Y X t-1 t-2 t-3 t-n

y1 x1y2 x2

E1 y3 x3: :yn xny1 x1y2 x2

E2 y3 x3: :yn xn: : : : : : : :y1 x1y2 x2

Ek y3 x3: :yn xn

Page 86: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 85

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

quienes han sido registrados sobre la encuesta o derivados de las familias encuestadas. La lista de variables almacenada supera las 5.000. El objetivo es tener cinco (5) segmentos distintos de la fuerza de trabajo. La muestra original incluye 5.000 adultos 5.225 hombres jóvenes, 5.083 mujeres adultas, 5.159 mujeres jóvenes y 12.686 niños. Se analizan por negros, indígenas, desplazados, militares y menores de 18 años. Combinando estos datos proporciona una rica y valiosa fuente de variación la cual permite estimaciones más eficientes de los parámetros. Adicionalmente, más información muestral, implica estimaciones más confiables y pruebas más sofisticadas de modelos de comportamiento. Con menos supuestos restrictivos. Otra ventaja, de las bases de datos panel es su habilidad para controlar la heterogeneidad individual. No controlar estos efectos individuales no observados específicos conduce a sesgo e inconsistencia en los resultados estimados. Las bases de datos panel son también mejores para identificar y estimar efectos que no son detectables en series de tiempo o cortes trasversales puros. En particular, los conjuntos de paneles de datos permiten de mejor manera estudiar problemas complejos de comportamiento dinámico.

Page 87: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 86

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Por ejemplo, un modelo de corte transversal puede estimar la tasa de desempleo en un punto en particular en el tiempo. Cortes transversales repetidos en el tiempo pueden demostrar cómo esta proporción cambia sobre el tiempo. Únicamente bases de datos panel pueden estimar que proporción de aquellos que están desempleados en un periodo permanezcan desempleados en otro periodo y determinar sus causas. El principal objetivo de aplicar y estudiar datos panel, es capturar la heterogeneidad no observable, ya sea entre individuos o entidades, así como también en el tiempo, dado que esta heterogeneidad no se puede detectar ni con estudios de series temporales ni con estructuras de corte transversal. En términos más formales. Suponga una estructura básica del modelo de regresión de la forma:

yit=Xitβ+Ziα+uit Los K regresores de Xit no incluyen el termino constante. La heterogeneidad o efecto individual es Ziα donde Zi contiene un termino constante y un conjunto de variables especificas individuales las cuales pueden ser observadas (sexo, raza, religión) o no observadas (habilidades, preferencias, etc). Esta técnica permite realizar un análisis dinámico, al incorporar la dimensión temporal de los datos estructurales, lo que enriquece el estudio, particularmente en períodos de grandes cambios.

Page 88: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 87

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La principal ventaja de los paneles de datos es el incremento de la precisión en el proceso de estimación. Este es el resultado de aumentos en el número de observaciones al combinar o agregar diferentes periodos de tiempo para cada individuo vistos desde una regresión de corte transversal. La aplicación de esta metodología permite analizar dos aspectos de suma importancia y forman parte de la heterogeneidad no observable. 1. Los efectos individuales específicos. Son aquellos que afectan

de manera desigual a cada uno de los individuos de estudio contenidos en la muestra (consumidores, empresas, bancos, etc), los cuales son invariantes en el tiempo e impactan de manera directa las decisiones que tomen las unidades individualmente. Usualmente se identifica este tipo de efectos asociados a sexo, raza, capacidad empresarial, eficiencia operativa, capitalización de la experiencia, acceso a la tecnología, productividad, management, etc.

2. Efectos temporales. Son aquellos que impactan por igual a todas las unidades individuales pero que varían en el tiempo. Este tipo de efectos pueden asociarse, por ejemplo, a impactos regulatorios, innovaciones tecnológicas o en variables macroeconómicas, cambios en tasas de interés o aranceles que pueden afectar por igual a todas las empresas o entidades que tienen una evolución o trayectoria dinámica.

Page 89: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 88

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

II. ESPECIFICACIÓN GENERAL DE UN MODELO DE DATOS DE PANEL

La especificación de un modelo de datos panel parte de las siguientes características: yit = αit + Xitβ + uit con i = 1,......,N y t = 1,...,T. Donde el subíndice i se refiere al individuo o a la entidad de estudio (corte transversal), t a la dimensión en el tiempo (serie temporal). El parametro, α es un vector de interceptos correspondiente al total de individuos (i) con variación en el tiempo (t), es decir, existen NxT parámetros, Xkit es la i-ésima observación al momento t-esimo para la K-esima variable explicativa x que pertenece al vector de variables explicativas X, β es un vector de tamaño Kx1 con K parámetros correspondiente a cada una de las variables explicativas, por ultimo, yit es la i-ésima observación al momento t-esimo para la variable respuesta o dependiente y. La muestra total de las observaciones en el modelo vendría dado por el número de individuos multiplicado por el número de periodos de análisis (NxT)3. Por otra parte, es usual interpretar modelos de datos panel a través de sus componentes en el término de error. Al término de error de la ecuación anterior, uit, se le suele llamar error compuesto dado que tiene un componente fijo no observado entre individuos y otro que cambia en el tiempo.

3 A partir de este modelo general, y con base en ciertos supuestos y restricciones acerca del valor de algunos de los parámetros, se pueden derivar otras variantes de modelos datos panel.

Page 90: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 89

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es decir, el término uit incluido en la ecuación de regresión panel, puede descomponerse de la siguiente manera:

uit = μi + δt + εit

El primer término, conocido como heterogeneidad no observada de la muestra, μi, representa efectos no observables que difieren entre individuos o entidades de estudio pero no en el tiempo. Corresponde a un efecto por individuo invariante periodo a periodo, y corresponde a un vector conformado por las variables constantes en el tiempo capturadas por el término de error. Por ejemplo, la variable sexo es un componente de heterogeneidad individual que puede ser no observada en un análisis. El segundo término, δt, se le identifica con efectos no observables que varían en el tiempo pero no entre las unidades de estudio. Por ejemplo, cambios regulatorios que afectan a todos los individuos desde su periodo de expedición. Por último, εit se refiere al término de error puramente aleatorio que tiene componentes por individuo y tiempo. Tiene las caracteresiticas similares al componente del error de corte transversal. La mayoría de las aplicaciones con datos panel modelan el componente de error, uit, para efectos no observables entre individuos que no varían en el tiempo (μi≠0), pero no efectos de

Page 91: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 90

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

cambio en el tiempo (δt=0), este modelo conocido como de un factor o one way. Las diferentes variantes para el modelo one way de componentes de errores surgen de distintos supuestos que se hacen acerca de efectos no observables que difieren entre las unidades de estudio (μi). Pueden presentarse tres (3) posibilidades: 1. Considera a μi=0, es decir, no existe heterogeneidad no

observable entre los individuos, entidades o firmas. Dado lo anterior, el término de error, uit, satisface todos los supuestos del modelo lineal general, por lo cual, el método de estimación de mínimos cuadrados (OLS) produce los mejores estimadores lineales insesgados (BLUE).

2. Considera a μi≠0, es decir, existe heterogeneidad no observable entre individuos, entidades o firmas. Considera a μi con un efecto fijo sobre los regresores y distinto para cada firma. En este caso, la heterogeneidad no observable se incorpora a la constante del modelo.

3. Considera a μi≠0, es decir, existe heterogeneidad no observable entre los individuos, entidades o firmas. Considera a μi como una variable aleatoria no observable que varía entre individuos pero no en el tiempo.

En los casos dos y tres se utilizaran metodologías especiales de estimación para datos panel que serán expuestas más adelante. Existe, además de la estructura de un factor o one way, el modelo de dos factores o two-way en el cual el componente de error ademas de la estructura de modelamiento individual no observado (μi≠0) incorpora el efecto no observable que varían

Page 92: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 91

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

en el tiempo pero no entre las unidades de estudio es distinto de cero (δt≠0). El modelo de dos factores o two way pretende capturar efectos temporales específicos (innovaciones) sumándolos a la medición de efectos no observables que difieren entre las entidades de estudio pero no en el tiempo que no están incluidos en la regresión (δt≠0 y μi≠0), Balgati (2001). ESTRUCTURA DATA PANEL SEGÚN TÉRMINO DE ERROR Método de estimación

Efecto no observado OVERVIEW DE METODOS DE PANELES DE DATOS Distintas caracteristicas en la construcción de modelos de datos panel se pueden configurar según la disponibilidad de las observaciones individuales, asi como de sus intervalos de tiempo y estructura de los errores o innovaciones. Por ejemplo, se pueden observar los siguientes casos: 1. Modelo A. Las pendientes de los coeficientes, β, y el

intercepto, α son constantes en el tiempo (t) e iguales para todos los individuos (i), conocido como modelo restringido:

Page 93: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 92

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

2. Modelo B. Las pendientes de los coeficientes, β, son

constantes en el tiempo (t) y los individuos (i). El intercepto, α, varia sobre los individuos (i):

3. Modelo C. Las pendientes de los coeficientes, β, son

constantes para los individuos (i) y el tiempo (t). El intercepto, α, varia sobre los individuos (i) y el tiempo (t):

4. Modelo D. Las pendientes de los coeficientes, β, varían sobre

los individuos (i) pero no sobre el tiempo. El intercepto, α, varia sobre los individuos (i).

5. Modelo E. Las pendientes de los coeficientes, β, varían sobre el tiempo (t) e individuos (i). El intercepto, α, varia sobre el tiempo (t) y individuos (i). Se conoce como modelo no restringido:

Page 94: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 93

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Existen dos procedimientos para estimar el modelo en un sistema de datos panel. Cada uno de ellos parte del supuesto de endogeneidad, es decir, la dependencia entre términos de error y regresores (E[XU]=0). El primero, asume algún tipo de correlación entre regresores y términos de error (endogeneidad) e implica el reconocimiento que variables omitidas pueden generar cambios en los interceptos ya sea a través del tiempo o entre unidades de corte transversal. En este caso, el modelo es conocido como efectos fijos (Fixed Effects o FE). El otro modelo es efectos aleatorios, asume independencia entre regresores y términos de error al tratar de capturar estas diferencias a través del componente aleatorio (Random effects o RE) por medio de la estructura de covarianzas. La selección de Efectos Fijos (FE) o Efectos aleatorios (RE) tiene un impacto significativo en las metodologias de estimación y consistencia de los estimadores. Además, la variabilidad del intercepto, α, y las pendientes de los parametros, β, sobre los individuos (i) y el tiempo (t) tiene impacto en la estructura de covarianzas, y por tanto, impacto en los intervalos de confianza y pruebas de hipótesis.

Page 95: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 94

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Una revisión de los modelos para datos paneles lineales no dinámicos, y recopilar los puntos anteriores, se puede encontrar en el siguiente gráfico: MODELOS DE DATOS PANEL O CORTE LONGITUDINAL

La primera especificación (A) se refiere al caso en que no existe heterogeneidad no observable en la estructura de datos de panel, μi=0, por tanto, se emplea el método de Mínimos Cuadrados Ordinarios (OLS) con la ventaja de ganar grados de libertad.

Page 96: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 95

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En los casos en que se rechaza la hipótesis de homogeneidad entre individuos en un sistema de datos de panel, μi≠0, es decir, existe heterogeneidad no observable ya sea a través del tiempo, entre unidades de estudio (individuos) o en ambos sentidos, debe buscarse una especificación que la capture en forma apropiada con el fin de evitar el problema de sesgo e inconsistencia sobre los estimadores de los parámetros de las variables explicativas, Xit, que se cometería si se emplea la especificación A, o modelo restringido, cuando existe un efecto no observado (sesgo por variables omitidas). Una forma simple, y de hecho la más utilizada, es incorporar esta heterogeneidad no observada empleando los modelos de intercepto variable, identificados en las especificaciones con intercerto variable entre los individuos (modelo B) o con el intercepto variable en el tiempo y los individuos (modelo C). Estos modelos son ampliamente utilizados cuando se analizan datos panel lineales debido a que son estimables, a diferencia de los modelos D y E, proporcionan alternativas simples y generales sobre el supuesto de los parámetros y toman valores comunes para todos los individuos (i) en el tiempo. Los modelos B y C, donde varia el intercepto, parte de un modelo lineal para todos individuos (i) y tiempo (t). A partir del modelo general se pueden representar los modelos B y C mediante las siguientes ecuaciones:

Page 97: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 96

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Modelo B

Modelo C

El primer paso después de comprender los modelos panel de trabajo radica en identificar las variables explicativas observadas (Xk) en la base de datos panel de tres formas posibles: 1. Una variable que cambia en el tiempo y por individuo (Zit). Se

trata de variables que cambian entre individuos en un momento del tiempo, y que además cambian a lo largo del tiempo. Como ejemplo se pueden mencionar ingresos totales, nivel de beneficios, nivel de capital, razones financieras, entre otras.

2. Una variable por cada individuo, sin cambios en el tiempo (Zit=Zi). Este es el caso de variables que son las mismas para cada unidad de corte transversal a través del tiempo. Ejemplos de ellas se tienen características como sexo, religión y otras características sociodemográficas.

3. Una variable por periodo pero no cambia entre individuos (Zit=Zt). Son las mismas variables para todos los individuos en un momento del tiempo pero varían a lo largo del periodo de estudio. Como ejemplo, cambios en la actividad regulatoria, nivel de precios, tasas de interés, etc.

En conclusión, en una base de datos panel pueden existir distintos tipos de variables que son capaces de representar diferentes efectos.

Page 98: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 97

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se pueden tener variables invariantes en el tiempo (xit=xi), que no varían con los individuos (xit=xt) o que varían tanto con el tiempo como con los individuos (xit) que tienen un impacto directo y significativo en los procesos de estimación por paneles de datos. REGRESIÓNES AGRUPADAS, EFECTOS FIJOS Y ALEATORIOS Ya definidos los modelos de trabajo B y C en las especificaciones panel e identificadas las variables disponibles es necesario revisar la estructura de composición del término de error con el objetivo de implementar estrategias de estimación. Las más utilizadas son las siguientes: a. Regresión agrupada (pooled). Estima el siguiente modelo:

Es un modelo de estimación donde no existe diferenciación entre individuos y no intenta capturar efectos no observados. Utiliza técnicas tradicionales por OLS. Es posible por las características de la base de datos panel que E(xit,ui)≠0. Entonces, la regresión agrupada (pooled) estará sesgada. Muchas veces dicha correlación es debida a un error de especificación por la ausencia de alguna variable relevante (variables omitidas) o la existencia de cualidades no observables (heterogeneidad no observable) de cada individuo.

b. Regresión panel por Efectos fijos (Fixed effect o FE). Los

modelos de regresión de datos panel realizan distintas hipótesis sobre el comportamiento de los residuos, como ya

Page 99: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 98

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

se notó anteriormente. Esto tiene un impacto en las metodologías y supuestos sobre el modelo de regresión a implementar en un modelo one way. El modelo a estimar es:

Donde αi =α+vi, luego reemplazando en (2) queda:

Es decir, supone que el error (uit) puede descomponerse en dos partes, una parte fija, constante para cada uno de los individuos representando el efecto individual no observado (vi) y otra aleatoria que cumple requisitos OLS (uit). El elemento representando el efecto individual no observado (vi) se incorpora al intercepto para ser estimado posteriormente. Esta metodología permite modelar algún tipo de endogeneidad en los términos de error, a diferencia del modelo de regresión lineal general, es decir, E[XU]≠0 y efectuar estimaciones consistentes.

c. Regresión panel por aleatorios (random effects o RE). Tiene

la misma especificación que el modelo efectos fijos con la salvedad que el efecto individual no observado vi, en lugar de ser un valor fijo a ser estimado para cada individuo es una variable aleatoria con un valor medio vi y una varianza Var(vi)≠0. Es decir, la especificación del modelo es igual a:

Salvo que ahora el efecto individual no observado, vi , es una variable aleatoria. Su estructura parte del supuesto de

Page 100: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 99

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

exógeneidad fuerte E[XU]=0. Por tal motivo, además, con la existencia de n individuos distintos la estructura de covarianzas debe ser contemplada con el supuesto de heterocedasticidad a través de una estructura de covarianzas más general, ��. El modelo de efectos ale atorios (RE) es más eficiente pero menos consistente que el de efectos fijos (FE). Es decir, es más exacto en el cálculo del valor del parámetro pero puede contener sesgo a diferencia del modelo de efectos fijos.

Adicionalmente, Al ser el efecto individual no observado vi una variable aleatoria no se está seguro del valor exacto en el origen que pueda tener cada individuo sino que este término probablemente gravitará en torno a un valor central. Eso implica que el modelo parte del supuesto que la base de datos panel proviene de una muestra de un gran universo de individuos.

En conclusión, La principal diferencia entre los modelos de efectos fijos (Fixed effect o FE) y efectos aleatorios (random effects RE) parte de como cada uno de ellos efectua un tratamiento distinto del supuesto de exogeneidad fuerte, E[XU]=0. Ademas de estas diferencias se suma otra importante, el modelo de efectos fijos (Fixed effect o FE) en su construccion parte de una poblacion, mientras el modelo de efectos aleatorios (random effects RE) inicia desde una muestra aleatoria.

Page 101: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 100

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

VARIACION BETWEEN-WITHIN La variable dependiente y regresores del modelo de datos panel pueden variar sobre el tiempo (t) e individuos (i), como ya se ha definido. La variación en el tiempo de una variable x para un individuo es conocida como variación within y la variación de una variable x a través de individuos se conoce como variación between4. Variación Between Vs Within

Esta distinción tiene una significancia importante dentro del modelo de datos panel debido a que estimadores y variables difieren en su uso según la ponderación que se efectuá entre el efecto de variabilidad between o within. La variación total alrededor de la media se define como

x = 1/NT ∑ ∑ xitTt=1

Ni=1 la cual se divide en variación within

4 Esta metodología es conocida como estimación de dinámicas entre grupos. En análisis de corte transversal tradicional, cada observación captura información de su nivel de largo plazo y su componente cíclico. El estimador de efectos entre grupos (between) en términos generales reduce el problema de un panel longitudinal a uno de corte transversal, empleando el cálculo promedio de las variables al interior de cada individuo. El procedimiento general para obtener este estimador necesita calcular el promedio de la variable dependiente y de los regresores a lo largo del tiempo. Posteriormente, realiza una estimación OLS donde se usan como regresores y variable dependiente los promedios calculados en el paso 1.

Variacion Between

Variación Within ithinetween

Individuo 1

Individuo 2

Page 102: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 101

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

(suma respecto a los T periodos) y between (suma respecto a los N individuos). La variación within, para cada regresor, xit, se calcula como el promedio en el tiempo de cada uno de los individuos de la variable x (media de la variable x para el individuo i-esimo a

través del tiempo, xi = 1/T ∑ xitTt=1 )

La variación between mide las diferencias a través de los

individuos para la variable x (xi − x). Explota sólo la variación de corte transversal. A partir de la descomposición de promedios (x) y la varianza muestral (S) para la variable x es posible encontrar las variaciones between y within calculadas como: PROMEDIOS: Total:

x =1

NT∑ ∑ xit

T

t=1

N

i=1

En el grupo (WITHIN): xi =

1

T∑ xit

T

t=1

Entre grupos (BETWEEN): xiB =(xi − x)

VARIANZAS MUESTRAL En el grupo (WITHIN) o entorno a la media individual:

swithin= 2 =

1

NT−1∑ ∑ (xit − xi )2T

t=1Ni=1

Entre grupos (BETWEEN) o entorno al promedio de individuos respecto al total:

sbetween 2 =

1

N−1∑ (xi − x )2N

i=1

Page 103: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 102

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Total o entorno a la media total: stotal

2 =1

NT − 1∑ ∑(xit − x)2

T

t=1

N

i=1

En la mayoría de aplicativos es posible generar tablas donde se expone estadisticos descriptivos como máximo, mínimo, percentiles, varianza, etc. En STATA, por ejemplo, xtsum. CALCULO WITHIN BETWEEN STATA

EJERCICIO. Calcule la variación between, within y overall para la siguiente base de datos panel.

PERIODO INDIVIDUO Y X1 X2 X3

1 1 23 16 31 42 2 1 45 6.5 87 78 3 1 76 8 32 65 1 2 21 43 4 38 2 2 98 5 55 75 3 2 5 78 24 29

Es importante resaltar que variables para las cuales no existe cambio en el tiempo pero si entre individuos (zit=zi) como sexo, raza o religión existe variación between pero no cuentan con variación within.

Page 104: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 103

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Dentro del analisis de bases de datos panel es posible medir variaciones totales que corresponden al componente between y cero o muy pequeña variacion within. Para variables discretas, una tabulación de valores (histograma) puede ofrecer una visión completa de observaciones que toman ese valor (overall), individuos para los que alguna vez toma ese valor (between) y el porcentaje de individuos que nunca cambia de valor (within). A si mismo para variables dummy, se puede calcular una matriz de transición (ofrecen idea de persistencia dinámica de efectos observados) donde se exponga la evolución de la variable entre el periodo actual (xit) y el siguiente (xit+1) bajo la existencia (1) o no (0) del evento registrado. MATRIZ DE TRANSICION EFECTOS PANEL WITHIN BETWEEN

SESGO DE HETEROGENEIDAD Al incluir efectos between y within dentro del análisis y observar la significancia de la interacción entre individuosy tiempo entre variables e individuos surge la pregunta ¿que ocurre si este efecto se omite? El no contar con el efecto individual no observado, αi, y aplicar OLS a una base de datos panel se suele

Page 105: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 104

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

llamar sesgo de heterogeneidad. Surge de omitir una variable que difiere entre individuos pero no cambia en el tiempo. ANALISIS BETWEEN-WITHIN-OVERALL

El grafico anterior ayuda a comprender el sesgo por heterogeneidad. Suponga una muestra con 4 individuos (N=4) y 20 periodos de tiempo (T=20). Para el individuo i-esimo existe una pendiente idéntica y positivamente relacionada en una forma lineal entre Y y X. Para la muestra completa la relación es ligeramente descendente y lineal. Si el interés se centra en el modelo anterior, la estimación sobre todos los eventos de la muestra (overall) es un sesgo de heterogeneidad. Es decir, el sesgo en el proceso de estimación causado por omitir αi y aplicar OLS a datos agrupados (pooled).

VARIABLES OMITIDAS Y EFECTOS NO OBSERVADOS Si la heterogeneidad no observada no es controlada conduce al sesgo por variables omitidas que puede ser corregido por

Between Within

Overall

OLS/FGLS

Page 106: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 105

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

variables instrumentales (2LS) en el caso de corte transversal5. Para el caso de datos panel existen diferentes metodologías alternativas de tratamiento. Además de la ventaja que tienen los modelos de datos panel para construir y probar modelos de comportamiento más amplio que el puramente de corte transversal o series de tiempo, proporcionan medios para resolver o reducir la magnitud de problemas econométricos que se observan en estudios empiricos relacionados con la presencia de variables omitidas (no medidas o no observadas) que estan correlacionadas con variables explicativas. Utilizando información de la dinámica intertemporal, y de las entidades individuales, de una manera natural, se pueden incorporar efectos de variables omitidas o no observadas. Por ejemplo, suponga el siguiente modelo de regresion:

Donde xit y zit son vectores de tamaño k1X1 y K2X2 de variables exogenas, α*, β y ρ son vectores de parámetros de tamaño 1X1, k1X1 y k2X1, respectivamente. El término de error uit es una variable aleatoria, independiente e identicamente distribuida (vaiid) sobre individuos (i) y tiempo (t) con media cero y varianza σit

2 .

5 En la práctica es difícil encontrar buen un instrumento para le calulo del estimador de variables instrumentales ya que debe tener caracterisitcas a veces incompatibles como que revele información similar a la variable a reemplazar dentro del modelo de regresion y adicionalmente sea exógena frente a los regresores.

Page 107: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 106

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La regresión por mínimos cuadrados de yit sobre xit y zit arroja estimadores consistentes e insesgados de α*, β y ρ. Ahora suponga que valores de los regresores zit son no observables y la covarianza entre regresores xit y zit es no cero. Entonces, los coeficientes de regresión por minimos cuadrados de yit sobre xit son sesgados e inconsistentes. Sin embargo, si se encuentran disponibles observaciones repetidas para un grupo de individuos, ellas pueden permitir deshacerse de los efectos no observados de z. Por ejemplo, si los regresores zit=zi para todo t (es decir, los valores de la variable no observada, z, permanecen constantes a traves del tiempo pero cambia a traves de los individuos), es posible tomar la primera diferencia de las observaciones individuales sobre el tiempo y se obtiene:

Donde la diferencia de la variable respuesta para el individuo i-esimo entre el periodo actual (yit) y el anterior (yit-1), o mejor, (yit-yit-1), debe ser igual a la diferencia entre los regresores para el individuo i-esimo en los periodos t y t-1. Si se efectua la diferencia sobre los regresores zit se eliminan variables no observadas que no cambian en el tiempo, por ejemplo raza o sexo.

Page 108: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 107

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De forma similar, si zit=zt para todo i (es decir, los valores de z permanecen constantes a traves de los individuos pero varian a traves del tiempo), se puede tomar la desviacion respecto a la media a traves de los individuos en un periodo dado y obtener:

Donde el promedio aritmético de la variable respuesta para todos los individuos, y, en cada periodo de tiempo se define

como yt=(1/N)∑ yitNi=1 , por tanto, (yit-yt) es la diferencia entre la

respuesta de cada uno de los individuos (yi) respecto al promedio de todos los individuos (y) evaluados en cada periodo de tiempo (t). Para los regresores, aplica una fórmula similar, es el promedio aritmético de cada una de las observaciones de los individuos en

cada periodo de tiempo, y se define como ��t=(1/N)∑ 𝐱itNi=1 ,

donde (xit-xt) será la diferencia o desviación entre cada observación para cada individuo (i) respecto a su promedio en cada periodo de tiempo (t). Si se efectua la diferencia sobre los regresores zit se eliminan variables no observadas que cambian en el tiempo, pero si entre los individuos por ejemplo políticas o legislaciones. Es decir, esta metodología permite minimizar el número de variables no observadas que se encuentran ubicadas en la media temporal a través de la estructura panel.

Por último, ut=(1/N)∑ uitNi=1 es el promedio de las innovaciones

de todos los individuos en cada periodo, su diferencia (uit-ut)

Page 109: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 108

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

revela la distancia entre las innovaciones ocurridas en cada uno de los individuos (i) respecto al promedio de las innovaciones de los individuos calculadas en cada periodo de tiempo. La regresión por OLS de las ecuaciones anteriores proporcionan estimadores consistentes e insesgados de β como una alternativa de solución a efectos no observados y variables omitidas. Sin embargo, si se tiene un conjunto de datos de corte transversal con un unico individuo (i=1) y se cuenta con variables que no cambian en el tiempo pero si entre individuos (zit=zi), o una base de datos con un periodo de tiempo (t=1) con variables que no cambian entre individuos pero si en el tiempo (zit=zt), tal transformación no puede ser ejecutada, por tanto, no se puede asegurar la consistencia de β, a menos que existan variables instrumento (IV) que estén correlacionados con x pero no correlacionados con z y u. Es importante observar que a pesar de los cambios temporales, el valor de los parámetros β permanecen constantes. La diferencia también aplica a los términos de error. CORRELACIÓN SERIAL RESULTANTE DE EFECTOS CONSTANTES EN EL TÉRMINO DE ERROR Suponga el modelo de regresión panel con un efecto permanente no observado a través de los individuos (μi). Un problema de las estimaciones de datos panel radica en la posible correlación serial entre los errores de diferentes

Page 110: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 109

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

periodos causados por la existencia de este efecto no observado (μi). Sea el modelo E, o modelo no restringido, donde varían intercepto (α) y pendientes (β) a través de los individuos (i) y tiempo (t):

Donde uit está compuesto por un término de heterogeneidad no observada, μi, y un término aleatorio puro para individuos y tiempo ϵit. Suponga un análisis para dos periodos (t=2) para el individuo i-esimo:

En t=1: yi1= 𝛼𝑖1∗ +𝜷𝑖1

´ xi1+ui1 con ui1 = μi+ϵi1

En t=2: yi2= 𝛼𝑖2∗ +𝜷𝑖2

´ xi2+ui2 con ui2 = μi+ϵi2 Las ecuaciones anteriores demuestran como los errores, uit, del modelo usualmente estaran correlacionados serialmente dada la existencia del término de heterogeneidad no observada invariante en el tiempo para el individuo i-esimo, μi. Es decir, COV[uit,uis]≠0 para todo t≠s. Con datos de panel no es posible suponer que las observaciones son independientes ya que factores no observados que afectan a los regresores en un periodo también afectarán a esas mismas variables en el periodo siguiente.

Page 111: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 110

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para validez del modelo Panel, y su metodología de estimación, es necesario controlar la probable correlación de los errores del modelo de regresión sobre el tiempo para individuos objetos de estudio. En particular, la formula usual de OLS para los errores estandarizados en una regresión OLS agrupada (pooled), típicamente exagera el volumen de información independiente lo cual implica ganancias en precisión, varianza y grados de libertad, conduciendo a subestimar los errores estándar, y por tanto, t-estadísticos pueden ser demasiado grandes. Esto causa estimadores OLS menos eficientes (o de mayor varianza) en comparación a los que se obtendrían sin autocorrelación de los residuos y tiene implicaciones en la construcción de pruebas t utilizadas para contrastar la significancia de regresores, xit. Entre mayor varianza, aumenta la posibilidad de encontrar la verdadera significancia y mayor la probabilidad de cometer error tipo I y error tipo II6. INFERENCIA ROBUSTA A LA HETEROCEDASTICIDAD Y CORRELACIÓN SERIAL DESPUÉS DE OLS Suponga un nuevo modelo más general donde las observaciones de Ti para el individuo i en la ecuación panel son las siguientes:

6 Declarar un coeficiente estadísticamente no significativo, cuando en realidad lo es.

Page 112: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 111

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde X es un vector de variables explicativas, β es un vector Kx1 de parametros a estimar y w es el termino de error o perturbación estocastica. El estimador OLS es:

��ols=(XtX)-1XtY

Si los errores muestrakes tienen igual varianza a σ2 y son no

correlacionados, entonces OLS de ��ols es BLUE y su varianza puede ser estimada como:

VAR[��ols]=S2(XtX)-1

Si el supuesto de homocedasticidad es violado, es decir, E[UtU]≠σ2In el estimador de la varianza pierde propiedades deseadas de eficienciay consistencia. La varianza en este caso es:

VAR[��ols]= (XtX)-1XtΣX(XtX)-1

Donde β ahora incluye el término constante. En esta configuración, puede asumirse heterocedasticidad entre los individuos. Sin embargo, en un conjunto de datos panel, el principal problema, y de mayor significancia, es la correlación cruzada entre individuos o autocorrelación de los términos de error o perturbación estocastica. En una base de datos panel o longitudinales un conjunto de observaciones pueden pertenecer al mismo individuo pero en su componente del error se encuentran efectos no observados que se llevará a través de todos los T períodos.

Page 113: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 112

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Suponga el modelo anterior con un vector de perturbación o término de error, wit, además de los componentes omitidos. Entonces, la estructura de covarianzas puede ser definida como:

El estimador OLS puede ser escrito como:

Con el fin de concentrar la corrección exclusivamente en la varianza de los parámetros (y no en el valor de los parámetros) existe una propuesta de corrección similar a la estimación ideada para el contexto en el que exista un problema de autocorrelación. Esta corrección, se denomina estimación de Newey–West o estimacion robusta y produce resultados adecuados en muestras grandes. Para este caso la matriz de covarianza asintótica a ser estimada siguiendo el tipo White es:

Page 114: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 113

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde ��i es un vector de Ti residuos para el individuo i-esimo.

CARACTERISTICAS ADICIONALES DE DATOS PANEL A partir de lo anterior es posible identificar algunas otras caracteristicas sobre modelos de datos panel, entre ellas: 1. Un término más preciso para el modelo one way es definido

como el modelo de efectos aleatorios específicos de un solo factor (one-way individual specific random effects model) o simplemente modelo de intercepto aleatorio (random intercept model).

2. Los datos panel son usualmente observados en intervalos regulares de tiempo (meses, trimestres, años) con las mismas caracteristicas de los datos de series de tiempo.

3. Los paneles de datos pueden ser balanceados, significando que todas las unidades individuales son observadas en todos los periodos (Ti=T ∀i), aunque pueden existir paneles desbalanceados (Ti≠T para algún i). En cualquier caso, la consistencia del estimador requiere que el proceso de selección de la muestra no conduzca a errores de correlación con regresores. En la descripción de los datos se hace indispensable para paneles balanceados, exponer el número de observaciones, determinar el número de individuos distintos (N) y total de periodos cubiertos por el panel (T).

Page 115: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 114

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para paneles NO balanceados, además de lo anterior, se debe considerar periodos concretos en que se observa cada individuo (Ti) y el número total de observaciones existentes, ∑ Ti

Ni=1 . Adicionalmente, es importante tener en cuenta que

no tiene porque haber individuos observados todos los periodos y que individuos con el mismo numero de observaciones (Ti) pueden ser observados en periodos diferentes.

4. Las bases de datos pueden ser de diferentes tipos. Entre ellos, paneles cortos (pocos periodos y muchos individuos) o paneles largos (muchos periodos y pocos individuos) o ambos, conocido como campo aleatorio (muchas periodos y muchos individuos). Esta distincion tiene consecuencias para las metodologias de estimacion e inferencia sobre el modelo. El foco inicial de trabajo radica en paneles cortos, lo que implica, datos de muchas unidades individuales y pocos periodos.

Por ejemplo, en paneles largos, se pueden estimar fácilmente los parámetros (αi,βi). En paneles cortos, se necesita suponer una distribución para (αi,βi) o condiciones en los regresores como en el modelo de efectos aleatorios (RE), se suele suponer que son independientes de los regresores E[XU]=0.

Page 116: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 115

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PANEL CORTO BALANCEADO PANEL LARGO BALANCEADO

PANEL CORTO DESBALANCEADO PANEL LARGO DESBALANCEADO

5. Los errores del modelo están altamente correlacionados. Se

enfatiza como la correlación o agrupamiento sobre el tiempo para un individuo dado, con interdependencia sobre otras unidades individuales puede existir. Para algunos modelos de datos panel, tales como información de países, pueden adicionalmente existir correlaciones entre individuos. A pesar del supuesto hecho, es necesario realizar correcciones sobre los términos de error para efectuar el proceso de estimación por mínimos cuadrados ordinarios (OLS), y en algún caso, es necesario corregirlas, teniendo ganancias en eficiencia utilizando mínimos

T

E Y X t-1 t-2 t-3

y1 x1

E1 : :

yn xn T

y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n

E2 : : y1 x1

yn xn E1 : :

y1 x1 yn xn

E3 : : y1 x1

yn xn E2 : :

y1 x1 yn xn

E4 : :

yn xn

: : : : :

y1 x1

Ek : :

yn xn

T

E Y X t-1 t-2 t-3

y1 x1

E1 : :

yn xn T

y1 x1 E Y X t-1 t-2 t-3 ………… t-n+1 t-n

E2 : : y1 x1

yn xn E1 : :

y1 x1 yn xn

E3 : : y1 x1

yn xn E2 : :

y1 x1 yn xn

E4 : :

yn xn

: : : : :

y1 x1

Ek : :

yn xn

Page 117: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 116

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

cuadrados generalizados factibles (FGLS) o métodos generalizados de momentos (GMM).

6. Los coeficientes de regresión, β, están en función del tipo de regresor y son capaces de modificar la metodología de estimación aplicada. Por ejemplo, algunos regresores como género, pueden ser invariantes en el tiempo, es decir, xit=xi para todo t, y en algunos casos, como es para efectos fijos, no puede ser calculada. Desde otro punto de vista, algunos regresores, tales como una tendencia temporal, pueden ser invariantes entre los individuos afectándolos a todos por igual en el tiempo, es decir, xit=xt para todo i, y algunos pueden variar sobre el tiempo y sobre los individuos de manera simultánea, es decir, xit.

7. Algunos o todos los coeficientes estimados dentro del modelo pueden variar a través de los individuos o sobre el tiempo, es decir, xit.

8. La literatura enfatiza en el modelo de efectos fijos. Este modelo permite a los regresores, xit, tener algún grado de endógeneidad (determinados dentro del modelo) lo que indica que los regresores, x, están correlacionados con un componente del error invariante en el tiempo. Otras ramas enfatizan el modelo de efectos aleatorios que asume regresores completamente aleatorios y exógenos o efectos aleatorios.

9. Los paneles de datos permiten estimación de modelos dinámicos donde la variable dependiente rezagada pueden convertirse en regresor tal como lo expone Arellano (2002).

Page 118: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 117

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PROBLEMA DE PARAMETROS INCIDENTALES Bajo un contexto de paneles cortos no es posible encontrar los parámetros para efectos fijos (FE) tanto para el proceso de estimación como para efectuar contrastes de hipótesis. La causa se debe al problema de parámetros incidentales. Es decir, la incapacidad de calcular nuevos parámetros a medida que crece con el tamaño muestral. Si se considera que N tiende a infinito entonces conceptualmente el número de efectos fijos (FE) calculados crecería también infinitamente, lo que genera un modelo inestimable (N→∞ entonces αi→∞). En otras palabras, asintóticamente a la hora de utilizar contrastes de multiplicadores de Lagrange (LM), así como estimación máximo verosímil (MV), por ejemplo, cuando el número de individuos (N) tienda al infinito implicaría la estimación de un número infinito de variables dummy. Existen potenciales soluciones para continuar con técnicas tradicionales de estimación y contraste. En primer lugar, modelos de efectos aleatorios (RE) en el caso que los efectos no observables no se encuentren correlacionados con los regresores del modelo. En segundo lugar, incluir diferencias temporales pero no individuales (zit=zt). Por último, variables instrumentales (IV) o variables que reflejen de una manera aproximada las diferencias no observadas. De por si, para minimizar el impacto del problema de parámetros incidentales en el caso de estimaciones FE los

Page 119: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 118

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

efectos individuales no observados (αi) son eliminados a través de diferencias temporales (yit-yit-1) o por diferencias respecto a sus promedios (yit-��). III. METODOLOGIAS DE ESTIMACION DE MODELOS DE DATOS

PANEL Las metodologías de estimación en paneles de datos lineales pueden ser resumidas de la siguiente manera: Modelo Estimador Agrupado (Pooled) 1. OLS Between 1. OLS Efectos Aleatorios (RE)

1. FGLS 2. OLS para un estimador GLS 3. Máximo verosímil.

Efectos Fijos (FE)

1. LSDV. 2. Condicional de maxima verosimilitud. 3. Primeras Diferencias 4. Within o de efectos fijos 5. Within o de efectos fijos con GLS

Suponga el modelo lineal general o no restringido (Modelo E) de la forma:

Donde yit es la variable dependiente en terminos escalares, xit, es un vector de Kx1 variables independientes y β es un vector Kx1 de parámetros estimados que varian a través de los individuos y el tiempo, uit es el término de perturbaciones con el índice individual (i=firma, país, etc) de forma transversal e indexado en el tiempo (t).

Page 120: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 119

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Este modelo es demasiado general y no es calculable dado que existen más parámetros a ser estimados que observaciones en la base de datos panel. Por tal motivo, deben imponerse restricciones sobre la variablidad del intercepto, αit y las pendientes, βit, con especto a los individuos (i), el tiempo (t) y el comportamiento del término de error (uit) en el proceso de estimación. 1. MODELO AGRUPADO El modelo más restrictivo es el modelo agrupado (pooled model) especifica coeficientes constantes, el supuesto usual para estimaciones de corte trasversal (cross section) es el siguiente:

yit=α+Xitβ+εit

Si este modelo se encuentra correctamente especificado y los regresores no están correlacionados con el término de error (exogeneidad fuerte), y por tanto no existen efectos individuales no observados, entonces es consistente y eficientemente estimado por OLS y la inferencia pueden proceder de forma fiable. En el contexto de datos de panel también se le llama promedio poblacional o population average, con los siguientes supuestos:

Page 121: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 120

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La inferencia debe usar errores estándar robustos por la probable correlación entre individuos y en el tiempo para evitar sesgos en el cálculo de la varianza estimada y el cálculo de estadísticas t y F sea apropiado. Dada la correlación de los errores donde se incorpore efectos no observados se pueden obtener estimaciones consistentes si los factores no observados, que a su vez están correlacionados con las variables exógenas, si se mantienen constantes en el periodo analizado.

2. ESTIMADOR ENTRE GRUPOS (BETWEEN ESTIMATOR) El estimador entre grupos (between estimator o BE) en paneles cortos, al igual que el modelo pooled calcula una variación de corte transversal. Es decir, utiliza los datos between para el individuo i-esimo sobre k regresores, o mejor, yi, xi1, xi2,…..,xik.

Suponga el modelo de media individual de la forma:

yit=α+Xitβ+εit

Ajustando los promedios aritméticos de la variable dependiente, yit, regresores, xit y el término de error, εit, sobre el tiempo, resulta en:

El cual puede ser reescrito como el modelo between de la forma:

Page 122: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 121

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde los promedios aritméticos en el tiempo de la variable

endógena, regresores y término de error son yi = 1/T ∑ yitTt=1 ,

��𝐢 = 1/T ∑ xitTt=1 y εi = 1/T ∑ εit

Tt=1 ), respectivamente.

El estimador entre grupos (BE) es un estimador OLS de la

regresión de yi sobre un intercepto (α) y los regresores

promediados a través del tiempo, ��i . Este utiliza la variación entre diferentes individuos, análogo a una regresión de corte transversal. Tambien interpretable a un modelo panel en el caso especial donde t=1.

Este estimador es consistente si los regresores, ��i , son

independientes del termino de error compuesto (αi-α+εi ), o lo que es lo mismo, bajo el supuesto de exogeneidad estricta o fuerte de los regresores, xit, respecto al término de error compuesto, εit, utilizándose errores estándar robustos. Puede ser utilizado en el caso de coeficientes constantes (pooled) y de efectos aleatorios. En contraste, para un modelo de efectos fijos el estimador entre grupos (BE) es inconsistente en la medida que el intercepto αi se

asume no correlacionado con xit, en este caso con ��i . En la práctica apenas se utiliza debido a que el estimador agrupado (pooled) y el de efectos aleatorios (RE) son superiores, es decir, son consistentes bajo las mismas condiciones y más eficientes asintóticamente.

Page 123: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 122

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. MODELO EQUICORRELACIONADO O EFECTOS ALEATORIOS El estimador OLS agrupado (pooled) o BE se obtiene apilando o promediando los datos sobre los individuos (i) y tiempo (t) con una regresión estimada por OLS para NT observaciones de la forma:

El estimador OLS es consistente si el modelo anterior tiene regresores no correlacionados con los términos de error, es decir, si la relación entre el termino de error (uit) y regresores (xit) es cero, Cov[uit, xit]=0, a pesar que el numero de individuos crezca (N→∞) o el tiempo aumenta (T→∞) lo cual conduce a estimadores consistentes y eficientes. La matriz de covarianzas, por otra parte, usualmente utilizada para un modelo pooled o BE se fundamenta en errores que se asumen como vaiid con matriz de covarianzas Σ=σ2I. Sin embargo, si existen efectos individuales no observados (μi≠0), caracteristicos de la visión panel, los términos de error para un individuo i-esimo estarán probablemente positivamente correlacionados (en el tiempo para un individuo y/o entre individuos), por lo que la matriz de covarianzas Σ divergerá de la metodología utilizada por OLS. Los OLS aplicables a pooled o BE no es apropiada.

Page 124: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 123

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El estimador OLS no es conveniente si se asume la existencia de un efecto individual no observado sin correlación con las variables explicativas, COV[XiU] ≠0. La metodología de efectos aleatorios (RE) asume que la matriz de covarianzas generada (Σ) es diferente a la esperada en OLS donde existe homocedasticidad (Σ=σ2I). Es necesario modificar este supuesto y trabajar metodologías más generales de estimación como GLS o FGLS. Un modelo de efectos aleatorios (RE) puede ser estimado por OLS con los parámetros 𝛃 consistentes aunque es un modelo ineficiente por su estructura de covarianzas. En un modelo de efectos aleatorios (RE) en la medida que asume independencia entre regresores y términos de error para los i-esimos individuos en t periodos no es posible construir una matriz agregada, Σ, si cada individuo tiene su estructura de covarianzas, que se denominará Ω. Este análisis de correlacion de los términos de error también se puede observar desde un punto de vista de la información utilizada para la construcción de pruebas de hipótesis e intervalos de confianza. Los supuestos usuales de estimación OLS tratan cada T años como piezas independientes de información. Si existe correlación positiva de los términos de error el contenido de la información es menor. Las NT observaciones correlacionadas tiene menos información que NT observaciones

Page 125: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 124

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

independientes. Esto tiene implicaciones en el calculo al sobreestimar la precisión del estimador de la varianza ya que mayor varianza hace menores los t-estadisticos. El modelo de efectos aleatorios (RE) es la especialización de un modelo agrupado (pooled) para los i-esimos individuos. En la medida que el componente individual no observado, αi, pueda ser incluido en el término de error a través del tiempo. Suponga el modelo B:

yit= αi+𝐱itt β+uit

Puede ser visto como la regresión de la variable dependiente, yit, sobre los regresores, xit, con un término compuesto de error one way, uit=αi+εit. Los supuestos sobre el efecto individual no observable (αi) y el término de error (εit) son variables aleatorias que tienen la distribución de probabilidad la forma αi~[0,σα

2 ] y εit~[0,σε2]

respectivamente. Esto implica que cada elemento de la matriz de covarianzas, Cov[uit,uis], será calculado como la relación (covarianza) entre el efecto individual no observado (αi) más el componente del término de error (εi) para los periodos t y s. Es igual a:

Page 126: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 125

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Bajo un término de error compuesto (uit) suponiendo la existencia de efectos individuales no observados vistos como una variable aleatoria (αi) e incluidos en el termino de error, cuando es calculada la matriz de covarianzas para el individuo i-esimo, 𝛀, impone restricciones de estar igualmente correlacionado (equicorrelacionado) en el mismo periodo. Cuando los periodos t y s coincidan (t=s), la diagonal de la matriz de covarianzas (𝛀) asocia la volatilidad del término de error de ese periodo corresponde a la suma de la varianza del efecto individual no observado (σα

2 ) más la varianza del término de error (σε

2), es decir, para el caso COV[uit,uit]= (𝜎𝛼2 + 𝜎𝜀

2). El modelo de efectos aleatorios (RE) es conocido como modelo equicorrelacionado por esta razón. Para periodos cuando t y s son distintos (t≠s), elementos fuera de la diagonal de la matriz de covarianzas (𝛀), la volatilidad del modelo corresponderá únicamente a la varianza del componente individual no observado (σα

2 ). Se construirá una matriz de covarianzas 𝛀 de tamaño TxT que corresponden a los T periodos de observaciones para individuo i-esimo.

Page 127: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 126

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De forma matricial, suponga E[𝐮𝐢𝐭 𝐮𝐢𝐭𝐭 |x]=𝛀 para ser estimada

por FGLS de forma que para el i-esimo individuo:

�� = σε2𝐈t + σu

2𝟏T 𝟏Tt =

Se espera para un individuo i-esimo exista una correlación considerable en el tiempo, de modo que COR[yit,yis] ∀ i≠s sea alta. Después de la inclusión de regresores la correlacion de los termonos de error, COR[uit,uis], puede permanecer no cero y muchas veces puede ser bastante significativa. Por ejemplo, si un modelo pronóstica ganancias individuales en un año, dada la correlación positiva existente entre periodos, la varianza calculada puede ser mucho mayor de la esperada y puede sobrepronosticar ganancias para el mismo individuo en otros años. En un modelo de efectos aleatorios (RE) el coeficiente de correlación no depende del tiempo, es decir, COR[uit,uis] para t≠s, se calcula como:

Los coeficiente de correlación tienen muchas correcciones posibles, dependiendo de la estructura de correlación y heterocedasticidad para el individuo y entre individuos asumida para los regresores y si son paneles cortos o largos.

Page 128: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 127

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Puesto que las observaciones del individuo i-esimo y j-esmo se suponen independientes, es decir, no existe relación entre los N individuos, la matriz de covarianzas, 𝚺, del modelo RE será diagonal. En estos modelos siempre es útil el análisis por bloques de T observaciones para cada uno de individuos (i). Cada elemento de la diagonal esta constituida por bloques de matrices de covarianzas, Ω, de tamaño TxT que corresponden a la estructura de covarianzas para cada individuo. La matriz de covarianzas del modelo RE para todos los individuos, 𝚺, será de tamaño NTxNT. De forma matricial:

Σ=[

𝛀 𝟎 … 𝟎𝛀 … 𝟎

⋮𝟎

⋮𝟎

⋱…

𝟎𝛀

]=In⊗Ω

ESTIMADORES PARA EL MODELO DE EFECTOS ALEATORIOS Cuando los grupos considerados son extracciones muestrales de una población más grande, puede resultar apropiado considerar que los efectos individuales no observados están aleatoriamente distribuidos entre los grupos. En este caso se considera un modelo de estimación de efectos aleatorios (RE).

Page 129: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 128

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El estimador de efectos aleatorios (RE) explota rasgos y supuestos especiales de los datos panel. El estimador RE es inconsistente si el modelo de efectos fijos (FE) es el adecuado. Sea el modelo de efectos aleatorios (RE) especificado en la siguiente forma funcional:

El cual puede ser reescrito como:

Donde además las pendientes (β) y los regresores (xit) existe un intercepto no estocástico (μ) y un efecto individual no observado (αi). Puede ser nuevamente reescrito como:

Donde wit=[1 xit] y δ=[μ βt]t. Los efectos específicos individuales αi se asumen como una realización de vaiid con una distribución [α,𝜎𝛼

2], de la misma manera, el termino de error εit es una vaiid [0,𝜎𝜀

2]. El intercepto escalar μ, a diferencia del modelo de efectos fijos, se convierte en una variable no aleatoria y se adiciona al modelo para posteriormente ser estimada. De este modo, se asume en el modelo αi y εit como vaiid con las siguientes propiedades:

Page 130: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 129

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Sin embargo, bajo algunos supuestos, y trabajando sobre promedios los efectos individuales no observados y los términos de error pueden ser normalizados a tener media cero, es decir:

αi~[0,σα2 ] εit~[0,σε

2] El modelo puede ser reexpresado como yit=μ+𝐱it

t β+uit, donde el termino de error compuesto, uit, tiene dos componentes uit=αi+εit. Por esta razón el modelo de efectos aleatorios (RE) es también conocido como modelo de componentes del error (error components model). Una terminología más explícita puede ser conocido como modelo de intercepto aleatorio (random intercept model). Existen una multiplicidad de estimadores consistentes del modelo de efectos aleatorios (RE) entre otros: 1. Estimador por GLS. Este reconoce el hecho que mínimos

cuadrados generalizados (GLS), es más eficiente (mínima varianza) que estimaciones por OLS.

2. Estimación OLS para un estimador GLS. Supone efectuar transformaciones adecuadas para realizar estimaciones OLS con consistencia de los estimadores encontrados.

3. Estimador máximo verosímil. Asume que tanto el efecto no observado (αi) como el término de error (εit) son normalmente distribuidos y construye una función de verosimilitud.

Page 131: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 130

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los dos primeros estimadores son asintóticamente equivalentes aunque en algunos casos pueden variar en muestras finitas dependiendo de estimaciones específicas y características utilizadas para el valor de las varianzas del efecto no observado (σα

2 ) y el termino estocástico (σε2). Los restantes estimadores son

consistentes aunque ineficientes si σα2 y σε

2 son vaiid. ESTIMADOR POR GLS Puesto que la matriz de covarianzas para un individuo Ω es una matriz semidefinida positiva puede ser factorizada a través de la descomposición espectral de la siguiente forma:

Ω=Ct𝚲Ct Donde C son los vectores propios de Ω y las raíces características de la matriz Ω están organizadas en una matriz diagonal 𝚲. Sea 𝚲1/2 la matriz diagonal con el i-esimo elemento de la diagonal

igual a √𝜆𝑖 y sea T=Ct𝚲1/2, entonces TtT=Ω. Tambien sea la

matriz Pt=Ct𝚲-1/2 entonces PtP=Ω-1. Suponga un modelo lineal general:

Y=Xβ+ε

Premultiplicando por la matriz P definida anteriormente:

Y = Xβ+ε

PY = PXβ+Pε

Y* = X*β+ε*

Al derivar los estimadores, β, el estimador GLS tiene la siguiente formula funcional:

Page 132: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 131

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para calcular este estimador transformando se require encontrar Σ-1/2=[I⨂Ω]-1/2. Ya que la matriz calculada es necesario encontrar Ω-1/2.

El valor de Ω-1/2 corresponderá a la estimación de efectos aleatorios (RE) por Mínimos Cuadrados Generalizados (GLS) consistente en una regresión de desviaciones parciales entre la variable dependiente, yit, y su media. Esta misma operación se efectua para las variables exógenas, xit. Para demostrar lo anterior, se construirá un estimador de efectos aleatorios (RE) para el intercepto no estocástico (μ) y las pendientes (β). Suponga el modelo:

Se puede demostrar, por medio de metodologías de estimación por mínimos cuadrados generalizados (GLS), que al multiplicar por un factor adecuado es equivalente a encontrar un estimador GLS a través de regresiones de desviaciones parciales estimadas por OLS sobre la ecuación transformada. Para comprender un poco mejor esta idea suponga el estimador de mínimos cuadrados generalizados (GLS) de la forma

��GLS=(XtΩ-1X)-1XtΩ-1Y, utilizando la descomposición espectral sobre la matriz de covarianzas Ω se puede encontrar que:

Page 133: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 132

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

��GLS=(XtΩ-1/2Ω-1/2X)-1XtΩ-1/2Ω-1/2Y. Utilizando el hecho que Ω es simétrica, semidefinida positiva y con algunas propiedades de las matrices transpuestas se llega a

que el estimador es ��GLS=([Ω-1/2X][ Ω-1/2X])-1[Ω-1/2X][YΩ-1/2]. El estimador por GLS en este caso se puede interpretar de forma individual cuando se efectua la multiplicación para cada elemento de Ω-1/2X, que de aqui en adelante se asociará con un

parámetro de corrección λ.

Para calcular Ω-1/2 se puede demostrar que Ω-1/2=IT-(λ/T) 𝟏T 𝟏Tt .

Donde el parámetro estimado de corrección, λ, es:

La transformación de desviaciones parciales entre la variable dependiente, yit, y su media sobre resulta ser:

𝛀i−1/2

yi=[yi1 − θyi

yit − θyi

]

De la misma forma, aplica la multiplicación de 𝛀i−1/2

X para los

regresores Xi. Los datos en su conjunto transformados por GLS se calcula regresando las desviaciones parciales de yit sobre la transformación de xit.

Page 134: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 133

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un procedimiento de estimación parte del modelo inicial yit=μ+xit+(αi+εit) para posteriormente restar el modelo transformado calculado previamente el factor de corrección λ, es

decir, λyit=λμ+λxit+(λαi+λεit). El resultado es:

El parámetro estimado de corrección, λ, es consistente y es sinónimo de FGLS.

El valor de λ está en función de estimaciones de la varianza de los efectos individuales no observados (σα

2 ) y los términos de error (σε

2). El término de error es una combinación del efecto no observado (αi) y el termino estocástico (εit) de forma lineal,

vit=(1-λ)αi+(εit-λε).

Sin embargo, para el calculo del factor de corrección (λ) es necesario estimaciones de la varianza del efecto individual no observado (αi) y el componente del error (εit). La metodología de cálculo parte de encontrar la varianza del componente del error de la forma:

Para el cálculo de la estimación de la varianza del error (σε

2) se

necesitan de los parámetros de la regresión between (��W), y de

Page 135: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 134

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

los promedios entre individuos de los los regresores (��i) y la variable dependiente (yi). Posteriomente, se determina el componente del error al

cuadrado de la regresión Between, uB2 =(yi-μB-xi

t��B)2 que puede ser reescrito como un término de error de la covarianza uB

2 =σα2 +σε

2/T. Utilizando esta última ecuación se puede obtener la varianza del componente individual no observado:

De este modo, se estima la varianza del componente individual no observado (σα

2 ) en función del termino de error estocástico estimado (σε

2). La varianza del estimador ��α

2 en algunos casos puede ser negativa lo cual en algunos programas estadísticos asume que la varianza del componente individual no observado es cero

(��α2 =0) de modo que λ=0 y la estimación se convierte en un

modelo pooled. Estimadores más eficientes de los componentes de la varianza para σα

2 y σε2 son posibles esta es una técnica entre varias. Por

ejemplo Amemiya7 calcula otros estimadores pero no

necesariamente incrementa la eficiencia del estimador ��RE.

7 Amemiya, T. (1985), Advanced Econometrics, Cambridge, MA, Harvard University Press.

Page 136: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 135

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para resumir, es necesario encontrar un parámetro de

corrección λ, para efectuar una estimación consistente y eficiente por FGLS. Para ello se estima, en primer lugar, la varianza del término de error (σε

2). Posteriormente, la varianza del componente individual no observado (σα

2 ).

λ = 1 −σε

√σε2 + Tσα

2

A partir del parámetro estimado de corrección, λ, se puede derivar lo siguiente:

1. Si el parámetro de corrección es igual a cero, λ=0, corresponde a una regresión pooled por OLS. Este escenario ocurre cuando la varianza del componente individual no observado (σα) es igual a cero.

2. En la medida que el parámetro estimado de corrección, λ difiere de cero, se presenta ineficiencia de OLS. El estimador OLS comparado con GLS otorga demasiada ponderación a las variaciones en unidades (within). OLS incluye todas las variaciones en los regresores X, en vez de distribuir una parte a la variación aleatoria entre grupos (Between) atribuible a una variación entre individuos.

3. Si el parámetro de corrección converge a uno, λ→1 debe ser calculado como un estimador en dos etapas (2LS) de β por variables instrumentales (IV). Existen dos posibilidades

para alcanzar este valor estimado de λ.

Page 137: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 136

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La primera, si la varianza del error (σε) es cero entonces el total de las variaciones entre individuos serian causados por los efectos no observados (αi) que son constantes en el tiempo y serían equivalentes a variables instrumentales (IV). La segunda, ocurre cuando el número de periodos está creciendo (T→∞). En la medida que el tiempo pase el efecto no observado se vuelve observado se convierte en una variable identificadora (no necesariamente una dummy).

4. Si el parámetro de corrección es igual a uno, λ=1, corresponde a un estimador within. Se puede interpretar como el efecto si la varianza de los términos de error (σε) fuese cero, es decir, el único efecto existente sería el componente individual no observado (σμ). En este caso, los modelos de efectos fijos (FE) y efectos aleatorios (RE) son indistinguibles.

Suponga, de nuevo, el modelo de regresión RE de pendientes (β) y regresores (xit) existe un intercepto no estocástico (μ) y un efecto individual no observado (αi) que son agrupados como:

Ya calculado el factor de corrección, λ, el cálculo de los

parámetros del modelo de efectos aleatorios (δRE) para las

pendientes (βRE) y el intercepto (μRE) es el siguiente:

Page 138: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 137

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde wit=[1 xit] y ��=[1 xi]. Las pruebas de consistencia del estimador requieren que toda la muestra crezca NT→∞, es decir, tanto el número de individuos (N→∞) o el tiempo (T→∞) crezcan infinitamente. Tambien, con las estimaciones de los términos de error (εit) y los efectos individuales no observados (αi) que se presentaron anteriormente sobre la regresión OLS del modelo corregido se tiene que:

Se puede calcular la matriz de covarianzas estimada de la siguiente forma:

Que corresponde a la varianza por OLS (σ2XtX) incluyendo el

componente del factor de corrección, λ, en un modelo transformado. Para paneles cortos, ya que existen pocos periodos pero muchos individuos, se debe tener en cuenta que los términos de error en principio se asumen independientes sobre los individuos pierden esta propiedad de modo que Cov[uit,ujs]=0 con i≠j necesita un estimador robusto de la varianza que minimice los efectos de autocorrelación y heterocedasticidad y permitan un

Page 139: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 138

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

comportamiento general para calcular el error compuesto (αi+εit) el cual puede ser determinado de la forma tipo White:

Lo cual arroja una forma modificada de la varianza de los estimadores incluyendo el tiempo:

Donde ��it=wit-λ�� y ��it=��it-λ�� donde ��it son los residuos calculados del modelo RE. Esta estimación permite autocorrelaciones para εit, así como heterocedasticidad de forma arbitraria. ESTIMACIÓN OLS PARA UN ESTIMADOR GLS Para verificar como el estimador FGLS en el modelo de efectos aleatorios se puede simplificar para convertirse en un estimador OLS, y de esta forma, sea más fácilmente calculado computacionalmente se parte del modelo agrupado, como se mostró anteriormente:

En primer lugar, se agrupan observaciones de todos los T periodos para el individuo i-esimo. Posteriormente, se efectúa al igual que para el modelo de efectos fijos la agregación por individiuos (se pasa de yit a yi, por ejemplo). Entonces:

Page 140: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 139

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde yi, 1T, εi y Xi fueron definidas anteriormente y 𝐖i

t=[1 𝐗it].

Para efectuar el proceso de estimación por GLS, como se observó anteriormente, es necesario obtener la matriz de covarianzas individuales, Ω, a partir del vector de términos de error (1αi+εi). Dada la independencia de los efectos individuales no observados (αi) y el componente estocástico (εit) se puede calcular el siguiente valor esperado:

E[(1αi+εi)(1αi+εi)t]=E[εiεit]+E[αi

2]𝟏𝐓 𝟏𝐓𝐭 .

Puesto que el termino de error,εit , es una vaiid distribuida [0, σε

2] y αi es una vaiid distribuida [0, σα

2 ] se puede obtener la matriz de covarianzas, Ω, del modelo de la forma:

Donde la matriz Q=IT-(1/T) 𝟏𝐓 𝟏𝐓𝐭 fue introducida anteriormente

y ψ2=σε2/[σε

2+Tσα2 ] o el factor de correción elevado al cuadrado.

Utilizando el hecho que QQt=Q puede ser demostrado que la inversa de la matriz de efectos individuales corresponde a:

Ω-1=(1/σε2)[Q+ψ2(IT-Q)]

Page 141: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 140

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Efectuando la descomposición espectral sobre Ω-1/2 se puede llegar a que:

El estimador GLS se obtiene premultiplicando la ecuación:

Aplicando este procedimiento y efectuando el reemplazo correspondiente se tiene que:

Donde el factor de correción equivale a λ=(1-ψ). Ejecutando algebra para Wi,1αi y εi se puede encontrar el siguiente modelo:

El modelo anterior tiene una varianza de σε2IT. Lo anterior

demuestra como el estimador GLS es un estimador OLS con una versión agrupada del modelo:

Con el escalar λ que es estimador consistente y comunica las estimaciones OLS y GLS. En conclusión, las dos metodologías anteriores son muy similares, tanto para la estimación por FGLS como para OLS. Necesitan de un factor de corrección que para el primero corrige la matriz de covarianzas. Para el segundo, deriva la misma matriz con los supuestos de minimos cuadrados ordinarios.

Page 142: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 141

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTIMADOR MÁXIMO VEROSÍMIL En la derivación de las dos metodologías anteriores, los errores no se asumen normales. Si ellos son normales puede maximizarse una función de verosimilitud con respecto a las pendientes (β), intercepto (μ) y varianzas del componente aleatorio (σε

2) y del componente individual no observado (σα2 ).

Dadas las varianzas del componente aleatorio (σε

2) y del efecto individula no observado (σα

2 ) el estimador de máxima verosimilitud (MLE) para las pendientes (β) y el intercepto (μ) es el mismo estimador GLS. Pero si no se toma este supuesto y se procede a efectuar el proceso de optimización del estimador de máxima verosimilitud (MLE) el cual arroja nuevos estimadores del componente

aleatorio (σε2) y del componente no observado (σα

2 ) que difieren de los estimadores observados anteriormente, como son:

El estimador de máxima verosimilitud (MLE) para las pendientes (β) y el intercepto (μ) están dadas por el modelo:

Page 143: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 142

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Con parámetro estimado de corrección, λ reemplazado por un

estimador alternativo, λ , que también tiene características de

ser consistente y definido como λ =1-σε /(Tσα + σε )1/2. Asintóticamente, los estimador MLE y GLS de efectos aleatorios son equivalentes, pero pueden diferir en muestra finita. Para el MLE, dadas las características del modelo, pueden existir dos máximos locales mejor que uno con 0<ψ2≤1, así que cuando se analicen los resultados por esta metodología es necesario asegurarse de la existencia de un máximo global. ESTIMADORES PARA EL MODELO DE EFECTOS FIJOS El modelo de efectos fijos (FE) se puede especificar a través del modelo B de la siguiente manera:

Donde los efectos específicos individuales α1,α2,…,αn miden la heterogeneidad no observada que esta posiblemente correlacionada con los regresores, X. Es decir, admiten algún tipo de endogeneidad (E[Xε]≠0). Los estimadores de las pendientes, 𝛃, son vectores de tamaño Kx1 y los términos de error, εit, distribuidos como vaiid [0,σ2]. Algunas características importantes del modelo de efectos fijos: 1. El modelo de efectos fijos (FE) tiene sentido cuando se esta

interesado en el impacto de variables que varíen en el tiempo y entre individuos (Zit).

Page 144: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 143

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

2. El modelo de efectos fijos (FE) explora las relaciones entre el regresor y las características de un individuo (agente, empresa, etc.) aprovechando la endogeneidad implícita dentro del modelo E[Xαi]≠0, o mejor, los E[XU]≠0.

3. Al observar una correlación entre los efectos individuales no observados (αi) y regresores (X) se asume implícitamente que cada entidad tiene caracteristicas que pueden tener influencia en la variable dependiente (por ejemplo, si es hombre o mujer, como efecto no observado, implica una distinta remuneración salarial).

4. Cuando se utilizan el modelo de efectos fijos (FE) se asume que algunos efectos en el tiempo (WITHIN) en cada uno de los individuos pueden impactar o sesgar el predictor o variable dependiente y es necesario controlarla. Este es la racionalidad del supuesto de correlación entre los efectos individuales no observados y los regresores.

El reto en el proceso de estimación en la presencia de N efectos individuales específicos (αi) incrementa el número de individuos infinitamente (N→∞), es decir, el problema de parámetros incidentales. Para propósitos prácticos usualmente el principal interés, reconociendo la significancia de los efectos individuales específicos (αi), se encuentra en las K pendientes, 𝛃, las cuales representan el impacto marginal de un regresor (xit) con respecto a la variable respuesta, ∂E[yit]/∂xit, mientras los demás permanecen constantes.

Page 145: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 144

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En este caso, con un panel corto, los N parámetros de efectos individuales no observados, α1,α2,…,αn, generan el problema de parámetros incidentales. Su presencia, por tal motivo, impide la estimación de los parámetros, 𝛃, que sí son de interés. Es de observar que existen, para modelos lineales, distintos caminos a ser estimados los parámetros de las pendientes y encontrar los efectos marginales por efectos fijos (FE) a pesar del problema de parámetros incidentales. Estos incluyen: 1. Estimador within o de efectos fijos. Estimaciones OLS a

través de un modelo within.

2. Estimador within o de efectos fijos con GLS. Estimar por GLS

en el siguiente modelo within:

3. Estimador de Primeras Diferencias. Estimar por OLS el

modelo de primeras diferencias:

4. Estimador condicional de maxima verosimilitud. Estimar por

el método de máxima verosimilitud condicionada sobre las

medias de los individuos yit con i=1,2,….,n. 5. Estimador LSDV. Estimación directa por OLS a través de

variables dummy para cada uno de los N efectos fijos o estimación LSDV:

Page 146: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 145

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los dos primeros modelos within siempre conducen al mismo estimador de los parámetros β. El estimador de primeras diferencias, o tercer modelo, difiere de los otros para T>2, estas diferencias generalmente no son tenidas en cuenta en modelos no lineales. Para el cuarto modelo, dada la condición de máxima verosimilitud, es necesario adicionar al supuesto sobre normalidad de los términos de error, es decir, εit~N[0,σ2]. El modelo LSDV se puede demostrar que tiene los mismos resultados que un estimador within.

ESTIMADOR WITHIN O DE EFECTOS FIJOS El estimador intragrupo (within estimator o WE), a diferencia de los modelos OLS pooled o estimadores Between. Específicamente, suponga un modelo de media individual, o modelo B, de la forma:

Tomando promedios aritméticos sobre el tiempo resulta en el siguiente modelo:

Sustrayendo de yit el promedio en el tiempo yi resulta en el modelo within:

Page 147: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 146

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En un panel corto, por ejemplo, este estimador mide la desviación del individuo i-esimo respecto a los regresores, xit, sobre sus valores promedio en el tiempo, ��i, es decir, (xit-��i). Este proceso también se efectúa para la variable dependiente yit y el termino de error, εit. Con esta metodología el término de efectos individuales no observados (αi) se cancela. Este estimador within es calculado por OLS. Un rasgo especial resulta en estimadores consistes de β en el modelo de efectos fijos (FE), mientras para el modelo OLS agrupado (pooled) o el estimador entre grupos (BE) no son consistentes. Es un estimador consistente y eficiente de β, si el intercepto que representa el efecto individual no observado, 𝛂i , se calcula como efectos fijos (FE) y el término de error estocástico del error compuesto 𝛆it son vaiid.

Utilizando un estimador OLS resulta en el estimador within

(WE) o estimador de efectos fijos ��w de la forma:

Los efectos individuales, 𝛂i, pueden ser estimados como un residuo de la regresión de la forma:

Page 148: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 147

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La estimación de los efectos individuales no observados (��i ) es

insesgada y es consistente cuando T→∞ puesto que ��i promedia T observaciones como mejor estimador muestral. En paneles cortos la estimación de los efectos individuales no

observados (αi ) es inconsistente, sin embargo, es consistente

para las estimaciones de las pendientes, ��w . En la mayoría de investigaciones se juzga a los parámetros

individuales no observados estimados (αi ), como parámetros auxiliares o problemáticos8 (ancillary parameters o nuisance parameters) ya que en algunos casos no son necesarios en estudios, y por lo tanto, no necesitan ser consistentemente estimados. Además, esta eliminación no afecta el proceso de estimaciones

consistentes de las pendientes, ��w , que determinan los efectos marginales de las variables de interés.

Para la consistencia del estimador within de ��𝐰 debe demostrar la condición de exógeneidad fuerte:

Esto debe ocurrir si N→∞ o T→∞ y adicionalmente que:

8 Sin embargo, estos parametros muchas veces resultan utiles en informacion industrial, laboral, ambiental,entre otros por ejemplo véase McClellan, M. and Staiger, D. Comparing Hospital Quality at For-Profit and Not-for-Profit Hospitals in The Changing Hospital Industry: Comparing Not-for-Profit and For-Profit Institutions, (eds.). Cutler, David M. pp.93-112, The University of Chicago Press, 2000. Tambien, Murdock, J. 2006. Handling unobserved site characteristics in random utility models of recreation demand. Journal of Environmental Economics and Management,51, 1-25.

Page 149: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 148

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Debido a la presencia de promedios, como mejor estimador

máximo verosímil (MV), sobre los regresores ��𝐢 = 1/T ∑ xitTt=1

y en el término de error ��𝐢 hace que no exista correlación entre los términos de error y regresores de manera contemporánea, E[εit|xit]=0. Una condición suficiente, adicional a la anterior, para el cumplimiento de la exógeneidad fuerte radica en incluir no solo los términos de error contemporáneos y regresores actuales sino también los rezagados, es decir, E[εit|xi1,xi2,….,x1T,]=0. Esto excluye en el estimador within variables rezagas endógenas como regresores. Por otra parte, la estimacion de la varianza debe contemplar como los términos del error compuesto están correlacionados en el tiempo (t) para un individuo dado (i). Se puede demostrar que los métodos OLS usuales son aplicables cuando existe homocedasticidad. Por ejemplo, bajo el supuesto del término estocástico, εit , distribuido como una vaiid se tiene que:

Donde xit = xit-xi . Un estimador consistente e insesgado de la varianza del término de error σε

2 y calculada como

σε2=[N(T-1)-K]-1∑ ∑ εit

Tt=1

Ni=1 . Donde los grados de libertad son

Page 150: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 149

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

iguales al tamaño de muestra (NT) menos el número de parámetros en el modelo (K) y el número de efectos individuales (N). Es de observar que si la regresión within de la forma:

Es estimada utilizando OLS a través de un paquete estadístico normal o comandos no panel es necesario incrementar el valor de las varianzas reportadas en un valor [N(T-1)-K]-1[NT-K] para ajustar la varianza a la autocorrelación de los errores. La matriz de covarianza asintótica de un panel robusto (estimado con errores robustos tipo White), es decir, controla correlación y heterocedasticidad, está dado por:

Para paneles cortos con efectos fijos (FE) resulta en una varianza donde se incluye efectos en el tiempo para periodos contemporáneos (t=s) y no contemporáneos (t≠s) de la forma:

Donde el término de error estocástico es εit = εit-εi . La derivación matricial es útil en términos de cálculo dado el tamaño de las matrices.

Page 151: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 150

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se comenzará con un modelo para los i-esimos individuos de la forma:

Donde xit y β son vectores kx1. Los i-esimos individuos, agrupando todas las T observaciones tienen la siguiente estructura matricial:

También pueden ser escritos de la forma:

yi=αi1+Xiβ+εi Donde 1t=[1,1,….,1] es un vector de tamaño Tx1 de unos. Xi es una matriz TxK de T observaciones y K regresores, los vectores de la variable respuesta, yi, y los términos de error, εi, son de tamaño Tx1. Es posible transformar el modelo para sustraer la media individual a través de las matrices P y Q de tamaño TxT. Es decir,

P=(T-1)𝟏𝐓 𝟏𝐓𝐭 de manera que Q=IT - P

Premultiplicando la matriz Q crea desviaciones respecto a la media. También tiene propiedades de ser ortogonal e idempotente. Ahora premultiplicando el modelo de efectos fijos por Q se obtiene:

Page 152: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 151

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Utilizando el hecho que Q1=0 se elimina el componente de los interceptos (αi1). Este modelo, es equivalente a:

yi-1yit=(Xi-1xi

t)β+(εi-1εi ). A partir de esta premultiplicación por la matriz Q resulta en el modelo within.

Una estimación por OLS del modelo de efectos fijos (FE) ajustado

por la matriz Q resulta en el estimador ��w con una matriz de covarianzas, asumiendo independencia de los individuos, igual a:

Si se asume el supuesto que los términos de error, εit, son vaiid, eliminando la posibilidad de heterocedasticidad y autocorrelación, se puede escribir que [0,σε

2], de modo que su resultado asume exógeneidad fuerte, es decir, [0,σε

2I]. El vector Qε es entonces independiente sobre los individuos (i) y el tiempo (t) con media cero y las siguientes propiedades sobre la varianza:

Page 153: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 152

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Entonces:

De modo que el cálculo con la varianza asumiendo exógeneidad fuerte resulta en:

Utilizando el hecho que:

Estimadores alternativos, más allá de la exógeneidad fuerte, pueden ser utilizados con una visión más general. En particular, el supuesto de no correlación serial sobre los términos de error, εit, utilizado anteriormente, puede ser relajado. Si el termino de error, εi, es vaiid [0,Ω] se utiliza una forma más general para la matriz de covarianzas con la corrección por la matriz Q, o de desviaciones respecto a la media, asumiendo que no existe correlaciones entre individuos, es decir, [Qεi, Qεj] para i≠j.

La varianza V[Qεj] se reemplaza por los (Qεi )(Qεi )t donde

��i =yi-Xi��w . Esto resulta en la estimación dada por:

Page 154: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 153

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El WE tiene varias interpretaciones y características a ser trabajadas, entre ellas: 1. Este procedimiento se focaliza en la literatura que trata los

efectos individuales no observados como parámetros incomodos que pueden ser ignorados dado que el principal interés se encuentra en las pendientes (β) y sus efectos marginales.

2. El estimador Within utiliza una estructura de covarianzas que toman desviaciones respecto a los promedios de media individual, lo que es equivalente a tomar residuos de la regresión de yit y xit sobre dummies individuales y trabajar con los residuos.

3. La principal limitación del estimador WE radica en los coeficientes de los regresores invariantes en el tiempo (xit=xi) que no pueden ser identificados, entonces son omitidos, es decir, (xit-��i)=0. Varios estudio, por ejemplo, buscan estimar el efecto de regresores invariantes en el tiempo, xi. Regresiones sobre paneles de salarios se puede estar interesados en efectos de género o raza, por esta razón se prefiere no utilizar el estimador WE.

4. Estimaciones agrupadas (pooled) o efectos aleatorios (RE) tienen, en algunos casos, mejores resultados estadisticos, pero estos estimadores son inconsistentes si el modelo de efectos fijos (FE) es el adecuado.

Page 155: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 154

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTIMADOR WITHIN O DE EFECTOS FIJOS POR GLS Suponga el modelo within transformado respecto a su desviación a la media (premultiplicado por la matriz Q), de la forma:

Puede ser estimado por FGLS. Si los términos de error, εit, son vaiid [0,σε

2] no existen muchas ganancias estadísticas utilizando GLS, lo recomendable es trabajar por OLS. Pueden existir ganancias si otros modelos son asumidos para la distribución de los términos de error, εit. Existen situaciones donde puede limitarse OLS para su utilización, como datos multinivel. Por ejemplo, en investigación en educación se podría requerir medir el rendimiento de colegios que utilizan un método de aprendizaje contra colegios que usan uno diferente. Sería un error analizar estos datos pensando que los estudiantes son muestras aleatorias simples de la población de estudiantes que aprenden bajo un método particular y que no están correlacionadas a través del tiempo. Los alumnos son agrupados en clases (cursos), los cuales a su vez son agrupados en colegios. El desempeño de los estudiantes dentro de una clase está correlacionado, como el desempeño de los estudiantes dentro de la misma escuela y el tiempo con el programa implementado.

Page 156: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 155

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para observar el ejemplo anterior a través de un modelo panel de efectos fijos (FE) utilizando OLS no es posible, es necesaria una nueva estructura de correlaciones, y por tanto, una matriz de covarianzas, entre periodos e individuos como metodología para incorporar correlaciones temporales y datos anidados, es decir, implementar GLS o FGLS. La aproximación es esencialmente la misma para GLS pooled sin efectos fijos donde se pone de manifiesto su relación con el estimador RE. Observese que Qεi es independiente de Qεj con i≠j y V[Q𝜎𝜀

2]= 𝜎𝜀2Q, así que el estimador de efectos fijos con GLS, visto

como una generalización del OLS, se puede escribir en forma:

Para efectuar este procedimiento, en los FE los efectos individuales no observados fueron eliminados. Esto último conduce a que el término de error Qεi sea de rango menor al completo. Si no se cuenta con rango completo y se necesita calcularla la metodología de trabajo se orienta a la utilización de la inversa

Page 157: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 156

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

generalizada o inversa de Penrose9, Q-, que es utilizada como Q ya que no es de rango completo10. ESTIMADOR EN PRIMERAS DIFERENCIAS El estimador en primeras diferencias (FDE), al igual que el estimador within explota rasgos especiales de los datos panel. En un panel corto mide la asociación entre cambios dentro de los individuos durante un periodo en los regresores, xit, y la variable dependiente, yit. Especificamente, suponga el modelo:

Rezangando un periodo se tiene que:

Sustrayendo una de la otra, se tiene el modelo de primeras diferencias:

El intercepto del modelo, αi, se cancela, al igual que en el modelo within. El estimador en primeras diferencias (FDE) utiliza en su proceso de estimación una metodología OLS. Al igual que el estimador within, es consistente en un modelo de efectos fijos (FE), aunque los coeficientes invariantes en el tiempo de los regresores, xi, no son identificados. 9 Sea A una matriz cuadrada o rectangular, se dice que una matriz G es una g-inversa (o inversa generalizada) de A cuando AGA=A . Naturalmente que G ha de ser de tipo n×m en el caso de ser A del tipo m×n . Si A es cuadrada e invertible, entonces es fácil comprobar que la inversa A−1 es (la única) g-inversa de A , de manera que el concepto de g-inversa es una generalización del concepto de inversa 10 Sin embargo, QtQ-Q=QtQ puesto que QtQ-Q=Q, para una inversa generalizada, y Q=QQt dado que Q es idempotente. Reemplazando QtQ-Q=Q por

QtQ en la fórmula anterior de estimación ��w,GLS.

Page 158: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 157

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El estimador FDE es menos eficiente que un estimador WE para T>2 si los términos de error, εit son considerados como una vaiid. Una estimación OLS efectuá el estimador de primeras diferencias de la forma:

Obsérvese que existen N(T-1) observaciones en esta regresión ya que se perdió una en el proceso de diferenciación11. La consistencia del estimador de primeras diferencias requiere, nuevamente el supuesto de exógeneidad fuerte o estricta visto como E[εit-εi,t-1|xit-xi,t-1]. Esta condición es fuerte e implica que los términos de error y de los regresores de forma contemporánea son iguales a cero, es decir, E[εit|xit]=0, pero es una condición más débil que la condición de exogeneidad fuerte impuesta para la consistencia del estimador within ya que para este último impone exógeneidad fuerte para efectos contemporáneos y no contemporáneos, es decir E[εit|xi1,xi2,….,x1T,]=0. La inferencia asintótica del estimador de primeras diferencias requiere ajustar los errores estándar calculados por OLS para tener en cuenta las correlaciones en el tiempo de los términos de

error ∆εi = (εit-εi,t-1).

11 . Un error común en esta implementación radica en agrupar las NT observaciones, posteriormente substraer el primer rezago. Entonces la observación (1,1) es borrada mientras todas las T primeras observaciones (i,1), i=1,2,…,N deben ser borradas después de diferenciar. Deben ser borradas todas las primeras observaciones de la muestra.

Page 159: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 158

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Como primer paso de inferencia asintótica es necesario obtener

la varianza asintótica del estimador ��FD. Para lo anterior, se agrupan las observaciones de los individuos de la siguiente manera:

Donde para cada individuo i-esimo el modelo tiene ∆yi como un vector (T-1)x1 de variables dependientes y variables explicativas (∆��i

t) como una matriz (T-1)xK y calculados los regresores como la diferencia entre los periodos (xi2-xi1)t……(xiT-xiT-1)t. Tiene una matriz de covarianzas, asumiendo independencia entre los individuos como:

El supuesto básico radica en asumir que los términos de error estocastico, εit, son vaiid [0,σε

2] o asume exógeneidad fuerte. Con lo anterior, se calcula la diferencia rezagada del término de

error, es decir ∆εi =(εit-εi,t-1) y se identifica como un proceso de media móvil con un rezago, MA(1), con varianza 2σε

2 y un periodo separado por autocovarianzas σε

2 para los individuos. De lo anterior se concluye que V[∆σε

2] es igual a σε2 multiplicado

por una matriz (T-1)x(T-1) con un valor de dos en la diagonal y uno fuera de la diagonal.

Page 160: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 159

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un supuesto más realista radica en asumir los términos de error, εit, están correlacionados en el tiempo para un individuo i-esimo, de modo que COV[εit,εit]≠0 para t≠s, pero independiente entre individuos. Para calcular esta premisa en necesario hallar un estimador que sea más robusto y permita formas más generales de autocorrelación y heterocedasticidad como:

En esta forma general se reemplaza la varianza estimada, V[∆σε

2],

por (∆εi )t(∆εi ). Es importante resaltar que no se puede utilizar OLS para estimar los términos de error estándar del modelo de primeras diferencias ya que estos sólo son correctos en el improbable caso que los términos de error, εit, sean un paseo aleatorio de modo que (εit-εit-1) son vaiid. Para el caso de dos periodos (T=2) las primeras diferencias y el estimador within son iguales. Para demostrarlo suponga el caso de un modelo de primeras diferencias de la forma:

Analizando únicamente la variable dependiente con dos periodos (T=2) se tiene que la diferencia (yi1-yi2) es el valor en primeras diferencias de la variable.

Page 161: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 160

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Ahora suponga un modelo within de la forma:

Al igual que el modelo anterior con dos periodos (T=2) se tiene que:

yi=(yi1+yi2)

2 así que (yi1-yi)=

(yi1−yi2)

2 y (yi2-yi)=−

(yi1−yi2)

2

Pero (yi1-yi2)=(yi1-yi)-(yi2-yi) lo cual coincide con el estimador de primeras diferencias. De forma similar aplica para los regresores x. Para valores superiores a dos periodos (T>2) los dos estimadores difieren. Bajo el supuesto que εit son vaiid se puede demostrar que el estimador GLS de primeras diferencias es igual al estimador within.

El estimador ��FD calcula los parámetros del modelo por OLS. Sin

embargo, es menos eficiente que ��W. Por esta razón el estimador en primeras diferencias no es mencionado o trabajado en modelos lineales. Es utilizado extensivamente cuando variables rezagadas son incluidas en modelos panel, por ejemplo, paneles dinámicos o no lineales.

En estos casos el estimador within (��W) se convierte en inconsistente, aunque el estimador de primeras diferencias es inconsistente permite a través de supuestos de exógeneidad débil realizar estimación por variables instrumentales (IV).

Page 162: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 161

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTIMADOR CONDICIONAL DE MAXIMA VEROSIMILITUD La estimación de máxima verosimilitud condicionada maximiza la función de verosimilitud conjunta de y11,….,yNT condicionada sobre los promedios individuales y1, y2,….., yNT. Este método tiene el atractivo que para modelos paneles lineales, y bajo normalidad, los efectos fijos, αi, son eliminados de modo que el proceso de maximización es únicamente con respecto a los parámetros de las pendientes, β. Suponga que yit está condicionada sobre los regresores xit y los parámetros αi, β y 𝛔2 son vaiid con distribución normal N[αi+𝐱it

t β,𝛔2]. Entonces la función de verosimilitud condicionada es:

La primera igualdad define la verosimilitud condicionada asumiendo independencia sobre los individuos (i). La segunda igualdad demuestra que es una distribución de probabilidad condicionada sobre los promedios de la variable dependiente, y. La tercera desigualdad plantea la función de verosimilitud bajo normalidad a ser maximizada.

Page 163: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 162

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El resultado clave radica en que para efectos fijos el parámetro de intercepto, α, no aparece en la ecuación final de modo que LCOND(β ,𝛔2, αi) es de hecho, LCOND(β,𝛔2) y puede ser maximizada el logaritmo de la función de verosimilitud condicional con respecto a β,𝛔2 únicamente. El resultado del estimador de máxima verosimilitud

condicionada ��CML resuelve las condiciones de primer orden (CPO) de la forma:

O de forma equivalente:

Sin embargo, estas son las mismas condiciones para una regresión OLS de (yit-yi) sobre (xit-xi). El estimador condicional

por máxima verosimilitud condicional ��CML, por lo tanto, es un

equivalente de un estimador within, ��w . Intuitivamente, este método arroja estimadores consistentes porque la función condicionada sobre el promedio de la variable dependiente a través del tiempo elimina los efectos individuales no observados (αi). Más formalmente, yi es un estadístico suficiente para αi y condicionado sobre un estadístico suficiente que permite estimaciones consistentes de β.

Page 164: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 163

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTIMADOR DE MÍNIMOS CUADRADOS DE VARIABLES FICTICIAS (LSDV) Una variación de los modelos B o C permiten estructurar variaciones a través de los individuos y en el tiempo mientras las pendientes permanecen constantes. Entonces, yit=αi+γt+𝐱it

t +uit o el modelo a estimar de otra manera es:

Donde las N dummies individuales dj,it son iguales a uno si el individuo (i) es igual al intercepto (j), o mejor (i=j), e igual a cero si son diferentes, (i≠j). Las (T-1) dummies temporales ds,it son iguales a uno si el periodo (t) es igual al rezago (s), o mejor (t=s), e igual a cero si son diferentes, (t≠s). Se asume que 𝐱it

t no incluyen intercepto. Este modelo tiene N+(T-1)+dim[x] parámetros que pueden ser estimados consistentemente si N→∞ y T→∞ Si se utilizan en paneles cortos (N→∞ y T) el análisis se puede dividir en dos partes. La primera, los parámetros de efectos no observados para los individuos (αi) implica un desafío dentro de este proceso de estimación, ya que es necesario calcular los β para N interceptos individuales (αi), debido a que al ser un panel corto se busca identificar diferencias para una gran cantidad de individuos (N→∞).

Page 165: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 164

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En algunos casos resolver este problema implica tener dummies individuales para grupos de observaciones, por ejemplo, región, ciudad, etc. La segunda, si se desea efectuar un análisis two way, los parámetros de rezago (δt) pueden ser consistente estimados de modo que las (T-1) dummies son incorporadas dentro de los regresores 𝐱it

t . Considere el modelo original de efectos fijos de la forma:

Antes de cualquier diferenciación. Un análisis por OLS puede ser aplicado directamente al modelo, simultáneamente estimando α y β. En principio no es necesaria una metodología especial. Simplemente se estima yit sobre xit y un conjunto de N variables indicadoras d1,it,….,dN,it donde dj,it es igual a uno si i=j e igual a cero en otra parte. Sin embargo, como N crece existen demasiados regresores para permitir la inversión de la matriz X de tamaño (N+K)(N+K),esta es otra característica del problema de parámetros incidentales. Con algún tratamiento matricial el problema se reduce a la inversa de una matriz KxK.

Page 166: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 165

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El estimador resultante de β por LSDV es igual al estimador within. Este es un caso que aplica el teorema Frish Waugh12 para un subconjuto de una regresión y derivar los parametros. Si las variables dummy están particionadas en la regresión y si los residuos de esta regresión son utilizados en un segundo estado de la regresión, entonces es posible estimar la regresión completa. Pero los residuos generados son desviaciones de sus respectivas medias, es decir, una regresión within. Para observarlo algeraicamente, agrupe un vector TxQ sobre los N individuos para resultar en el modelo de efectos fijos por variables dummy de la forma:

También pueden ser escritos de la forma:

12 Supongamos que se particiona una matriz X, cuyo rango es k, en dos matrices X1 y X2, cuyos rangos son respectivamente r y k−r, de manera que:

Para obtener la fórmula del estimador OLS resulta útil dividir las ecuaciones normales XtXβ= Xty

Este sistema puede resolverse en dos etapas. Primero obteniendo una expresión para β2 de la forma Sustituyendo en la

primera ecuación permite obtener Agrupando términos se puede obtener que

Cuya solución es Que resulta ser es el estimador:

La matriz M2 es idempotente y simétrica por lo que: Y Es una matriz de

residuos de la regresión de X1 en las variables X2. De igual manera Por lo tanto, β1 es el conjunto de coeficientes que se obtienen cuando los residuos de una regresión de y en las variables de X2 se regresan a su vez en el conjunto de residuos obtenidos cuando cada variable de X1 se regresa en las variables de X2.

Page 167: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 166

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde y es un vector de tamaño NTx1, el producto Kroneker (IN⊗1T) es una matriz NTxN de bloques diagonales y X es una matriz de tamaño NTxK de regresores. La estimación OLS de este modelo resulta en el estimador de mínimos cuadrados de variables ficticias (LSDV). Desde un punto de vista algebraico de la forma:

Donde la matriz de medias muestrales X=[x1……, xN]t, xi=

(1/T) ∑ xiTt=1 , Y=[y1,……, yN]t yi= (1/T) ∑ yi

Tt=1 . Utilizando la

fórmula de inversas particionadas y ejecutando el algebra conduce a que:

Reexpresando la forma anterior en términos de sumatoria implica que el estimador por variables dummy es igual al

estimador within, es decir, ��LSDV= ��W. En ambos modelos converge al siguiente estimador:

Page 168: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 167

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Este mismo análisis puede ejecutarse para las estimaciones de efectos observados entre los estimadores de mínimos cuadrados por variables dummy (LSDV) y el estimador within, es decir,

��LSDV= ��W. En ambos modelos converge al siguiente estimador:

Para paneles cortos un problema radica, al igual que para el estimador within, en como las estimaciones consistentes de β y α no garantizan que existan N+K parámetros a estimar en la medida que N→∞. Es de observar que las estimaciones consistentes de β es posible aunque α sea inconsistentemente estimados, a menos que T→∞. Este estimador es eficientemente en su segundo momento si εit son vaiid [0,σ2]. Resulta en el estimador within de β es más eficiente que estimadores alternativos que eliminan αi, tales que substraen la primera observación o periodo previsto de observaciones. Si adicionalmente los errores son normalmente distribuidos, el estimador LSDV es igual al estimador por maxima verosimilitud por la equivalencia usual de OLS y MLE en modelos lineales con errores normales.

Page 169: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 168

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

MODELOS DE EFECTOS FIJOS Y ALEATORIOS Sea el modelo one way, de un factor o de media individual (individual specific effects model) para una variable dependiente escalar, yit, la cual permite a cada unidad de corte transversal tener interceptos diferentes (αi), aunque todas las pendientes (β) sean las mismas el cual se representa como:

Donde xit son los regresores, αi es el intercepto individual (i), εit es el termino de error estocástico definidos como vaiid sobre individuos (i) y tiempo (t). Una atracción de los datos panel radica en la posibilidad de ejecutar estimaciones consistentes de los parámetros al permitir heterogeneidad individual no observada que puede estar correlacionada con los regresores conocida como modelo de efectos fijos (Fixed Effects o FE). Con esta propiedad los términos de error pueden estar correlacionados con los regresores xit y permite una forma limitada de endogeneidad. La forma de expresar el modelo B o C en términos de una metodologia de estimación de efectos fijos (FE) parte de utilizar dummies y consideradas como parte del intercepto para individuos (i) y tiempo (t) e incluirlas en los regresores xit a ser estimados por el método de LSDV o eliminar los interceptos para cada individuo, αi, de este modo, asegura la consistencia del estimador β en un panel corto (within).

Page 170: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 169

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Bajos otros supuestos y escenarios de trabajo el tratamiento de la heterogeneidad individual no observada asume una distribución independiente de los regresores y términos de error (exogeneidad fuerte) vistos en los Efectos Aleatorios (Random Effects). En este caso, si los interceptos para cada individuo, o efectos individuales no observables (αi), son variables aleatorias que están distribuidos independientemente de los regresores (xit) y pueden capturar la heterogeneidad no observada13, explícitamente asume que no existe correlación entre observaciones y términos de error (supuesto de exógeneidad fuerte o exógeneidad estricta14) en el proceso de estimación de un modelo de efectos aleatorios (RE) las dummies hacen parte del término de error afectando la estructura de la matriz de covarianzas, y por tanto, el método de estimación que utilizará metodologías FGLS . En el modelo de efectos aleatorios (RE) los términos de error, εit, se asumen vaiid sobre el modelo:

Es decir, en RE:

De este modo, el término de error asume media cero condicionada sobre valores presentes, pasados y futuros de los regresores, xit. 13 La heterogeneidad observada se refiere a diferencias entre individuos que son medidas a través de los regresores, y no observada se refiere a otras diferencias no capturadas. En presencia de heterogeneidad no observada incluso individuos con los mismos valores de todas las variables independientes pueden tener peligro de encontrarse en un estado determinado. 14 Bajo condiciones más flexibles, como exogeneidad débil permite incluir variales rezagadas en un modelo panel.

Page 171: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 170

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El modelo de efectos aleatorios (RE) usualmente hace el supuesto adicional que:

Obsérvese que no existe una distribución de probabilidad específica para los interceptos (αi) y términos de error (εit). En el caso que los efectos fijos (FE) están presentes y correlacionados con los regresores, xit, entonces los estimadores minimo cuadráticos asociados, es decir, estimaciones OLS para los modelos agrupados (pooled) y de efectos aleatorios (RE) son inconsistentes. Comparando el modelo de efectos fijos (FE) con el supuesto de endogeneidad entre regresores y términos de error tiene la ventaja de permitir estimaciones consistentes de parámetros, incluyendo coeficientes que no varían en el tiempo pero excluyendo aquellos que varian entre individuos. TABLA EFECTOS FIJOS Y EFECTOS ALEATORIOS

Page 172: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 171

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

TABLA. ESTRATEGIAS DE ESTIMACIÓN DE DATOS PANEL

MODELO Estimacion de β Agrupado o Pooled Efectos aleatorios Efectos fijos Agrupado/pooled Consistente Consistente/ineficiente Inconsistente Between Consistente/ineficiente Consistente/ineficiente Inconsistente Within Consistente Consistente Consistente Primeras diferencias Consistente Consistente/ineficiente Consistente Efectos aleatorios Consistente Consistente/ineficiente Inconsistente

Con lo anterior se pueden identificar varias características y diferencias entre efectos fijos (FE) y efectos aleatorios (RE): 1. Las propiedades estadísticas de los paneles de datos varían

con el tratamiento de los efectos no observados. Por ejemplo, si el supuesto de efectos aleatorios, o independencia entre regresores y términos de error (exógeneidad fuerte o estricta), no puede ser soportado por los datos a través de las pruebas de hipótesis correspondientes, esta es la principal razón para la elección del modelo de Efectos Fijos (FE) como punto de partida.

2. El modelo de efectos fijos tiene el atractivo al permitir establecer relaciones de causalidad bajo supuestos más débiles que las que se necesitan para establecer la relación de exogeneidad con datos de corte transversal o con modelos de datos panel sin efectos fijos, como los modelos agrupados (pooled) y modelos de efectos aleatorios.

3. Los supuestos de exógeneidad fuerte en efectos aleatorios (RE) excluyen modelos con variables dependientes rezagadas o variables endógenas como regresores15.

15 Chamberlain (1980) ofrece una discusión detallada de los supuestos y pruebas de exogeneidad para datos panel.

Page 173: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 172

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

4. Los nombres efectos fijos (FE) y efectos aleatorios (RE) son potencialmente engañosos ya que su principal diferencia radica desde el punto de vista de la exógeneidad entre los regresores, xit, y el termino error, 𝛆it. El efecto individual visto como regresor (αi) o por medio de la modificación de los términos de error (μi) es una variable aleatoria con características iguales para los modelos FE y RE.

5. Para el calculo de los parámetros, β, en FE o RE parten del principio de una forma lineal16:

E[yit|αi,xit]= αi+xitβ

El efecto específico individual αi es una variable aleatoria, como se afirmó en el punto anterior, para ambos modelos. En paneles cortos, los mas utilizados, no puede ser consistentemente calculados, por las limitaciones en el número de observaciones. De este modo, no es posible estimar E[yit|αi,xit] directamente. Para solucionar esta dificultad es posible transformar αi tomando expectativas con respecto a xit, es decir, condicionando sobre los regresores a la ecuación, de la forma:

E[yit|αi,xit]= αi+xitβ

16 Se acoge por este caso la notación de Wooldridge (2002).

Page 174: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 173

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para el modelo de efectos aleatorios (RE), la exógeneidad entre regresores y términos de error permite afirmar que E[αi|xit]=α, de este modo, E[yit|xit]=α+xitβ y es posible identificar E[yit|xit]. En el modelo de efectos fijos (FE) E[αi|xit] varia con respecto a xit, dado el supuesto de endogeneidad entre regresores y términos de error, por tanto, no es conocido su valor y su variación. Así las cosas, en FE no es posible identificar E[yit|xit], sin embargo, es posible consistentemente estimar β en paneles cortos y calcular los efectos marginales:

El pronóstico, relacionado con el valor marginal de los parametros, de la media condicional no es posible. En lugar de ello, sólo cambios en la media condicional causados por regresores variables en el tiempo se pueden pronosticar.

6. En paneles cortos el modelo FE permite únicamente la identificación de efectos marginales ∂E[yit|ci,xit]/∂xit para regresores que varían en el tiempo, de modo que regresores que varian sobre los individuos como raza o género, por ejemplo, no son identificados. En el modelo RE permite la identificación de todos los componentes de β y E[yit|xit], pero el supuesto de E[ci|xit] como una variable constante y exógena es débil frente a aplicaciones realistas.

Page 175: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 174

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

7. En el modelo de efectos aleatorios (RE) las estimaciones de los componentes de la varianza por individuos (i) o periodos (t) asumen el mismo intercepto y pendiente para todos. La heterogeneidad no observada se representa en el término de error y no debería estar correlacionada con los regresores. La diferencia entre individuos (i) y periodos (t) se presenta en la varianza de los términos de error, no en los interceptos. Un modelo RE es estimado por GLS cuando la matriz de covarianzas Ω entre grupos es conocida. El FGLS se utiliza cuando Ω es desconocida, en la mayoría de los casos.

8. Los coeficientes de efectos fijos de los regresores variables en el tiempo (xt) son estimables pero pueden ser muy imprecisos si la mayor parte de la variación en un regresor corresponde a la sección transversal en lugar del tiempo. Es decir, la variación between es mayor a la variacion within.

9. Incluso coeficientes de los regresores variables en el tiempo pueden ser difíciles o teóricamente imposibles de identificar en modelos no lineales con efectos fijos. Por estas razones, también se utilizan modelos de efectos aleatorios, aunque la interpretación causal puede ser entonces injustificada.

10. La estimación de efectos fijos es un análisis condicional, ya que mide el efecto de xit sobre yit controlados en algun sentido por el efecto individual no observado (αi). La estimación de efectos aleatorios es en cambio un ejemplo de análisis marginal ya que los efectos individuales se integran como vaiid.

Page 176: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 175

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

11. Si el verdadero modelo es efectos aleatorios y se desea realizar un analisis condicional o análisis marginal variará con la aplicación. Si el análisis es para una muestra aleatoria de países entonces se utilizará efectos aleatorios. Si intrínsecamente se está interesado en países en particular en la muestra parte de efectos fijos y será la elección. Aunque esto puede implicar una pérdida de eficiencia en la estimación.

12. Si el modelo verdadero tiene efectos individuales específicos (αi) correlacionados con regresores (xi) un análisis de efectos aleatorios no es significativo ya que el estimador es inconsistente. En cambio, estimadores alternativos de efectos fijos (within-LSDV) y primeras diferencias son necesarios. Debido al deseo de determinar la relación de causalidad aplicaciones se enfatizan estos últimos estimadores.

13. El enfoque de efectos fijos puede ser interpretado como aplicable a grupos considerados en el estudio, pero no a incluidos en la muestra. Cuando grupos son extracciones muestrales de una población más grande, puede resultar apropiado considerar que los efectos individuales no observados están aleatoriamente distribuidos y es aplicable un modelo de estimación de efectos aleatorios (RE).

Page 177: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 176

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTRATEGIA DE ANÁLISIS PANELES DE DATOS.

INFERENCIA ESTADÍSTICA DE PANELES CON ESTIMADOR DE ERRORES ROBUSTOS Varios modelos de datos panel incluyen términos de error denotados por uit, εit y αi. En algunos escenarios es razonable asumir la independencia sobre los individuos (i). Sin embargo, los términos de error potencialmente pueden ser serialmente no correlacionados (correlacionados sobre el tiempo, t, y para un individuo dado, i) y/o heterocedasticos. Para encontrar una inferencia estadística valida requiere controlar ambos de estos factores. Los estimadores consistentes por heterocedasticidad de White17 son fácilmente extensibles a paneles cortos puesto que para la i- 17 Este estimador propuesto por White (1980) reconoce que en los errores de los modelos de regresión lineal pueden ser heterocedasticos, y propone efectuar una corrección que calcula los residuos del modelo de la siguiente forma:

Page 178: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 177

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

esima observación la matriz de varianza del error es de dimensión finita TxT mientras N→∞. De esta forma, errores estándar robustos para datos panel pueden ser obtenidos sin asumir formas funcionales específicas dentro del error individual (within individual) o heterocedasticidad. El estimador más eficiente utiliza el método generalizado de momentos (GMM)18 Es importante observar frecuentemente y con cuidado los comandos de datos panel en programas de cómputo donde calcula por defecto el término de error asumiéndolos como una vaiid conduciendo a inferencias erróneas. En particular, la regresión OLS agrupada (pooled) de yit sobre xit

sin control de los efectos individuales es muy probable que tenga alguna correlación en los términos de error en el tiempo, COV[uit,uis]>0 para t≠s. Ignorando esta correlación serial puede conducir a varianzas más pequeñas, y por tanto, sobreestimar los t estadísticos.

Son conocidos como heteroskedasticity-robust standard error. 18 El método generalizado de los momentos (GMM) es un instrumento de estimación de parámetros estadísticos la cual bajo supuestos no muy restrictivos, son consistentes y con funciones de distribución fácilmente calculables. Los mínimos cuadrados ordinarios, mínimos cuadrados generalizados, estimación en dos etapas e incluso (bajo algunos supuestos adicionales) máxima verosimilitud, pueden ser considerados casos particulares de GMM. Otra de las características del método es que no requiere la especificación de una forma particular de distribución de las variables aleatorias involucradas en el modelo que se estudia. A pesar de estas cualidades, las propiedades de los estimadores obtenidos por el método generalizado de los momentos no son siempre buenas en muestra pequeñas.

Page 179: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 178

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ERRORES ESTÁNDAR EN PANELES ROBUSTOS TIPO SÁNDWICH19 En algunos casos es posible efectuar transformaciones sobre los modelos de datos panel para encontrar una forma común de tratamiento. Por ejemplo, después de las transformaciones correspondientes se puede construir los estimadores de un modelo de datos panel estándar que pueden ser obtenidos por un estimador OLS con un vector de parámetros, θ, en una regresión agrupada (pooled), de la forma:

Diferentes estimadores de datos panel, pooled, WE, FDE, RE, pueden ser ajustados para encontrar la forma funcional estándar anterior. Con este objetivo, se utilizaran diferentes transformaciones, según el caso, de la variable dependiente, ��it, regresores, ��it y el término de error, ��it, según el caso. Por ejemplo: 1. Estimador agrupado (pooled). Es el caso más simple, de un

modelo OLS agrupado (pooled) y no es necesaria ninguna transformación y θ=[𝛂,𝛃]

2. Estimador WE. Para el estimador en el grupo (WE) realiza las transformaciones para encontrar la forma estándar sobre la variable dependiente, ��it =(yit-��i) y los regresores ��it=(xit-��i). Los regresores que permanecen son aquellos que varían en el tiempo, por tanto, el vector de parámetros, θ, del modelo estándar está conformado por los coeficientes que varían a través del tiempo.

19 Un estimador tipo sándwich hace referencia al relajamiento de supuestos a través de las observaciones para ser independientes a través de los clusters de las observaciones. Su nombre se debe a que los términos de error estimado, e j, se encuentra entre las matrices (XtX)-1, las cuales a medida que el tamaño de muestra crece comprimen el tamaño de los termos de error estimado, e j,.

Page 180: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 179

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. Estimador de primeras diferencias (FDE). Para el estimador FDE, realiza las transformaciones para encontrar la forma estándar sobre la variable dependiente, ��it =(yit-yi,t-1) y los regresores ��it=(xit-xi,t-1), y de nuevo, los regresores que permanecen son aquellos que varían en el tiempo, por tanto, el vector de parámetros, θ, del modelo estándar está conformado por los coeficientes que varían a través del tiempo.

4. Estimador de efectos aleatorios (RE). Para el estimador de efectos aleatorios, realiza las transformaciones para encontrar la forma estándar sobre la variable dependiente,

yit =(yit-λyi,t) y los regresores ��it=(xit-λ��i,t) y el vector de parámetros, θ=[𝛂,𝛃].

Esta metodología es conveniente para agrupar observaciones sobre periodos de tiempo para individuos, conduciendo a un modelo de la forma:

Donde el vector de variables dependientes, ��i, es de tamaño Tx1, excepto para el estimador de primeras diferencias (FDE) que es (T-1)x1 y para los regresores, ��i es una matriz Txq o, para el modelo de primeras diferencias (FDE) una matriz (T-1)xq. También es útil para agrupar individuos de la forma:

Los modelos pueden ser estimados por OLS. Sin embargo, efectuadas las transformaciones correspondientes, pueden incluir correlación serial de igual manera que si fueran los modelos iniciales con los errores subyacentes que están

Page 181: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 180

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

correlacionados. El estimador por OLS del vector de parámetros

del modelo transformado,��, tiene la siguiente expresión:

Para el caso del estimador de primeras diferencias (FDE) la suma de los periodos será la suma desde t=2 a T. En este caso también es necesario considerar la consistencia del estimador, obsérvese que si el modelo está correctamente especificado entonces el álgebra usual de OLS resulta en

Dada la independencia sobre los individuos (i) la condición esencial para la consistencia radica en la independencia de los regresores y el término de error, E[��i, ��i]=0. Este requiere un puesto de exogeneidad fuerte entre los regresores y el termino

de error de la forma, E[��i|��i]=0 . La varianza asintótica de ��OLS

es de la forma:

Page 182: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 181

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Dada la independencia de los errores sobre los individuos la

estimación es consistente para V[��OLS] en este modelo de datos panel transformado es análogo al problema de corte transversal

de obtener estimadores consistentes de V[��OLS] que sean robustos a la heterocedasticidad de una forma conocida. Esto conduce a estimadores panel robustos de la matriz de varianza asintótica del estimador OLS agrupado (pooled) del modelo transformado que puede controlar tanto la correlación serial y la heterocedasticidad, de la forma:

Donde ��i =��i=��i-Wiθ. El estimador V[��OLS] asume independencia sobre los individuos y ellos se encuentra creciendo, N→∞, caso representativo de los paneles cortos, de otro modo permite que ña varianza de los errores, V[uit], y si covarianza, Cov[uit,uis], varíe con los individuos (i) y dos periodos de tiempo t y s. Una reexpresión del estimador V[��OLS] es la siguiente20:

Donde ��it =��it-��it��. Este estimador también fue propuesto por Arellano (1987) para el estimador de efectos fijos.

20 En STATA los errores estándar de panel robustos calculados por V[��OLS] pueden utilizar estimaciones por OLS y ajustarles una metodología de términos de error con cluster robusto seleccionadon individuos como variable de cluster.

Page 183: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 182

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ERRORES ESTÁNDAR POR EL MÉTODO DE BOOTSTRAP21 El método de bootstrap proporciona un camino alternativo para obtener errores estándar panel. El supuesto clave parte de asumir las observaciones independientes sobre los individuos (i), por lo que el método efectúa un procedimiento de remuestreo con el remplazamiento sobre los individuos (i) y utiliza todos los periodos de tiempo observados para un individuo (i) dado. Los datos {(yi,Xi)|i=1,…,N} resultan en muestras pseudo-aleatorias y para cada muestra ejecuta una regresión OLS de ��it

sobre ��it B veces, por tanto al final del proceso cuenta con B

estimadores ��b , b=1,2…B. El estimador de datos panel por bootsrtap calcula la matriz de varianzas y covarianzas

Donde �� =B-1∑ ��B

b=1 . Este método no proporciona refinamiento. Dada la independencia sobre los individuos (i) el estimador es consistente en la medida que los individuos crezcan, N→∞.

Es asintóticamente equivalente a estimar V[��OLS] y exactamente igual al caso de corte transversal y asintóticamente equivalente al estimador de heterocedasticidad consistente de White.

21 Es un método de simulación por remuestreo (resampling) que esencialmente es un experimento de simulación de Montecarlo donde la muestra observada es tratada como la población. En otras palabras, cada iteración, de tamaño N, efectua una muestra con remplazamiento para posteriormente obtener el cálculo de los estimadores. Este proceso se efectua K veces. Calculando el promedi de los estimadores permite calcular el sesgo de cualquier estimador. Puede ser utilizado para obtener errores estándar, intervalos de confianza y p-values ara pruebas estadísticas.

Page 184: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 183

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Este método puede ser aplicado a cualquier estimador panel que cuenta con independencia sobre los individuos (i)22 y N→∞, incluyendo el estimador GLS para regresiones agrupadas (pooled) de paneles cortos. ERRORES ESTÁNDAR CORREGIDOS PARA PANEL (PANEL CORRECTED STANDARD ERRORS - PCSE).23 Las bases de datos panel asumen una estructura diagonal en el proceso de estimación en los términos de error a través de su estructura de covarianzas. En particular, y por lo general, se supone que para cualquier individuo la varianza del error es constante, de modo que la única fuente de heterocedasticidad es la varianza del error a través de diferentes individuos. Sin embargo, las bases de datos panel muestran a menudo errores no esféricos debido a la correlación contemporánea y heterocedasticidad a través de los individuos. Dada esta condición de errores no esféricos en modelos para datos panel lineales es común el uso de una metodología de estimación por FGLS para mejorar la inferencia y estimación. Sin embargo, Beck y Katz (1995) mostraron que estimaciones FGLS tenían pocas propiedades de muestra finita.

22 Se debe efectuar un remuestreo por bootstrap únicamente sobre los individuos (i) no sobre los individuos (i) y el tiempo (t). 23 Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

Page 185: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 184

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En particular, en un estudio de simulación mostraron que los errores estándar estimados para este modelo generan intervalos de confianza significativamente pequeños y a menudo subestiman la variabilidad en un 50% o más, con aumentos en la eficiencia pero que ignoran errores no esféricos. Por lo tanto, Beck y Katz (1995) sugirieron la estimación de modelos lineales de datos panel por mínimos cuadrados ordinarios (OLS) y propusieron un estimador tipo sándwich de la matriz de covarianza de los parámetros estimados, que llamaron errores estándar del panel con corrección (PCSE), esta es robusta a la posibilidad de errores no esféricos. Sea el modelo panel de la forma:

Donde i=1,…,N son el numero de individuos y t=1,…,T son los periodos. Para Ti es el número de periodos en el panel para el i-esimo individuo y ϵit es la perturbación estocastica que puede estar autocorrelacionada a lo largo del tiempo (t) o contemporaneamente correlacionada a traves de los individuos.

Este modelo puede ser escrito de forma panel como:

Page 186: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 185

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para un modelo con perturbaciones heterocedasticas y correlación contemporanea pero sin autocorrelación, la matriz de covarianza se asume como:

Donde σii es la varianza de las perturbaciones para el individuo i-esimo, σij es la covarianza de las perturbaciones entre el individuo i-esimo y el individuo j-esimo. Una forma más general si el panel es o no balanceados puede ser escrito como:

Si no existe autocorrelación especificada los parámetros, β, son estimados por OLS. Si se especifica autocorrelación los parámetros, β, son estimados por regresiones Prais-Wisten. Cuando existe autocorrelación con coeficientes de correlación especificados cada nivel panel ρi es calculado con un coeficiente común de correlación calculado como:

Donde ρi es el coeficiente de correlación estimada para el individuo i-esimo y m número de paneles. La covarianza de OLS o coeficientes Prais-Winsten es:

Page 187: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 186

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Donde Ω es la matriz de covarianza de las perturbaciones. Donde los paneles son balanceados se puede escribir Ω como:

Donde Σ es una matriz de covarianzas NxN de perturbaciones. Cada elemento de Σ se calcula como:

Donde ϵi y ϵi son los residuos para las estimaciones de las matrices de covarianzas de los individuos i-esimo y j-esimo, respectivamente, que puede ser ajustada periodo a periodo y donde Tij es el número de residuos entre los individuos i y j.

IV. ESTRUCTURA DE PRUEBAS DE HIPOTESIS: ANALISIS DE

VARIANZA Los datos panel proporcionan información sobre comportamiento individual a través del tiempo (t) y los individuos (i)24. Para cada regresión lineal, el análisis de datos panel estándar utiliza un rango mucho más amplio de modelos y estimadores que en el caso de datos de corte transversal, por ejemplo. 24 Suponga se tiene observaciones muestrales de características de N individuos sobre T periodos con K variables explicativas denotados por yit, xkit i=1,…,N, t=1,…..,T, k=1,…,K. Convencionalmente, las observaciones de la variable, y, son asumidas como resultados aleatorios de algún experimento con una distribución de probabilidad condicionada sobre vectores de características x y un número fijo de parámetros Θ, f(y|x,Θ). Cuando los datos panel son utilizados, una de sus principales objetivos es utilizar toda la información para efectuar inferencia sobre el vector de parámetro Θ. Por ejemplo, un modelo puede postular a la variable, y, es una función lineal de x. Sin embargo, para ejecutar una regresión por mínimos cuadrados con NxT observaciones se necesita asumir que los parámetros de la regresión toman valores iguales a todas las unidades individuales para todos los periodos. Si este supuesto no es válido, las estimaciones agrupadas (pooled) pueden conducir a una falsa inferencia ya que sus resultados no son consistentes.

Page 188: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 187

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un modelo muy general para datos panel permite que varíen los coeficientes asociados con el intercepto (α) y las pendientes (β) sobre el individuo (i) y el tiempo (t), es decir:

Donde yit es una variable dependiente escalar, xit, es un vector de Kx1 variables independientes, uit es un término de perturbación estocástica, uit. Sea el siguiente modelo para individuos (i) y tiempo (t), con las siguientes características:

Este modelo es demasiado general en la medida que existen más parámetros, NT(K+1) más el número caracterizando el término de error, uit, que la disponibilidad de grados de libertad, NxT. Además, deben incluirse restricciones adicionales en la medida que parámetros de intercepto (αit) y pendiente (βit) varían respecto a los individuos (i), el tiempo (t). Por tal motivo, es necesaria una estructura de restricciones que debe ser impuesta sobre la ecuación anterior, antes de efectuar cualquier inferencia. El primer paso de la exploración de datos parte de probar si los parámetros que caracterizan el comportamiento aleatorio de la

Page 189: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 188

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

variable endógena, yit, permanecen constante a través de los individuos (i) y el tiempo (t). Un procedimiento utilizado para identificar el origen de la variación muestral es el análisis de varianza. El nombre “análisis de varianza” o ANOVA posee categorías particulares para contrastar pruebas de hipótesis lineales, además, se pueden estipular valores esperados de una variable aleatoria, yit, y su interacción en la estructura de dependencia (definiendo uno o más factores) a la cual los individuos pertenecen25. Por otra parte, modelos de análisis de varianza, en algunos casos, son de carácter mixto involucrando variables exógenas, como lo ejecutan los modelos de regresión, y al mismo tiempo, permiten la relación de cada individuo yi como depende al factor al cual pertenece. Basado en el principio de análisis de varianza Walpole (2003), suponga el siguiente modelo de la forma más general o no restringido:

Donde αit

∗ y βit son vectores de parámetros de tamaño 1X1 y 1XK, xit son regresores independientes y uit es el termino de error. Dada las características del modelo anterior, y la necesidad de incluir restricciones, dos aspectos de los coeficientes estimados pueden ser contrastados a través de pruebas de hipótesis.

25 En el procedimiento de análisis de varianza supone que cualquier variación que exista entre parámetros se atribuye a dos posibles causas. La primera, variación en la absorción de un factor entre observaciones (within). La segunda, la variación entre (between) los factores.

Page 190: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 189

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El primero, la homogeneidad de todos coeficientes o las

pendientes de regresión, ��, y la potencial combinación con la homogeneidad de todos los interceptos de regresión ��. El procedimiento de prueba tiene tres (3) pasos a seguir y probar por medio de contrastes de hipótesis de manera conjunta:

1. Paso 1. Las pendientes los regresores, ��, son las mismas. 2. Paso 2. Los interceptos, ��, son los mismos. 3. Paso 3. Las pendientes e interceptos son homogéneos entre

diferentes individuos (i) a través del tiempo (t). Si la hipótesis de homogeneidad global no se rechaza (paso 1) terminara en este punto. Si la hipótesis es rechazada, es decir, no existe homogeneidad

entre pendientes (��) e interceptos (��), el segundo paso de

análisis es decidir si las pendientes de regresión (��) son las mismas (paso 2).

Si la hipótesis de homogeneidad de las pendientes (��) no se rechaza entonces no es necesario el tercer paso. Por último, si se rechaza la hipótesis del paso 2, se efectuá el paso 3.

Page 191: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 190

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es decir, se parte de un inicio de homogeneidad en el paso 1 hasta llegar a comprobar heterogeneidad en pendiente e intercepto. ESTRUCTURA DE CONTRASTE DE HIPÓTESIS EN UN MODELO DE DATOS PANEL

Aunque este tipo de análisis puede ser ejecutado en varias dimensiones, por ejemplo, individuos (i) y tiempo (t) o de dos factores (two way), el análisis de varianza de un solo factor (one way) es el más utilizado (individuos, suponiendo el factor temporal igual a cero).

Page 192: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 191

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE CUADRADOS DE LOS RESIDUOS RESPECTO A LOS INDIVIDUOS Basado en la estructura anterior de contrastes de hipótesis del grafico anterior para encontrar heterogeneidad en un modelo de regresión, se asumen los parámetros del intercepto constantes sobre el tiempo (t) pero varían a través de los individuos. De esta forma, se definirá el CASO 0, como un modelo de regresión para cada individuo (i) en cada periodo de tiempo (t), o modelo no restringido, de la forma:

Tres (3) tipos de restricciones pueden ser impuestas sobre el modelo anterior asociados a los pasos iniciales: CASO 1. H0

1: Asociado al paso 1. Los coeficientes de pendiente de

la regresión, ��, son los mismos y los interceptos no lo son ��i, es decir:

CASO 2. H0

2: Asociado al paso 2. Los coeficientes de interceptos de la regresión, ��, son los mismos y las pendientes no lo

son ��i, es decir:

CASO 3. H0

3: Asociado al paso 3 de homogeneidad del modelo. Los coeficientes de interceptos y pendientes son los mismos, es decir:

Page 193: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 192

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El CASO 0 es el modelo no restringido. El CASO 1 es el modelo de media individual. Dado que tiene poco significado preguntar si los interceptos son los mismos cuando las pendientes cambian se ignorara el CASO 2. El CASO 3 es la regresión agrupada (pooled). Sean los promedios aritméticos de los individuos (i) a través del tiempo (t) para los regresores x, y la variable dependiente, y, respectivamente, se tiene que:

Estimación del modelo no restringido. Las estimaciones de mínimos cuadrados de 𝜷 y 𝛼𝑖

∗ en el modelo no restringido, CASO 0, están dadas por:

En la terminología del análisis de varianza, la ecuación anterior, se conoce como estimación entre grupos (within group estimates). Dónde:

La suma de cuadrado de los residuos (RSSi) se define como:

La suma de cuadrados del modelo no restringido, o CASO 0, es:

Page 194: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 193

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Estimación de caso 1. La regresión del modelo de media individual, es decir, los coeficientes de las pendientes de la

regresión, ��, son las mismos y los interceptos no lo son ��i, tiene los siguientes parámetros estimados:

Dónde:

Sea Wyy= ∑ 𝑊𝑦𝑦,𝑖

𝑁𝑖=1 la suma de cuadrados de los residuos del

CASO 1, o el modelo de media individual, se define como:

Estimación de CASO 3. El modelo más restrictivo es un modelo agrupado (pooled) donde se especifican coeficientes de pendiente e intercepto constantes. El supuesto usual para análisis de corte transversal, indica que:

La regresión por mínimos cuadrados agrupada (pooled estimation) para el CASO 3, o los coeficientes de interceptos y pendiente son los mismos y tienen los siguientes parámetros estimados:

Dónde:

Page 195: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 194

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La suma de cuadrados de los residuos para este modelo son:

Si este modelo es correctamente especificado, y los regresores están no correlacionados con el término de error (que determina la utilización de efectos fijos o aleatorios), entonces puede ser estimado consistentemente utilizando OLS agrupados (pooled). Sin embargo, el término de error, en la mayoría de los casos, se encuentra correlacionado a través del tiempo para un individuo (i). Además, el proceso de estimación por OLS no es recomendable en la medida que pueden generar sesgos importantes26. CONSTRUCCIÓN DE LAS PRUEBAS DE HIPÓTESIS Bajo el principio de análisis de varianza, y utilizando la suma de cuadrados de residuos de la regresión calculados en cada uno de los casos anteriores, definidos como:

26 El estimador OLS agrupado (pooled) es inconsistente si el modelo de efectos fijos es apropiado.

Page 196: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 195

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

S1: suma de cuadrados del residuo (SSR) del modelo no restringido, o CASO 0 S2: suma de cuadrados del residuo (SSR) del modelo de media individual, o CASO 1 S3: suma de cuadrados del residuo (SSR) del modelo agrupado (pooled), o CASO 3

Bajo el supuesto adicional que el termino de error, uit, es una vaiid y normal distribuida sobre los individuos (i) y en tiempo (t) con media cero y varianza 𝜎𝑢

2, es posible efectuar una prueba F que puede ser utilizada para contrastar las restricciones sobre los modelos para el CASO 1, los coeficientes de pendiente de la

regresión, ��, son los mismos y los interceptos no lo son ��i y el CASO 3 los coeficientes de interceptos y pendiente son los mismos. El CASO 1 y CASO 3 pueden ser observados como el CASO 0, o modelo no restringido, sujeto a restricciones lineales. Por ejemplo, la hipótesis de interceptos heterogéneos pero pendientes homogéneas (CASO 1) puede ser reformulado en una prueba de hipótesis sobre el modelo no restringido, CASO 0, sujeto a (N-1)K restricciones lineales donde se plantea la siguiente prueba de hipótesis sobre los β dejando libres a los interceptos:

La hipótesis de interceptos (α) y pendientes (β) homogéneas, CASO 3, también puede ser estructurada en un modelo no restringido, CASO 0, con (K+1)(N-1) restricciones lineales, es

Page 197: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 196

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

decir, restringiendo en una prueba de hipótesis interceptos (α) y pendientes (β) de la forma:

De este modo, las pruebas utilizadas en el analisis de varianza (ANOVA) es equivalente a pruebas de hipotesis ordinarias, H0, fundamentada en la estimación de modelos no restringidos y el cálculo de la suma de cuadrados de los residuos (SSR) que pueden incorporar restricciones lineales y efectuar las pruebas de hipotesis correspondientes. El calculo del estadistico para determinar la prueba de hipótesis, H0

3, o que los coeficientes de interceptos y pendientes son los mismos, se divide en dos partes. La primera, define la suma de cuadrados de los residuos (SSR) del modelo no restringido, CASO 0 o S1, dividido entre la varianza de los terminos de error del modelo agrupado (pooled), S1/𝜎𝑢

2, que se distribuye χ2 con NT-N(K+1) grados de libertad. La segunda, mide el efecto de los individuos en el modelo y se calcula como la diferencia entre la suma de cuadrados de los residuos del modelo agrupado (S3) menos la suma de cuadrados de los residuos del modelo no restringido (S1) o (S3-S1). Es decir, lo que no explica el modelo agrupado (pooled) menos el no restringido corresponde a la suma de cuadrados debido al efecto de los individuos (i).

Page 198: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 197

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La razón (S3-S1)/𝜎𝑢2 se distribuye χ2 con (N-1)(K+1) grados de

libertad. Se asume que (S3-S1)/𝜎𝑢2 es independiente de S1/𝜎𝑢

2. La división de las dos distribuciones χ2 es una distribución F de la forma:

El estadístico para efectuar la prueba de contraste de interceptos y pendientes comunes es F con (N-1)(K+1) y N(T-K-1) grados de libertad. El contraste se realiza sobre una distribucion F con (N-1)(K+1) y N(T-K-1) grados de libertad y un nivel de confianza de (1-α), (F(N-1)(K+1) y N(T-K-1)). Si no es significativo, se agrupan los datos y estima una sola ecuación, o el CASO 3, o mejor, no se puede rechazar la hipótesis nula de interceptos y pendientes comunes, 𝐻0

3, bajo el estadístico de prueba F3. Si el estadístico F3 es significativo se encontró no homogeneidad, o se rechaza la hipótesis nula de homogeneidad (𝐻0

3), que puede ser atribuida a dos causas. La primera, pendientes heterogéneas. La segunda, interceptos heterogéneos. El calculo del estadistico para determinar la prueba de hipótesis H0

1, o que los interceptos (α) son heterogéneos pero las pendientes (β) son homogéneas, de divide en dos partes.

Page 199: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 198

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La primera, define la suma de cuadrados de los residuos del modelo de media individual, S2, dividido por la varianza del termino del error del modelo agrupado (pooled), S2/𝜎𝑢

2, que se distribuye χ2 con N(T-1)-K grados de libertad. La segunda, mide el efecto del intercepto en el modelo y se calcula como la diferencia entre la suma de cuadrados de los residuos del modelo de media individual, CASO 1, (S2) menos la suma de cuadrados de los residuos del modelo no restringido (S1) o (S2-S1). Es decir, los residuos del modelo, S2, hacen explícito el componente de intercepto individual, αi

∗, si se le resta el efecto del modelo no restringido el resultado es el efecto del intercepto. Por lo tanto, la razón (S2-S1)/σu

2 se distribuye χ2 con (N-1)K grados de libertad27. Se asume que (S2-S1)/σu

2 es independiente de S1/σu

2 . El estadístico F, como combinación de distribuciones independientes χ2, para contrastar H0

1, o los coeficientes de pendiente de la regresión son los mismos y los interceptos no lo son, está dado por:

El contraste se realiza sobre una distribucion F con (N-1)K y NT-N(K+1) grados de libertad y un nivel de confianza de (1-α), (F(N-

1)K y NT-N(K+1)).

27 La diferencia de la diferencia de (S2-S1) pueden ser deducidos sus grados de libertad dado que S1 tiene [NT-N(K+1)] y para S2 tiene [ N(T-1)-K]. La resta es (N-1)K grados de libertad

Page 200: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 199

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si es significativo, es decir, no se puede rechazar la hipotesis nula donde las pendientes de la regresión son las mismas y los interceptos no lo son. Si el estadistico F1 no es significativo, se puede rechazar la hipotesis nula donde las pendientes de la regresión son las mismas y los interceptos no lo son. Por otra parte, se puede determinar el grado de no homogeneidad en los interceptos. Si la hipótesis de interceptos heterogéneos no se rechaza, conociendo de antemano que existen pendientes homogéneas, H0

1, CASO 1, se pueden aplicar pruebas condicionadas para interceptos homogéneos, es decir:

dado

En este caso, dada la restricción sobre los parámetros de pendiente (β), la suma de cuadrados del modelo de media

individual (coeficientes de pendiente de la regresión, ��, son los mismos y los interceptos no lo son ��i) se convierte en el modelo no restringido, S2, y como su versión restringida la suma de cuadrados del modelo agrupado (pooled), S3. La diferencia entre la suma de cuadrados de los residuos entre el modelo agrupado (pooled) y el modelo de interceptos heterogéneos pero pendientes homogéneas, revela su semejanza estadística, es decir, (S3-S2).

Page 201: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 200

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si la diferencia tiende a cero los dos modelos son equivalentes, si la diferencia se incrementa existe un efecto significativo de los individuos (i) en el modelo de media individual respecto al modelo agrupado (pooled). Bajo la hipótesis nula H4, la suma de cuadrados del residuo del modelo agrupado o restringido, S3, dividido por el termino del error del modelo no restringido, S3/σu

2 , tiene una distribución χ2 con NT-(K+1) grados de libertad y la suma de cuadrados del residuo del modelo de modelo de interceptos heterogéneos pero pendientes homogéneas, S2/σu

2 , tiene una distribución χ2 con N(T-1)-K grados de libertad. La resta de los grados de libertad de (S3-S2)/σu

2 , tiene una distribución χ2 con N-1 grados de libertad28. Dado que S2/σu

2 es independiente de (S3-S2)/σu2 , la cual se

distribuye χ2 con N-1 grados de libertad su puede construir una prueba F para H4 de la siguiente forma:

El contraste se realiza sobre una distribucion F con (N-1) y T(N-1)-K grados de libertad y un nivel de confianza de (1-α), (F(N-1) y

T(N-1)-K;(1-α)). CONTRASTES DE PARAMETROS ESTIMADOS Y SUMA DE CUADRADOS DE LOS RESIDUOS RESPECTO AL TIEMPO Alternativamente, es posible asumir que los coeficientes son constantes a traves de los individuos en un periodo dado, pero

28 La diferencia de grados de libertad se puede calcular como: [NT-(K+1)]-[N(T-1)+K]=N-1

Page 202: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 201

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

pueden variar sobre el tiempo tanto el intercepto (αt∗) como las

pendientes (βt). Es posibe efectuar una regresion separada para cada corte trasnversal durante cada periodo de tiempo, de la forma:

Donde, de nuevo, se asume que uit es una vaiid con media cero y varianza constante, σu

2 . De forma analoga al analisis de varianza (ANOVA), puede ser ejecutado un metodo para contrastar la heterogeneidad de los parametros de corte transversal sobre el tiempo. De este modo, se puede probar la homogeneidad del intercepto y las pendientes a traves del tiempo sobre la siguiente prueba de hipotesis:

Efecutando la diferencia entre la suma de cuadrados del residuo del modelo agrupado (S3) menos la suma de cuadrados del residuo del modelo de coeficientes constantes a traves de los individuos pero pueden variar sobre el tiempo tanto en el

intercepto (αt∗) como en las pendientes (βt), S1

´ , se tiene el siguiente estadistico distribuido F:

Page 203: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 202

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El contraste se realiza sobre una distribucion F con (T-1)(K+1) y NT-T(K+1) grados de libertad y un nivel de confianza de (1-α), (F(T-1)(K+1) y NT-T(K+1);(1-α)), donde se define el calculo de la suma de cuadrados del residuo del modelo con coeficientes constantes a traves de los individuos pero pueden variar sobre el tiempo

tanto en el intercepto (αt∗) como en las pendientes (βt), S1

´ , de la siguiente forma:

De manera similar, se puede contrastar la hipotesis de interceptos heterogeneos en el tiempo (αt

∗), pero pendientes homogeneas (βt) en el tiempo, bajo la siguiente prueba de hipotesis:

Se calcula la diferencia entre la suma de cuadrados del residuo del modelo con coeficientes constantes a traves de los individuos

pero pueden variar sobre el tiempo, S1´ , menos la suma de

cuadrados del residuo del modelo de media individual modificado, en vez del promedio de los individuos el promedio

del tiempo para cada individuo, S2´ , donde:

Page 204: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 203

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Utilizando el siguiente estadistico F, una modificacion a F1 o la prueba que contrastaba si los interceptos (α) son heterogéneos pero las pendientes (β) son homogéneas entre individuos. Ahora realiza la misma prueba sobre el tiempo en vez de los individuos. El estadístico F es:

El contraste se realiza sobre una distribucion F con (T-1)K y NT-T(K+1) grados de libertad y un nivel de confianza de (1-α), (F(T-

1)K y NT-T(K+1);(1-α)). Tambien, dentro de estos contrastes temporales, es posible contrastar la hipotesis de homogeneidad de los interceptos (αt

∗) condicionada sobre pendientes homogeneas (βt), es decir:

Se realiza la difencia entre la suma de cuadrados del residuo del modelo agrupado menos la suma de cuadrados del residuo del modelo de media individual modificado, en vez del promedio de

los individuos, el promedio del tiempo para cada individuo, S2´ .

Con estos resultados se tiene el estadístico de contraste distribuido F de la forma:

Page 205: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 204

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El estadistico efectua un contraste con una distribucion F con (T-1) y T(N-1)-K grados de libertad y un nivel de confianza de (1-α), (F(T-1),T(N-1)-K;(1-α)). En general, a menos que se efectuen las pruebas en ambas secciones, es decir, corte trasnversal y serie de tiempo, e indiquen el no rechazo de la homogeneidad de los coeficientes de regresion de pendientes e intercepto, el agrupamiento no condicionado (es decir, el modelo pooled o una sola regresion por OLS utilizando todas las observaciones de corte transversal a traves del tiempo) puede conducir a un serio sesgo dentro del proceso de estimacion. RESUMEN DE PRUEBAS DE HIPOTESIS Y CONTRASTES DE HIPOTESIS

Page 206: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 205

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Pueden existir sutuaciones incomodas en los proceso de contrastes de hipotesis. Una posibilidad existe en el contraste de parametros e intercepto comunes con variacion de los individuos y constante el tiempo (F3) o contraste de parametros e intercepto comunes con

variacion del tiempo y constantes los indivuduos (F3´ ) se pueden

encontrar resultados opuestos con pruebas de hipotesis donde no se rechaze la hipotesis de pendientes e interceptos heterogeneos donde varian los individuos y es constante el tiempo (F1) o varian el tiempo y estan constantes los individuos

(F1´ ).

Page 207: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 206

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Dada las hipotesis nula y alternativa que son de algun modo diferente en los dos casos. Peor aun, se puede rechazar la hipotesis sobre el supuesto de

homogeneidad utilizanto la razon F3 (F3´ ), pero entonces

encontrar a F1 (F1´ ) y F4 (F4

´ ) que no pueden ser rechazadas en sus hipotesis nulas, de modo que la existencia de heterogeneidad

indicada por F3 (F3´ ) no se puede salvar.

Este resultado es bastante apropiado en un nivel estadistico formal, aunque en el menos formal pero nivel importante de interpretacion de las pruebas estadisticas puede ser molesto. V. CONTRASTES DE HIPÓTESIS EN DATOS DE PANEL Los modelos de datos panel se clasifican en dinámicos o estáticos según incluyan o no en sus ecuaciones variables pertenecientes a diferentes periodos temporales. En la especificación estática, el modelo de regresión de un solo factor (one way) supone que el error aleatorio se descompone en uit=μi+ϵit. Donde cada μi es el efecto individual (no observado) de cada individuo de corte transversal, invariante en el tiempo29. El modelo a estimar es el siguiente:

Yit=αi+xitβ+uit La presencia del efecto fijo (FE) en esta ecuación hace que una estimación de β por OLS no sea consistente y sea sesgada. Los

29 Los interceptos para cada uno de los individuos, αi~(0,σα

2 ), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los individuos (i). El termino estocástico puro, ϵit~(0,σϵ

2), son variables aleatorias independiente e idénticamente distribuidas (vaiid) sobre los individuos (i) y el tiempo (t), donde existe una condición de exogeneidad entre ellos, es decir, E[ϵit|αi]=0 ∀ i,j,t.

Page 208: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 207

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

métodos que se utilizan para solventar ese problema son la estimación de efectos fijos (FE) o entre grupos (within groups) y la estimación de efectos aleatorios (RE) por Mínimos Cuadrados Generalizados factibles (FGLS). La estimación de efectos fijos (FE) puede llevarse a cabo transformando el modelo anterior en otro en términos de las medias de grupo, es decir:

Y estimando por OLS, o también, mediante una estimación por mínimos cuadrados de variables ficticias (LSDV), αi. En este contexto, pueden plantearse los siguientes contrastes. CONTRASTE DE EFECTOS INDIVIDUALES EN MODELOS DE COMPONENTES DE ERROR DE UN SOLO FACTOR (ONE WAY) La significancia conjunta de las variables ficticias en un modelo de componentes de error de un factor (one way), debe demostrar que todos los coeficientes asociados con el intercepto, α, son iguales a cero, o mejor, no existe diferencia entre los N individuos visto a través de sus diferencia en el intercepto, de forma que puede ser contrastada mediante la hipótesis nula y alternativa construida de la siguiente manera:

H0: α1=α2=α3=…=αN=0 H1: αi ≠0

El estadístico de contraste es el siguiente:

Donde el RSSR es la suma de cuadrados de residuos (Residual Sum of Squares) de la regresión que se obtiene de la estimación

Page 209: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 208

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

OLS en el modelo agrupado (within groups) y el RSSU es la suma de cuadrados de los residuos de la estimación por mínimos cuadrados de variables dummy (LSDV). La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una FN-1,N(T-1)-K. CONTRASTE DE EFECTOS INDIVIDUALES Y DE TIEMPO EN MODELOS DE COMPONENTES DE ERROR DE DOS FACTORES (TWO WAY) Un modelo de regresión de componentes de error de dos factores (two way) incluye, además de un efecto individual invariante en el tiempo, αi, un efecto común a todos los individuos el cual captura efectos temporales o macroeconómicos no observables, δt, en el componente de error uit

30. El modelo de regresión, es por tanto: yit=αi+xitβ+δt+ϵit El modelo de estimación entre grupos (within groups) conlleva tomar promedios aritméticos en la ecuación anterior, tanto en los individuos como en el tiempo, y transformar el modelo anterior en: yit-yi-yt+y=(xit-xi-xt+x)tβ+(ϵit-ϵi-ϵt-ϵ) En este modelo de componentes de error de dos factores (two way) puede también contrastar la significancia conjunta de las variables dummies ejecutadas en la estimación por mínimos cuadrados de variables dummy (LSDV), de forma similar a como

30 El componente de intercepto para los individuos αi y el componente estocástico puro, ϵit, tienen los mismos supuestos que en el modelo de un solo factor (one way), además, δt~(0,σϵ

2) es una vaiid para todo t y αi, δt y ϵit son independientes para todo i,j,t.

Page 210: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 209

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

se indicó para los modelos de un solo factor (one way), para dos los grupos de variables no observadas, individuos (i) y tiempo (t). De este modo, la prueba de hipótesis del modelo de dos factores (two way) se puede expresar como:

H0: α1=α2=α3=…=αk=0 y δ1=δ2=δ3=………=δT=0 H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T

El estadístico de contraste para este caso es:

Donde el RSSR es la suma de cuadrados de residuos (Residual Sum of Squares) de la regresión que se obtiene de la estimación OLS en el modelo agrupado y el RSSU es la suma de los cuadrados de los residuos de la regresión entre grupos (within groups) sobre la ecuación transformada por promedios aritméticos. La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una FN+T-2,(N-1)(T-1)-K. Dada la estructura anterior de contraste de hipótesis, es posible, además, efectuar pruebas de no tener efectos individuales (αi=0), dada la existencia de efectos temporales (t), es decir:

H0: α1=α2=α3=…=αk=0 tal que δj≠0 donde j∈T H1: αi ≠0 ∀ i∈N o δ j ≠0 donde j∈T

Page 211: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 210

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En este caso, la suma de cuadrados de residuos de la regresión, RSSR, incluye únicamente los componentes no observados temporales en la regresión: yit-yi-yt+y=(xit-xi-xt+x)tβ+(ϵit-ϵi-ϵt-ϵ) Mientras que la suma de cuadrados residuales de la regresión within, RSSU. La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una F(N-1),(N-1)(T-1)-K. Obsérvese la diferencia entre la construcción de las pruebas de hipótesis nula, contrastando efectos individuales en los modelos de un solo factor (one way) y dos factores (two way):

H0: αi=0 i=1,2,…,N suponiendo que δt=0 para t=1,2,….,T (One way)

H0: αi=0 i=1,2,…,N sabiendo que δt=0 para t=1,2,….,T (Two way) Mientras en el primero caso realiza una prueba de heterogeneidad entre los individuos a través del intercepto (αi=0) donde supone un efecto temporal, en el segundo caso sabe de la existencia del efecto del tiempo (t) dentro de la estructura de datos panel. Esta es una diferencia radical en la construcción y el contraste de la prueba hipótesis. De forma análoga, se puede efectuar el contraste de hipótesis de la significancia de efectos temporales (t) conociendo de

Page 212: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 211

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

antemano la existencia de efectos de heterogeneidad individual (αi≠0), donde se puede plantear la prueba:

H0: δ1= δ2=…………= δT= 0 sabiendo que αi≠0 H1: δj≠0

Donde la suma de cuadrados de residuos de la regresión, SSRR, está dado por la regresión de la forma yit-yit-1=(xit-xit-1)tβ+(ϵit-ϵit-

1) y suma de cuadrados residuales de la regresión entre grupos (within groups) procede de la regresión yit-yi-yt+y=(xit-xi-xt+x)tβ+(ϵit-ϵi-ϵt-ϵ). La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una F(T-1),(N-1)(T-1)-K. MULTIPLICADORES DE LAGRANGE PARA CONTRASTAR PRUEBAS DE EFECTOS ALEATORIOS La prueba de Breusch y Pagan consiste en identificar la existencia de autocorrelación residual entre los términos de error de un modelo estimado en distintos momentos del tiempo equivalente a probar la existencia de efectos constantes en el término de error. La hipótesis nula en la prueba LM propuesta por Breusch y Pagan (1980)31 para efectos aleatorios trata de demostrar como las varianzas, a través de los individuos, o su heterogeneidad es cero.

31 Paquetes estadísticos como STATA trabajan con las modificaciones efectuadas sobre esta prueba por Baltagi and Li (1990).

Page 213: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 212

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es decir, no existe diferencia significativa a través de los individuos (o no existe efecto panel). Puede ser escrito en términos de pruebas de hipótesis como:

H0: σα2 =0

H0: σα2 ≠0

Trabajando a partir de estimaciones por máxima verosimilitud a partir de la ecuación, yit=αi+xitβ+δt+ϵit, se construye el estadístico LM=LM1+LM2. Dónde se pueden construir los siguientes estadísticos:

Siendo ϵ los residuos de la estimación OLS de la ecuación yit=αi+xitβ+δt+ϵit, IN e IT son matrices identidad de tamaño N y T, las matrices JT y JN son de tamaños T y N respectivamente. El objetivo de la prueba es decidir entre una regresión con efectos aleatorios (αi) y una regresión por mínimos cuadrados (OLS) o regresión agrupada (pooled regression). La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una χ1

2. De manera análoga, es posible decidir a través de un contraste entre la regresión con efectos temporales (δt) o una regresión

Page 214: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 213

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

por mínimos cuadrados (OLS) o regresión agrupada (pooled regression). El estadístico de contraste es LM2, bajo la prueba de hipótesis:

H0: σδ2=0

H1: σδ2≠0

La distribución, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una χ1

2. Cuando el valor del estimador sea mayor a aquel reportado en la tabla de valores críticos de la distribución χ2 con un (1) grado de libertad, bajo el nivel de significancia deseado, se rechaza la hipótesis nula. En ese caso se confirma la existencia de un componente fijo en el error, y es necesario aplicar efectos aleatorios (RE) o alguna metodología de efectos fijos (FE). Si por el contrario no es posible rechazar la hipótesis nula, se asume que no existe un término fijo en el error y se utiliza OLS. ELECCIÓN DEL MÉTODO: ¿EFECTOS FIJOS O EFECTOS ALEATORIOS? El modelo de efectos fijos (FE) tiene la atracción de permitir utilizar datos panel para establecer causación bajos supuestos débiles en comparación con aquellos donde se utilizan supuestos fuertes para establecer causalidad como corte transversal, modelos de datos panel sin efectos fijos, tal como modelos agrupados (pooled) y modelo de efectos aleatorios (RE).

Page 215: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 214

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En algunos estudios la causalidad es clara, de este modo los efectos aleatorios (RE) es apropiada. En otros casos, determinar esta causalidad puede ser insuficiente para utilizar un modelo de efectos aleatorios (RE), y por tanto, para medir la correlación y determinar una relación de causalidad, de este modo, permite utilizar otras aproximaciones. El modelo de efectos fijos (FE) tiene varias debilidades prácticas. La estimación de los coeficientes de cualquier regresor invariante en el tiempo, xi, tales como la variable género, no es posible absorbela dentro de algún efecto especifico en particular. Los coeficientes de regresión que varían en el tiempo son estimables, pero las estimaciones pueden ser imprecisas si la variación en el modelo panel su mayoría corresponde al componente de corte transversal (efecto between) sobre las variables de tiempo. La predicción de la media condicional no es posible. Únicamente cambios en la media condicional causados por cambios en regresores que cambien en el tiempo, xit, pueden ser pronosticados. Regresores de coeficientes que varían en el tiempo pueden ser difícil o teóricamente imposible de identificar en modelos no lineales con efectos fijos, por esta razón utilizan efectos aleatorios, de igual manera si la interpretación causada pueda ser no garantizada. La decisión acerca de la estructura apropiada para el análisis sobre una base de datos panel, es decir, efectos fijos (FE) o

Page 216: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 215

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

efectos aleatorios (RE) depende en parte de los siguientes aspectos: 1. Objetivos del estudio. Si se desea hacer inferencia con

respecto a la población, es decir, trabaja con una muestra aleatoria, lo mejor es utilizar una especificación del tipo aleatorio. En caso, si el interés es limitado a una muestra que se ha seleccionado a conveniencia, o bien, que se está trabajando con la población, la estimación de efectos fijos será la correcta. Adicionalmente, si el interés particular está puesto en los coeficientes de las pendientes (β) de los parámetros, y no tanto en las diferencias individuales, se debería elegir un método que relegue estas diferencias y tratar la heterogeneidad no observable como aleatoria. El modelo de efectos fijos se ve como un caso en que hace inferencia condicionada a los efectos que ve en la muestra. El modelo de efectos aleatorios hace inferencia condicional o marginal respecto a una población. Se deja al investigador que decida si hace inferencia con respecto a las características de una población o solo respecto a los efectos que están en la muestra.

2. El contexto de los datos, es decir, cómo fueron obtenidos y el entorno de donde provienen. Con el método de efectos fijos (FE) la heterogeneidad no observable se incorpora en el intercepto del modelo, mientras con el modelo de efectos aleatorios (RE) se incorporan en el término de error, por lo cual, modifica la varianza del modelo.

Page 217: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 216

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. Emplear un modelo de efectos fijos (FE) o aleatorios (RE) genera diferencias en las estimaciones de los parámetros en los casos en que se cuenta con ventanas de tiempo acotadas o t pequeño y un número de entidades o individuos cada vez mayor o paneles cortos (N→∞ y T).

En estos casos, debe hacerse uso más eficiente de la información para estimar esa parte de la relación de comportamiento contenida en las variables que difieren sustancialmente de un individuo a otro. PRUEBA DE HAUSMAN Esta prueba permite determinar qué modelo es el más adecuado para una estructura de datos panel, si efectos fijos (FE) o efectos aleatorios (FE). Utiliza para ello una prueba χ2 con la hipótesis nula (H0) afirmando que el modelo de efectos aleatorios (RE) es el que mejor explica la relación de la variable dependiente (yit) con las explicativas (xit), por tanto, tiene la hipótesis alternativa (H1) que el mejor método que se ajusta es el de efectos fijos (FE). Para efectuar la prueba es necesario elegir el método de estimación de un modelo de componentes de error de un solo factor (one way), el cual juega un papel importante dada la existencia de correlación entre regresores (xit) y los términos de error (endogeneidad). Por tanto resulta arriesgado suponer que tal correlación no existe, es decir, que E[uit|xit]=0, puesto que uit=μi+ϵit contiene

Page 218: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 217

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

un efecto fijo no observado, que puede estar correlacionado con los regresores xit, por tanto, conducir a estimadores inconsistentes. Cuando [μi|xit]≠0 el estimador OLS para efectos fijos (FE) es consistente. Si se desea efectuar hipótesis nula para demostrar lo anterior se tiene que:

H0: [μi|xit]=0 H1: [μi|xit]≠0

Para este caso, tanto OLS como y FGLS son consistentes, siendo FGLS el estimador lineal insesgado de varianza mínima. El contraste de Hausman se utiliza para analizar la posible correlación entre los efectos no observados que difieren entre los individuos (μi) y los regresores, xit, de este modo, poder decidir entre una estimación por efectos fijos (FE) o efectos aleatorios (RE). La prueba de hipótesis planteada es la siguiente:

H0: [μi|xit]=0 El modelo de efectos aleatorios es el que mejor explica la relación de la variable dependiente con las explicativas

H1: [μi|xit]≠0 El modelo de efectos fijos es el que mejor explica la relación de la variable dependiente con las explicativas

El estadístico de Hausman tiene la siguiente forma:

Page 219: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 218

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Como se puede observar, QFE,RE es el cociente del cuadrado de la

diferencia entre los dos estimadores de los parámetros �� de los efectos fijos (FE) y aleatorios (RE) multiplicados por la diferencia entre las varianzas de éstos. Así, bajo la hipótesis nula H0, donde existe independencia del efecto individual no observado (μi) y los regresores, tanto en el modelo de efectos fijos (FE) como para efectos aleatorios (RE) por estimación FGLS son consistentes. Por tanto, deben tender al mismo valor cuando NT→∞, de modo que la diferencia entre los estimadores debe ser pequeña.

Puesto que el estimador ��RE es más eficiente que ��FE, implica que la varianza del primer estimador es pequeña en comparación del segundo estimador, por tanto, la diferencia entre las varianzas debe ser grande. La combinación de ambas características dará como resultado un valor del estadístico QFE,RE cercano a cero (0), por tanto, sea necesario rechazar la hipótesis nula. Si, por el contrario, H0 no es cierta, es decir, no existe independencia del efecto individual no observado (μi) y los

regresores, entonces el estimador por efectos fijos, ��FE, es

inconsistente pero el estimador de efectos aleatorios, ��RE, lo es.

Page 220: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 219

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De este modo, debe existir una diferencia positiva y significativa

entre los valores de estos estimadores (��FE-��RE). Esto implicará que el valor del estadístico QFE,RE será alto, de este modo, rechazando la hipótesis nula (Greene 2005). Hausman y Taylor (1981) demostraron como la misma hipótesis puede ser contrastada utilizando cualquier par de diferencias

��FGLS-��FE o ��FGLS-��BE donde ��BE es el estimador de �� mediante estimación entre grupos o between. La distribución de la prueba, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una χNT

2 . Para el modelo de dos factores (two way), la prueba de Hausman se basa igualmente en la diferencia entre el estimador de efectos

aleatorios por FGLS, ��RE, y el estimador de efectos fijos, ��FE, con variables dummy individuales (αi) y de tiempo (δt), sólo que la equivalencia de los contrastes intercambiando los estimadores

��FGLS, ��FE, ��BE no se mantiene en este caso, aunque otro tipo de equivalencias han sido establecidas (Baltagi 2001). CONTRASTES DE AGRUPACIÓN DE DATOS Otra cuestión que se plantea en el análisis de datos panel es si agrupar o no los datos, es decir, si plantear un modelo como, yit=αi+xitβ+uit, donde todos los coeficientes de pendiente, β, son iguales para todos los individuos y para todos los periodos (modelo restringido)

Page 221: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 220

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

O por el contrario, incluir un parámetro diferente para cada individuo, μi, o para cada periodo de tiempo, δt, (modelo no restringido), de modo que se tendría una ecuación de regresión para cada individuo i-esimo de la siguiente forma:

yit=xitβi+uit En este caso, la prueba de hipótesis radica en la decisión de agrupar las respuestas de regresores, xit, vistos a través de los parámetros de pendiente, β, para todos los individuos i-esimos, o mejor, probar si las respuestas difieren entre individuos o no, de modo que:

H0: βi=β ∀i=1,2,…..,N H1: βi≠βj ∀i≠j

Si el termino de error uit se distribuye N(0,σ2I), de esta forma homocedastica, se puede construir el siguiente estadístico:

Donde e=(INT-X(XtX)-1Xt)y y ei=(IT-Xi(𝐗it𝐗i )-1𝐗i

t)yi, que es precisamente una prueba F o test de Chow extendido al caso de N regresiones lineales. La distribución de la prueba, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, converge a una F(N-1)(K+1),N(T-K-1). Para el caso con distribución de los errores uit heterocedastica, es decir, cuando uit se distribuye N(0,Ω) , el estadístico F extendido

Page 222: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 221

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

o de Chow no sigue una distribución F, y no es correcto utilizar este test. En este caso, si se puede escribir Ω = σ2Σ, basta con

premultiplicar por 𝚺−1/2

las variables en el modelo yit=xitβi+uit y

aplicar al modelo transformado el test de Chow anterior. El estadístico F para la prueba de Chow en el modelo transformado contiene en su expresión la matriz de covarianzas Σ, de modo que cuando ésta no es observable se deberá utilizar un estimador consistente de Σ. La distribución de la prueba, con sus correspondientes grados de libertad, para efectuar el contraste de la hipótesis nula, H0, también converge a una F(N-1)(K+1),N(T-K-1).

VI. DATOS PANEL EN STATA Se muestran las siguientes salidas con su correspondiente análisis en el programa STATA.

Page 223: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 222

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Estimador de efectos fijos Sobre cada una de las salidas para el modelo FE se hace una breve descripción de los conceptos y principales resultados.

Estimador de efectos aleatorios Sobre cada una de las salidas para el modelo RE se hace una breve descripción de los conceptos y principales resultados.

Page 224: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 223

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Prueba de Multiplicadores de Lagrange (LM) La prueba LM permite decidir entre una regresión de efectos aleatorios (RE) o por OLS. Es una prueba de Poolability. La hipótesis nula de la prueba LM expone que las diferencias a través de individuos es cero. Esto es, no hay una diferencia significativa entre unidades (es decir, no afecta el panel). Frente a la alternativa que hay una diferencia significativa entre las unidades (es decir, afecta el panel)

Page 225: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 224

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

H0: σα2 =0 (No existe un efecto individual no observado)

H1: σα2 ≠0 (existe un efecto individual no observado)

Prueba de Hausman Para decidir entre FE o RE se utiliza la prueba de HAUSMAN donde la hipótesis nula radica en que el modelo a utilizar es efectos aleatorios (RE) contra la alternativa de efectos fijos (FE). La prueba en el trasfondo determina estadísticamente sobre los términos de error (Ui) si están correlacionados con los regresores contra su hipótesis que no. Es una prueba de exógeneidad entre los efectos individuales no observdos y los términos de error. Para efectuarla se implementa un modelo de efectos fijos (FE) y se almacena las estimaciones. Luego se ejecuta un modelo de efectos aleatorios (RE) y se almacena las estimaciones. Después se ejecuta la prueba.

Page 226: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 225

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

H0: Efectos individuales no observados (αi) están no

correlacionados con los regresores. Se utiliza un modelo RE H1: Efectos individuales no observados (αi) están

correlacionados con los regresores. Se utiliza un modelo FE

Hausman demostró que la diferencia entre los coeficientes de efectos fijos y aleatorios (βFE-βRE) puede ser utilizada para probar la hipótesis nula que vi y las variables X no están correlacionadas. Así pues, la hipótesis nula de la prueba de Hausman parte de los estimadores de efectos aleatorios (βRE) y de efectos fijos (βFE) no difieran sustancialmente. Si se rechaza la hipótesis nula, Ho, los estimadores difieren, y la conclusión es efectos fijos (βFE) es más conveniente que efectos aleatorios.

Page 227: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 226

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si no se puede rechazar Ho, no existe sesgo de qué preocuparse y es preferible efectos aleatorios que, al no estimar tantas dummies, es un modelo más eficiente. DIAGNÓSTICO Y ESPECIFICACIÓN DE MODELOS PANEL EN

STATA REGRESIÓN AGRUPADA (POOLED OLS) El enfoque restringido de análisis de datos panel es omitir las dimensiones del espacio y el tiempo de datos agrupados y sólo calcular la regresión OLS. Este modelo se expresa:

ititit XY 11 (1)

Donde se encuentra la i-ésima unidad transversal en el periodo t-esimo. Si se trata de explicar la variable respuesta o dependiente con las variables independientes de la forma:

reg spend dem* divgov dis1 persinc* aper* popul*

Page 228: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 227

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

EFECTOS ALEATORIOS (RANDOM EFFECTS) El primer modelo (ecuación 1) supone el intercepto de la regresión es la misma para todos los individuos. Sin embargo, es probable que se necesite controlar el efecto individual. El modelo RE permite suponer que cada unidad transversal tiene un intercepto diferente. Este modelo se expresa como:

ititiit XY 11 (2)

Donde αi= μ+vi. Es decir, se supone una variable aleatoria con un valor esperado α y una desviación vi. Sustituyendo en (2) se obtiene:

itiitit vXY 11 (3)

Stata estima el modelo de efectos aleatorios con el comando xtreg spend dem* divgov dis1 persinc* aper* popul*, re

Page 229: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 228

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si se analiza el modelo anterior (ecuación 3), se observa que si la varianza de vi es igual a cero, es decir, σu

2=0, entonces no existe ninguna diferencia relevante entre el modelo pooled (ecuación 1) y el modelo de efectos aleatorios (ecuación 3). ¿Cómo se puede determinar si es necesario utilizar el modelo de efectos aleatorios (RE) o de datos agrupados (pooled)? Breusch y Pagan formularon la prueba conocida como Prueba de Multiplicador de Lagrange para efectos aleatorios (RE). La prueba de Breusch y Pagan se implementa en Stata con el comando xttest0 después de la estimación de RE. xttest0

Con el p-value y la probabilidad que se encuentra en la región de rechazo indica que se puede rechazar la hipótesis nula Ho. Por lo tanto, los efectos aleatorios (RE) son significativos y es preferible utilizar este método en vez del procedimiento agrupado (pooled).

Page 230: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 229

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

EFECTOS FIJOS (FIXED EFFECTS) ¿Cómo se puede permitir que el intercepto varíe con respecto a cada individuo? Existen dos opciones. La primera utilizar el estimador within con el comando xtreg. xtreg spend dem* divgov dis1 persinc* aper* popul*, fe

La segunda, utiliza el modelo LSDV por el cual estima una dummy para cada individuo de la siguiente manera:

ititiit eXvY 11 (4)

Stata utiliza el comando:

Page 231: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 230

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

xi: reg spend dem* divgov dis1 persinc* aper* popul* i.stcode

¿Cuál de los modelos pooled (ecuación 1) o de efectos fijos (ecuación 4) es el apropiado?

Page 232: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 231

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El modelo pooled (1) esta restringido, pues asume un intercepto común para todos los individuos. Por lo tanto, para compararlo con un modelo de efectos fijos (FE) estimados por LSDV se puede utilizar una prueba estadística tipo F. La prueba plantea la hipótesis nula como Ho: v1=v2=…..=vi=0. Es decir, todas las variables dicotómicas son iguales cero. Si la prueba se rechaza, significa que al menos una variable dicotómica es distinta de cero. Por tanto, es necesario utilizar el método de efectos fijos (FE). La prueba F de significancia de los efectos fijos (FE) se reporta automáticamente con el comando xtreg, fe. Al final del output de la estimación de efectos fijos aparece:

Page 233: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 232

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El p-value indica que se puede rechazar la hipótesis nula, por lo que es preferible utilizar el método de FE frente al modelo agrupado. EFECTOS FIJOS vs. ALEATORIOS Las pruebas de Breusch y Pagan para efectos aleatorios, y la prueba F de significancia de los efectos fijos indican que tanto el modelo de efectos aleatorios (RE) como el de efectos fijos (FE) son adecuados frente al modelo agrupado (pooled). ¿Pero cómo decidir cuál de los dos usar? La respuesta depende de la posible correlación entre el componente de error individual vi y las variables explicativas X. La prueba de Hausman se implementa en Stata después de la regresión con efectos aleatorios con el comando hausman: xtreg spend dem* divgov dis1 persinc* aper* popul*, fe estimates store FIXED xtreg spend dem* divgov dis1 persinc* aper* popul*, re estimates store RANDOM hausman FIXED RANDOM

Page 234: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 233

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En este ejemplo, se rechaza la hipótesis nula. Es decir, la diferencia entre los coeficientes de efectos aleatorios (RE) y fijos (FE) sí es sistemática. Por lo tanto, conviene utilizar el método de efectos fijos (FE). EFECTOS TEMPORALES (TWO-WAY FIXED EFFECTS). La incorporación de variables dicotómicas permite modelar características de unidades transversales que no cambian en el tiempo pero que sí afectan el resultado de interés. Ahora bien, también, de forma indirecta, es posible agregar variables dicotómicas temporales al modelo. Es decir, una para cada año en la muestra, que capturen eventos comunes a todas las entidades durante un período u otro. Agregando efectos temporales, la ecuación (4) se transforma en:

itittiit XvY 11 (5)

Donde δt representa un vector de variables dicotómicas para cada año. Estas variables dicotómicas permitirán controlar por aquellos eventos a los que fueron sujetos todos los individuos en un año dado y, al igual que los efectos fijos, pueden reducir sesgos importantes. En Stata se pueden incorporar efectos temporales al modelo de efectos fijos con el comando xi.

Page 235: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 234

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

xi: xtreg spend dem1 demmaj1 demgov divgov dis1 persinc* aper* popul* i.year, fe (Producto omitido por tamaño) O bien, generando tanto las dummies de estado como de año, xi: reg spend dem1 demmaj1 demgov divgov dis1 persinc* aper* popul* i.stcode i.year (Producto omitido por tamaño) Al igual que con los efectos por individuos, se puede realizar una prueba F para conocer la significancia conjunta de las variables dicotómicas temporales en el modelo. La hipótesis nula parte de δ1= δ2=…..=δn=0. En este ejemplo, luego de estimar un modelo con efectos fijos por individuo y tiempo, se indica en la ventana de comando: testparm _Iyear_1951 - _Iyear_1989

El p-value de la prueba F indica que rechaza la hipótesis nula, Ho, por lo que es posible afirmar que las variables dicotómicas temporales son conjuntamente significativas y pertenecen al modelo.

Page 236: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 235

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PRUEBAS SOBRE LA ESTRUCTURA DEL MODELO PANEL Es importante señalar que aun cuando se ha intentado modelar la heterogeneidad temporal y espacial, la ecuación (5) puede estar mal especificada en otros aspectos. De acuerdo con los supuestos de Gauss-Markov, los estimadores OLS son BLUE o MELI siempre y cuando los términos de errores, εit, sean independientes entre sí y se distribuyan idénticos con varianza constante σ2. Con frecuencia estas condiciones son violadas en datos panel. HETEROSCEDASTICIDAD Cuando la varianza de los errores de cada unidad transversal no es constante, se encuentra con una violación de supuestos iniciales de la estructura de estimación panel. Una forma de saber si la estimación tiene problemas de heteroscedastidad es a través de la prueba del Multiplicador de Lagrange de Breusch y Pagan. Sin embargo, de acuerdo con Greene (2005), ésta y otras pruebas son sensibles al supuesto sobre la normalidad de los errores. Afortunadamente, la prueba Modificada de Wald (WALD*) para Heterocedasticidad funciona aún cuando dicho supuesto es violado.32

32 Para una discusión sobre esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 598.

Page 237: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 236

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La hipótesis nula de esta prueba parte de no existe problema de heteroscedasticidad, es decir, σi

2=σ2 para todo i=1…N, donde N es el número de unidades transversales. Naturalmente, cuando la hipótesis nula, Ho, se rechaza, se tiene un problema de heteroscedasticidad. Esta prueba puede implementar en Stata con el comando xttest3 después de estimar el modelo de efectos fijos: xtreg spend dem* divgov dis1 persinc* aper* popul*, fe xttest3

La prueba indica que se rechaza la hipótesis nula, Ho, de varianza constante y no se rechaza la hipótesis alternativa Ha de heteroscedasticidad. CORRELACIÓN CONTEMPORÁNEA Las estimaciones en datos panel pueden tener problemas de correlación contemporánea si las observaciones de ciertas unidades están correlacionadas con observaciones de otras unidades en el mismo periodo de tiempo.

Page 238: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 237

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Como se observó en la sección sobre heterogeneidad, las variables dicotómicas de efectos temporales se incorporan al modelo para controlar los eventos que afectan por igual a todas las unidades en un año dado. La correlación contemporánea es similar, pero con la posibilidad de algunas unidades estén más o menos correlacionadas que otras. El problema de correlación contemporánea se refiere a la correlación de los errores de al menos dos o más individuos en el mismo periodo t. En otras palabras, se tienen errores contemporáneamente correlacionados si existen características no observables de ciertos individuos que se relacionan con las características no observables de otros individuos. Por ejemplo, errores de dos individuos pueden relacionarse pero mantenerse independientes de los errores de los demás. El comando xttest2 de Stata ejecuta la prueba de Breusch-Pagan para identificar problemas de correlación contemporánea en los residuales de un modelo de efectos fijos. La hipótesis nula, Ho, afirma la existencia de independencia transversal (cross-sectional independence). Es decir, los errores entre unidades son independientes entre sí.

Page 239: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 238

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La prueba de hipótesis parte de determinar la matriz de correlación de los residuales, obtenida sobre las observaciones comunes a todas las unidades transversales, e identificada como una matriz identidad de orden N, donde N es el número de individuos33. Si la hipótesis nula Ho se rechaza, entonces existe un problema de correlación contemporánea. El comando xttest2 se implementa después de un modelo de efectos fijos (FE). En este ejemplo: xtreg spend dem* divgov dis1 persinc* aper* popul*, fe xttest2 Breusch-Pagan LM test of independence: chi2(1081) = 4106.551, Pr = 0.0000 Based on 17 complete observations El p-value del estadístico χ2 indica que se puede rechazar la hipótesis nula. Por tanto, también es necesario corregir el problema de correlación contemporánea. AUTOCORRELACIÓN La independencia se viola cuando los errores de diferentes individuos están correlacionados (correlación contemporánea), o cuando los errores dentro de cada individuo se correlacionan temporalmente (correlación serial) o ambos.

33 Para una discusión de esta prueba, consulta Greene, W. 2000. Econometric Analysis. Upper Saddle River, NJ: Prentice Hall, p. 601.

Page 240: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 239

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En este ejemplo, es muy probable que el nivel de gasto (spend) en t esté asociado con el nivel de gasto (spend) en t-1. Existen muchas maneras de diagnosticar problemas de autocorrelación.34 Sin embargo, cada una de estas funciona bajos ciertos supuestos sobre la naturaleza de los efectos individuales. Wooldridge desarrolló una prueba flexible basada en supuestos mínimos. La hipótesis nula de esta prueba parte de la no existencia de autocorrelación. Naturalmente, si se rechaza, se puede concluir que ésta sí existe.35 El método de Wooldridge (2002) utiliza los residuos de una regresión de primeras diferencias, observando que si los términos de error, εit, no está serialmente correlacionados, entonces la correlación entre los errores εit diferenciados para el periodo t y t-1 es igual a -0.5. El comando xtserial requiere que se especifiquen la variable dependiente e independientes del modelo. En este ejemplo:

34 Muchas de las pruebas que se utilizan para diagnosticar problemas de correlación serial en series de tiempo han sido ajustadas para aplicarse a datos tipo panel en Stata. Estas pruebas puedes bajarlas por internet del modulo “PANELAUTO” y “PANTEST2” tecleando en la línea de comando: ssc install panelauto y ssc install pantest2. 35 Para una discusión más amplia de esta prueba, consulta Wooldridge, J. M. 2002. Econometric Analysis of Cross Section and Panel Data. Cambridge, MA: MIT Press.

Page 241: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 240

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

xtserial spend dem1 demmaj1 demgov divgov dis1 persinc* aper* popul*, output

La prueba indica que existe un problema de autocorrelación que es necesario corregir. Una manera de hacerlo es a través de un modelo de efectos fijos (FE) con término (ρ) autorregresivo de grado 1 (AR1) que controla la dependencia del tiempo( t) con respecto a su valor rezagado (t-1).

Page 242: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 241

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El modelo AR1 con efectos fijos se especifica de la manera:

itiitiit XvY 11

Donde 𝛆it=𝛒𝛆it-1+𝛈it, es decir, los errores tienen una correlación de primer grado, que se determina a partir del coeficiente ρ. Donde |ρ|<1 y εit es una vaiid con media cero y varianza 𝜎𝜀

2. La selección del modelo RE o FE utiliza los mimos supuestos que modelos anteriores sobre el componente individual no observado (αi). El comando xtregar de STATA ajusta una regression cuando los terminos de error tiene un componente autoregresivo de primer orden. Este comando ofrece un estimador within para efectos fijos (FE) y un estimador GLS según Baltagi-Wu36, el cual extiende el estimador panel proporcionado en Baltagi-Li37 a un caso de paneles desbalanceados con desigualdad de observaciones. Ambos estimadores ofrecen distintas estimaciones del coeficiente de correlación ρ. El modelo AR1 es ejecutable en Stata de la forma: 36 Baltagi, B. H., and P. X. Wu. 1999. Unequally spaced panel data regressions with AR(1) disturbances. Econometric Theory 15: 814–823. 37 Baltagi, B. H., and Q. Li. 1991. A transformation that will circumvent the problem of autocorrelation in an error-component model. Journal of Econometrics 48: 385–393.

Page 243: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 242

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

xtregar spend dem* divgov dis1 persinc* aper* popul*, fe

¿CÓMO SOLUCIONAR LOS PROBLEMAS DE HETEROGENEIDAD, CORRELACIÓN CONTEMPORÁNEA, HETEROSCEDASTICIDAD Y AUTOCORRELACIÓN? Los problemas de correlación contemporánea, heteroscedasticidad y autocorrelación examinadas pueden solucionarse conjuntamente con estimadores de Mínimos Cuadrados Generalizados Factibles (Feasible Generalizad Least Squares ó FGLS), o con Errores Estándar Corregidos para Panel (Panel Corrected Standard Errors ó PCSE).38

38 Para una introducción técnica pero fácil de entender sobre las propiedades de FGLS y PCSE, ver: Nathaniel Beck, “Time-Series-Cross-Section Data: What Have We Learned in the Past Few Years?”, Annual Review of Political Science, 4: 271-93 (2001).

Page 244: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 243

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Beck y Katz (1995) demostraron que los errores estándar de PCSE son más precisos que los de FGLS. Desde entonces, distintos trabajos utilizan PCSE en sus estimaciones para panel.39 En este ejemplo sobre el gasto estatal, se han detectado problemas de heteroscedasticidad, correlación contemporánea y autocorrelación. Para corregir estos problemas se ejecuta: El comando de STATA xtpcse calcula estimaciones panel corregidas por desviación estándar (PCSE) para modelos panel donde los parametros son estimados por regresión de la forma Prais-Winten. Cuando se calculan los errores estándar de la matriz de covarianza se suponen provienen de paneles correlacionados contemporáneamente y heterocedasticos. xi: xtpcse spend dem1 demmaj1 demgov divgov dis1 persinc* aper* popul* i.stcode i.year, correlation(ar1) (Producto omitido por tamaño) ó también el comando: xi: xtgls spend dem1 demmaj1 demgov divgov dis1 persinc* aper* popul* i.stcode i.year, panels (correlated) corr(ar1) (Producto omitido por tamaño)

39 Hasta la fecha, el debate entre FGLS y PCSE continúa, y ya se han desarrollado algunos métodos alternativos. Para propósitos de este curso, vale la pena estimar ambos métodos y comparar resultados.

Page 245: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 244

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un Buen resumen se observa en las dos siguientes tablas. La primera, presenta la estrucutra metodológica de trabajo y las pruebas estadosticas a implmentar. La segunda, expone los comandos mas utilizados bajo distintos supuestos. METODOLOGIA DE TRABAJO Y PRUEBAS

Stata ejecuta FGLS y PCSE con los comandos xtgls y xtpcse respectivamente para solucionar estos problemas. Las opciones que ofrecen estos comandos dependen de los problemas detectados en las pruebas que se han revisado. La siguiente Tabla presenta los comandos que se pueden ejecutar cuando se encuentren con problemas de correlación contemporánea, heteroscedasticidad, autocorrelación y sus combinaciones. Por ejemplo, si las pruebas sólo detectaron problemas de heteroscedasticidad, entonces los comandos son: xtgls […] , p(h) xtpcse […] , het.

Page 246: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 245

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si existen problemas de heterocedasticidad y correlación contemporánea, entonces los comandos son: xtgls […] , p(c) xtpcse […] COMANDOS DE STATA APLICABLES

Estos comandos no calculan automáticamente efectos fijos (FE), por lo que en caso de ser necesario, se debe incluir variables dummy con el comando xi. MODELOS DE DATOS PANEL NO LINEALES Los métodos de estimación e inferencia de panel de datos, dadas sus características, son más complicados que los modelos de corte transversal o series temporales. Los errores estándar en las estimaciones de paneles de datos necesitan ser ajustados debido a que cada periodo de tiempo adicional no es independiente del periodo anterior, y por tanto, requieren el uso de modelos más ricos y métodos de estimación más potentes. PANEL DINÁMICO BINOMIAL NEGATIVA En algunos casos sobre datos de conteo se demuestra que la varianza excede la media (Cameron and Trivedi 2005). Para modelos de datos de conteo panel el propósito es modelar la sobredispersión a través de la distribución binomial negativa y

Page 247: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 246

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

un estimador asociado de los parámetros. El estimador de Máxima verosimilitud no es consistente cuando las variables explicativas están en un contexto dinámico o en modelos de datos panel con variables de conteo como estrictamente exógenas. Su principal aplicación recae en economía de la salud y modelos de patentes. En la literatura académica, aunque existen desarrollos y aproximaciones, en la actualidad no existe una metodología clara de implementación de modelos paneles dinámicos sobre datos de conteo modelados binomiales negativos. PANEL DINÁMICO TOBIT La metodología TOBIT trabaja sobre modelos censurados y truncados de regresión. Este tipo de modelos generalmente aplica cuando la variable explicativa es continua pero la masa de probabilidad tiene uno o más puntos restringidos. Dentro de la literatura se reconocen modelos truncados, cuando las observaciones se encuentran fuera del rango específico y están totalmente perdidas dentro de la selección de la muestra, los modelos censurados, por otra parte, dentro del espacio muestral se encuentran representado de alguna manera dentro de alguna de las variables explicativas. La representación de la variable dependiente es de la siguiente forma:

y = {y∗si y∗ > 00 si y∗ ≤ 0

La metodología de estimación generalmente utiliza técnicas por máxima verosimilitud (MLE), sin embargo, tiene deficiencias sobre efectos individuales y observaciones iniciales.

Page 248: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 247

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Adicionalmente, tiene una alta complejidad que en algunos casos lo hace inmanejable (HSIAO Pag. 259). Otros autores Arellano Bowe, Labeaga (1999) han desarrollado metodologías alternativas pero no han alcanzado una importante acogida dentro de la comunidad académica por su complejidad computacional. PANEL DINÁMICO POISSON La metodología XTDINAMPOISSON es un programa que estima modelos dinámicos de datos de conteo utilizando regresiones de Poisson en un ambiente agrupado. En el modelamiento de datos de conteo, donde existe una naturaleza no lineal producida por resultados de su variable dependiente como discreta y no negativa (y=m>0), el método generalizado de momentos GMM es implementado40. Su aplicación principalmente se destina a las aplicaciones hacia economía de la salud y riesgo operativo. Esta modelo, con el objetivo de incluir estructuras panel, realiza el agrupamiento o clustering para la estimación de los parámetros. Se asume que las observaciones sobre los individuos provienen de la misma familia (cluster) y están correlacionados con otros individuos, pero no existe agrupación entre diferentes clusters. En un contexto panel se puede asumir que las observaciones sobre el mismo individuo son las mismas en dos periodos distintos de tiempo. Adicionalmente, se incluye una estructura panel sobre instrumentos GMM con la selección de rezagos, en este caso un periodo. Los resultados son estimadores consistentes en una estructura agrupada. Aunque esta metodología desarrollada por Hansen (1982) es potente en

40 El estimador de Variables Instrumentales (IV) es un caso especial del Método Generalizado de Momentos (GMM)

Page 249: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 248

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

sus resultados, en algunos casos puede generar sesgo, en particular con muestras pequeñas, regresores altamente persistentes en su estructura dinámica y cuando los instrumentos GMM son predictores débiles de las variables endógenas. Algunos autores resaltan el efecto positivo de el feedback dinámico sobre el problema de inflación de ceros, y por tanto, colaborar en la solución de la sobredispersión (Cameron & Trivedi). Dentro del programa se incluye una prueba de identificación y el estadístico de Wald. En relación al primero, en el Contexto GMM, las restricciones de sobreidentificación pueden ser probadas empleando el estadístico J de Hansen (1982) que evalúa la idoneidad del modelo. Rechazar la hipótesis nula implica que los instrumentos seleccionados no satisfacen las condiciones de ortogonalidad requeridas para su empleo, con el siguiente estadístico:

PANEL PROBIT MULTINOMIAL ORDENADO La metodología REGOPROB es un programa que estima MODELOS GENERALIZADOS PROBIT ORDENADOS CON EFECTOS ALEATORIOS. La característica de estos modelos parte de tomar en la variale dependiente un ordenamiento donde valores mas altos corresponde a un mayor resultado, es decir, si se tiene una escala de 1 a 5, 5 es mayor que 4, 4 mayor que 3, y así sucesivamente. Aplicaciones de estos modelos se encuentran en medición de bienestar o modelos de riesgo de crédito. El modelo generalizado relaja el supuesto de regresiones

Page 250: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 249

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

paralelas41 sobre modelos probit estándar al soportar restricciones lineales y permite parcialmente especificar variables independientes (nl) o de todas las variables explicativas (pl). La función de verosimilitud para cada unidad utiliza un método de optimización numérica por cuadratura Gauss-Hermite42, regoprob es una generalización de goprobit. VII. VENTAJAS Y DESVENAJAS DEL MODELO DE DATOS

PANELES La técnica de datos panel presenta una serie de ventajas y desventajas en comparación con los modelos de series de tiempo y de corte transversal. Las más relevantes son las siguientes ventajas: 1. Permite disponer de un mayor número de observaciones

incrementando los grados de libertad y reduciendo la colinealidad entre las variables explicativas y, en última instancia, mejorando la eficiencia de las estimaciones econométricas.

2. Permite capturar la heterogeneidad no observable ya sea entre unidades individuales de estudio, como en el tiempo. Con base en lo anterior, la técnica permite aplicar una serie de pruebas de hipótesis para confirmar o rechazar dicha heterogeneidad y cómo capturarla.

3. Los datos panel suponen, e incorporan en el análisis, el hecho que los individuos, firmas, bancos o países son

41 Este supuesto parte que todas las razones de probabilidad (odds ratio) son las mismas evaluando la variable dependiente sobre cualquier valor de m (y=m). también se conoce como supuesto de proporcionalidad de razones de probabilidad. En términos prácticos, suponga un modelo con variables de edad y escolaridad. Este supuesto indica que cambios en la edad tiene el mismo efecto sobre las razones de probabilidad que escolaridad. 42 El método de quadratura Gauss-Hermite, constituye una variante de considerable importancia en la técnica general de interpolación pues permite optimizar el cálculo efectivo de integrales sobre intervalos incluso infinitos. La principal funcionalidad es la solución eficaz de integrales. Las Cuadraturas Mecánicas o de Gauss demuestran la existencia de cuadraturas estableciendo su forma explícita para intervalos finitos de integración. La extensión de estos métodos a intervalos infinitos fue realizada posteriormente por los franceses Legendre, Laguere, Hermite y otros.

Page 251: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 250

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

heterogéneos. Los análisis de series de tiempo y de corte transversal no tratan de controlar esta heterogeneidad corriendo el riesgo de obtener resultados sesgados.

4. Permite estudiar de una mejor manera la dinámica de los procesos de ajuste. Esto es fundamentalmente cierto si se analiza el grado de duración y permanencia de ciertos niveles, características o efectos (por ejemplo, medidas regulatorias, pobreza, desempleo, etc.).

5. Permite elaborar y probar modelos relativamente complejos de comportamiento en comparación con los análisis de series de tiempo y de corte transversal. Un ejemplo claro de este tipo de modelos, son los referencias a medir niveles de eficiencia técnica por parte de unidades económicas individuales (empresas, bancos, etc).

6. Una ventaja de la metodología de paneles de datos es el incremento en la precisión de estimación. Este es el resultado del incremento en el número de observaciones combinando o agrupando (pooling) distintos periodos de tiempo para cada individuo. Sin embargo, para validar la inferencia estadística se necesita controlar la probable correlación de errores del modelo de regresión sobre el tiempo para un individuo. En particular, la forma usual de estimación por mínimos cuadrados de los errores standard en una regresión agrupada por OLS (pooled) típicamente exagera las ganancias en la precisión, conduciendo a subestimar errores estándar y t estadísticos que pueden ser exagerados.

7. Los datos panel tienen la posibilidad de estimaciones consistentes del modelo de efectos fijos, los cuales permiten que la heterogeneidad individual no observada pueda estar

Page 252: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 251

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

correlacionada con los regresores (endogeneidad). Tal heterogeneidad no observada conduce al sesgo por variables omitidas que debe ser corregido por métodos de variables instrumentales (IV) utilizando únicamente una sola sección de corte transversal (t=1), pero en la práctica es difícil obtener un instrumento válido. Los datos panel cortos ofrecen un camino alternativo, como se observó anteriormente, para proceder si un efecto especifico individual no observado es asumido e invariante en el tiempo.

8. Proporcionan la posibilidad de generar pronósticos más acertados para resultados individuales que las series individuales aisladas. Si el comportamiento individual es similar sobre ciertas variables, lo datos panel proporcionan la posibilidad de aprender el comportamiento individual, observando el comportamiento de otros, adicionalmente, la información temporal de su comportamiento individual (variación between y within). De esta forma, es más ajustada que la utilizada si existiera una descripción del comportamiento individual obtenida por los datos agrupados (pooling data).

Desventajas: 1. En términos generales, las desventajas asociadas a la técnica

de datos panel se relacionan con los procesos para la obtención y el procesamiento de información estadística sobre las unidades individuales de estudio, cuando esta se obtiene por medio de encuestas, entrevistas o utilizando algún otro medio de levantamiento de los datos. Ejemplos de este tipo de limitaciones son cobertura de la población de

Page 253: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 252

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

interés, porcentajes de respuesta, preguntas confusas, distorsión deliberada de las respuestas, etc., que causa impacto en la construcción y balanceo de las bases de datos, errores y variables omitidas.

2. El poder de los datos panel radica en la capacidad de aislar efectos de acciones específicas, tratamientos o políticas. Para cumplir con este propósito debe estar condicionado con la estructura de datos. La información utilizada puede demostrar cómo cada uno los i-esimos agentes económicos a través del tiempo (t) pueden ser influenciados desde diferentes factores, la lista puede ser infinita, de tal forma, que es necesario permanezcan aquellos factores que se creen tiene un impacto significativo. Sin embargo, si factores de efectos individuales o específicos en el tiempo existen entre los cortes transversales o las series de tiempo no son capturadas por las variables explicativas puede conducir a heterogeneidad en los parámetros en la especificación del modelo. Ignorar tal heterogeneidad conduce a estimaciones inconsistencias o sin sentido. Esto es conocido como sesgo de heterogeneidad. Se pueden observar desde dos puntos de vista (HSIAO 2003).

Caso 1. Interceptos heterogéneos (αi≠αj), pendientes homogéneas (βi=βj).

Page 254: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 253

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Las elipses con líneas punteadas representan el punto de dispersión (nube de puntos) para un individuo sobre el tiempo, y la línea recta punteada representa las regresiones individuales. Las líneas solidas sirven para demostrar la regresión por mínimos cuadrados (OLS) ejecutada por el modelo de panel de datos. Cada una de las figuras 1.1, 1.2 y 1.3., expone un sesgo para la metodología de datos agrupados (pooled) debido a la heterogeneidad de los interceptos. En cada uno de estos casos una regresión agrupada (pooled) ignora la heterogeneidad de los interceptos, y no debería ser utilizada. Adicionalmente, el sesgo de la pendiente general estimada, o la línea gruesa, no puede ser determinada de forma a priori. Caso 2. Interceptos heterogéneos (αi≠αj) y pendientes heterogéneas (βi≠βj).

Page 255: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 254

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los puntos de dispersión, como en las figuras 1.1. y 1.2., no se muestran y los números en círculos significan las unidades individuales (i) donde la regresión ha sido incluida en el análisis. Por ejemplo, en la figura 1.4., un agrupamiento sencillo de las NT observaciones, asumiendo parámetros idénticos para todas las unidades de corte transversal conduciría a resultados sin sentido en razón a que representaría un promedio de coeficientes que difieren en gran medida a través de los individuos (i). La figura 1.5., tampoco tiene sentido en una figura agrupada, causado por la falsa inferencia en la relación agrupada (pooled) ya que su forma es curvilínea para efectuar un adecuad agrupamiento de los individuos, de este modo, el supuesto de homogeneidad no tiene sentido.

BIBLIOGRAFIA Cameron, C. & P. Trivedi. Microeconometrics: Methods & Applications, Cambridge U. Press, 2005 Hilbe, J. Negative Binomial Regression. 2006 Hsiao, C. Analysis of Panel Data. Editorial: Cambridge University Press. 2003 Long, J. Scott. Regression Models for Categorical and Limited Dependent Variables. 1997. Wooldridge, J. Econometric Analysis of Cross Section and Panel Data. 2002 Winkelmann, R. Econometric Analysis of Count Data. Springer. 2008.

Page 256: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 255

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ANALISIS DE SERIES DE TIEMPO

Page 257: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 256

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En 1970, Box y Jenkins desarrollaron un cuerpo metodológico destinado a identificar, estimar y diagnosticar modelos dinámicos de series temporales en los que la variable tiempo juega un papel fundamental, conocidos como modelos ARIMA. La metodología de análisis ARIMA es sólo una pequeña parte de lo que se conoce normalmente como “Econometría de Series Temporales” pero, sin duda alguna, una de las más utilizadas y germen de otros muchos desarrollos posteriores. Esta metodología permite que los propios datos temporales de la variable a estudiar indiquen las características de la estructura probabilística subyacente y ayuden a pronosticar (su meta principal). Los procedimientos se han contrapuesto a la llamada “econometría estructural”, es decir, a la especificación de modelos econométricos apoyada en las teorías subyacentes. Sin embargo, hoy en día estos conceptos y procedimientos constituyen una herramienta para apoyar y complementar los conocimientos econométricos tradicionales que un modo alternativo de “hacer econometría”.

Page 258: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 257

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Por otro lado, la utilización de modelos ARIMA se restringe a series largas y de “alta frecuencia” (meses, semanas, días,….) y su utilidad para pronóstico a corto plazo pero no para la comprensión estructural del fenómeno o la simulación de escenarios. SERIES TEMPORALES: COMPOSICIÓN DE PATRONES SISTEMÁTICOS Y ESTOCASTICOS El enfoque de análisis temporal de una serie descansa siempre, en mayor o menor medida, en la idea genérica que una serie temporal de datos puede descomponerse en una serie de componentes parciales que agregados conforme a un esquema de suma o multiplicación y configuran el aspecto global de la serie observada. Suele así afirmarse que cualquier serie de datos temporales proviene de la agregación de cuatro patrones de evolución de sus datos: tendencia, ciclo, estacionalidad y componente estocástico o no sistemático.

SERIE COMPUESTA POR TENDENCIA, ESTACIONALIDAD Y COMPONENTE ALEATORIA

Page 259: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 258

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Ciclo: Patrón de evolución que revela cierta propensión de la serie a repetir a muy largo plazo una misma secuencia de comportamientos tendenciales.

Por ejemplo.... Ciclos de crecimiento intertrimestral de la economía americana puede señalarse que, a principios de 2000, el ciclo económico de crecimiento no había terminado.

Componente tendencial: Generalmente asociado con el cambio en la media a lo largo del tiempo. Se identifica la tendencia con el

-4%

-2%

0%

2%

4%

6%

8%

10%

1970

1975

1980

1985

1990

1995

2000

Page 260: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 259

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

patrón de evolución sostenido a medio o largo plazo por encima de la existencia de movimientos a corto plazo

Por ejemplo.... La representación de los índices bursátiles DOW JONES, IBEX y NIKKEI revelan en el caso del DOW JONES e IBEX la tendencia de la cotización de los índices ha sido creciente durante los últimos 15 años y especialmente acelerada desde mediados de 1995.

Estacionalidad: Patrón de evolución de la serie que se repite de forma más o menos invariable en momentos similares de espacio temporal mayor, generalmente un año.

Por ejemplo.... Observando la serie mensual de ventas de artículos de navidad puede comprobarse como existe una marcada estacionalidad, especialmente en el período de finde año.

Innovación, o componente aleatorio o no sistemático: Porción no sistemática del comportamiento temporal de una serie, o al

50000

100000

150000

200000

250000

1995

1996

1997

1998

1999

2000

Page 261: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 260

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

menos movimiento que no puede catalogarse como estacional, tendencial y/o cíclico. La idea básica del análisis de series consiste en que cada uno de estos componentes puede ser analizado de forma separada para posteriormente, agregar los análisis parciales en un resultado conjunto.

En ocasiones, el análisis se centra sólo en alguno de los componentes sistemáticos por separado (la tendencia, la estacionalidad, el ciclo). En otras ocasiones, como es el caso del modelamiento de series de tiempo, lo que interesa es ir más allá de los componentes cíclicos, tendenciales y estacionales, estudiando el componente no sistemático, de carácter aparentemente aleatorio, para tratar de identificar algún patrón de interés en su evolución que ayude a entender la progresión de la serie completa.

Así pues, la aplicación de modelos de series de tiempo suele realizarse por descomposición, analizando en primer lugar la tendencia de la serie, pasando después a observar la estacionalidad y concentrándose después en la identificación del componente estocástico o no sistemico. DEFINICIONES BÁSICAS PARA APROXIMARSE A LOS MODELOS AUTOREGRESIVOS INTEGRANDOS DE MEDIA MÓVIL (ARIMA)

Page 262: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 261

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un proceso estocástico es una sucesión de variables aleatorias Yt ordenadas, pudiendo tomar t cualquier valor entre el intervalo abierto (-, ). Por ejemplo, la siguiente sucesión de variables aleatorias puede ser considerada como proceso estocástico:

El subíndice t no tiene, en principio, ninguna interpretación a priori, aunque si se habla de proceso estocástico en el contexto del análisis de series de tiempo este subíndice representará el paso del tiempo. Definición. Proceso estocástico. Conjunto de variables aleatorias (Yt)t∈I , donde el índice t toma valores en un conjunto I. Llamamos trayectoria del proceso a una realización del proceso estocástico. Si I es discreto, el proceso es en tiempo discreto. Si I es continuo, el proceso es en tiempo continuo. SERIE DE TIEMPO Y PROCESO ESTOCÁSTICO Una serie de tiempo es una realización de un proceso estocástico teórico con valores discretos ajustado a una serie real. El análisis de series de tiempo tratará, a partir de un modelo teorico inferir las características de la estructura probabilística subyacente del verdadero proceso estocástico conocido como proceso generador de datos (PGD). Definición. Serie de tiempo. Es la realización de un proceso estocástico en tiempo discreto donde los elementos de I están

y,y,........y,y,y,Y 432-3-4-5-

Page 263: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 262

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ordenados y corresponden a instantes equidistantes del tiempo. Es decir: Si I = {1, . . . , n}, la serie es y1, y2, . . . , yn; Si I = ℕ, la serie es y0, y1, y2, . . . ,; Si I = ℤ, entonces la serie es . . . , y−2, y−1, y0, y1, y2.... Una serie temporal describe la evolución aleatoria de una variable en el tiempo. Definición. Función de medias. La función de medias de un proceso estocástico (Yt)t∈I es una función de t que proporciona las esperanzas de las variables Yt para cada t.

Definición. Función de varianzas. La función de varianzas de un proceso estocástico (Yt)t∈I es una función de t que proporciona las varianzas de las Yt para cada t.

Definición. Función de autocovarianzas. La función de autocovarianzas de un proceso estocástico (Yt)t∈I es una función que describe las covarianzas entre las variables del proceso en cada par de instantes. Por ejemplo:

Definición. Función de autocorrelación. La función de autocorrelación de un proceso estocástico (Yt)t∈I es una función

Page 264: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 263

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

de dos instantes que describe las correlaciones entre las variables en un par de instantes ti, tj∈I cualesquiera. Definición. Función de autocorrelación simple (FAS). Es la función de autocorrelación entre dos variables separadas por h instantes para series estables en autocovarianza. Se denota por ρh. Proporciona las correlaciones en función del rezago h. Definición. Función de autocorrelación parcial (FAP). Mide el aporte de las variaciones de una variable Yt frente a otra variable, aislados los efectos de las restantes variables. Por ejemplo, sea la variable Yt rezagada un periodo, Yt-1. La función de autocorrelación simple (FAS) ignora el hecho que parte de la correlación que pueda existir entre yt y yt-2, se debe a que ambas están correlacionadas con yt-1. Los coeficientes de autocorrelación parcial de los modelos teóricos se denotan como ϕKK, y los estimados para nuestra muestra como Φkk.

Definición. Matrices de autocovarianzas y de autocorrelaciones de orden h. Las matrices de autocovarianzas y autocorrelaciones de orden h son: Matriz de covarianzas Matriz de correlaciones

Page 265: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 264

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO FUERTE. Suponga que cada una de las variables Yt que configuran un proceso estocástico tendrán su propia función de distribución con sus correspondientes momentos. Así mismo, cada conjunto de variables tendrán su correspondiente función de distribución conjunta y sus funciones de distribución marginales de probabilidad. Se dice que un proceso estocástico es estacionario en sentido estricto o fuerte si las funciones de distribución conjuntas (no sólo la esperanza, las varianzas o las autocovarianzas, sino las funciones de distribución completas) son constantes, o dicho con más propiedad, son invariantes con respecto a un desplazamiento en el tiempo (variación de t). Definición. Proceso estocástico estacionario en sentido fuerte. Un proceso es estacionario en sentido estricto si al realizar un mismo desplazamiento en el tiempo de todas las variables de cualquier distribución conjunta finita, resulta que esta distribución no varía, es decir:

Para todo conjunto de índices (i1, i2, ..., ir) y todo j. PROCESO ESTOCÁSTICO ESTACIONARIO EN SENTIDO DÉBIL La definición de estacionariedad en sentido estricto puede relajarse sustancialmente utilizando la denominada estacionariedad en sentido débil. Se dice que un proceso estocástico es débilmente estacionario si:

Page 266: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 265

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

a. Las esperanzas matemáticas de las variables aleatorias no dependen del tiempo, son constantes:

b. Las varianzas no dependen del tiempo (y son finitas):

c. Las autocovarianzas entre dos variables aleatorias del proceso correspondientes a períodos distintos de tiempo (distintos valores de t) sólo dependen del lapso de tiempo transcurrido entre ellas:

De esta última condición se desprende que si un fenómeno es estacionario sus variables pueden estar relacionadas linealmente entre si, pero de forma que la relación entre dos variables sólo depende de la distancia temporal k transcurrida entre ellas. Definición. Proceso estocástico estacionario en sentido débil. Un proceso estocástico es estacionario en sentido débil existe si mantiene constantes todas sus características de sus momentos a lo largo del tiempo, es decir, si para todo t:

PROCESO ESTOCÁSTICO RUIDO BLANCO (WHITE NOISE)

m ]YE[=]YE[ m+tt

m ]YVar[=]YVar[ m+tt

m )Y,YCov(=)Y,YCov( m+sm+tst

Page 267: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 266

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En este contexto, un proceso ruido blanco es una sucesión de variables aleatorias (proceso estocástico) con esperanza matemática nula (cero), varianza constante, y covarianzas nulas para distintos valores de t. Es un caso particular de un proceso estacionario en sentido débil. Definicion. Proceso estocástico ruido blanco. Es un proceso estacionario εt que cumple las siguientes características:

Se puede interpretar un proceso ruido blanco como una sucesión de valores sin relación alguna entre ellos, oscilando en torno a la media cero dentro de un margen constante. Si además Yt es un proceso normalmente distribuido, entonces todas las variables del proceso son independientes. En este caso, (Yt) se llama ruido blanco normal. En este tipo de procesos implica que conocer valores pasados no proporciona ninguna información sobre el futuro ya que el proceso es puramente aleatorio y por consiguiente carece de memoria, también es conocido como procesos de memoria corta. GRAFICO. PROCESO RUIDO BLANCO

Page 268: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 267

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PROCESO ESTOCÁSTICO PASEO ALEATORIO (RANDOM WALK) Un paseo aleatorio está definido por:

Este es un tipo de proceso estocastico no estacionario (existen cambios en su media y varianza a lo largo del tiempo) implica que el efecto de cualquier suceso que ocurra en el pasado se queda para siempre impactando la dinámica de la serie, también es conocido como procesos de memoria Larga. Esta es una diferencia clave respecto a los procesos estacionarios, donde el impacto de lo ocurrido en el pasado remoto tiende a desaparecer, en la medida en que los parámetros estimados se hacen más pequeños. GRAFICO. PROCESO PASEO ALEATORIO

Page 269: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 268

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ESTRUCTURA DE MODELOS ARMA Los modelos de series de tiempo tratarán de expresar la evolución de una variable Yt de un proceso estocástico en función del pasado de esa variable o de impactos aleatorios que esa variable sufrió en el pasado. Para ello, se utilizarán dos tipos de formas funcionales lineales sencillas. La primera los modelos autorregresivos (AR). La segunda, modelos de Medias Móviles (MA). MODELOS AUTORREGRESIVOS AR(P) Definimos un modelo AR (autorregresivo) como aquel en el que la variable endógena de un período t es explicada por las observaciones de ella misma correspondientes a períodos anteriores (parte sistemática) más un término de error ruido blanco (innovación).

Page 270: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 269

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los modelos autorregresivos se abrevian con la palabra AR tras la que se indica el orden del modelo: AR(1), AR(2),....etc. El orden del modelo expresa el número de observaciones rezagadas de la serie de tiempo analizada que intervienen en la ecuación. Así, por ejemplo, un modelo AR(1) tendría la siguiente expresión:

La expresión genérica de un modelo autorregresivo, no ya de un AR(1) sino de un AR(p) sería la siguiente:

Esta forma funcional se acompaña de una serie de restricciones conectadas con importantes hipótesis analíticas: a. La correlación entre una variable y su pasado va

reduciéndose a medida que nos alejamos más en el tiempo (proceso ergódico).

b. La magnitud de los coeficientes está limitada en valor absoluto. Así, por ejemplo, en el caso de un AR(1), el coeficiente autorregresivo de un proceso estocástico estacionario ha de ser inferior a 1 en valor absoluto. En el caso de un AR(2), es la suma de los dos coeficientes la que no puede exceder la unidad. Estas restricciones expresadas en los coeficientes conectan con las propiedades de estacionariedad del proceso analizado o, dicho de otro modo: sólo los modelos cuyos coeficientes que respetan una serie de condiciones (que dependen del orden “p” del modelo)

a+Y+=Y t1-t10t

a+Y+......+Y+Y+=Y tp-tp2-t21-t10t

Page 271: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 270

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

representan procesos estocásticos estacionarios y, por tanto, tienen utilidad analítica.

OPERADOR Y POLINOMIO DE REZAGOS El operador rezago Lp aplicado al valor Yt de una determinada serie devuelve el valor de esa serie rezagado p observaciones. Es decir:

LpYt=Yt-p Un polinomio de rezagos de orden p p(L) se compone de una sucesión de p operadores de rezagos con sus respectivos coeficientes:

El polinomio de rezagos permite abreviar la expresión de un modelo AR(p) escribiéndose:

La utilidad del polinomio de rezagos no es permitir una notación abreviada. Las características del polinomio de rezagos o, más concretamente, el valor de sus raíces características (soluciones del polinomio) permiten analizar las propiedades de estacionariedad del proceso estocástico que subyace al modelo ARIMA. Es decir, se pueden evaluar características relevantes del proceso estocástico que se está modelando estudiando las propiedades matemáticas del polinomio de rezagos de ahí su utilidad.

L-......-L-L-1=(L) p

p

2

21p

a+=Y(L) t0tp

Page 272: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 271

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

MODELO DE MEDIAS MÓVILES MA(Q) Un modelo de medias móviles (MA) es aquel que explica el valor de una determinada variable en un período t en función de un término independiente y una sucesión de términos de error o innovaciones correspondientes a períodos precedentes, convenientemente ponderados. Estos modelos se denotan normalmente con las siglas MA, seguidos, como en el caso de los modelos autorregresivos, del orden entre paréntesis. Así, un modelo con q términos de error MA(q) respondería a la siguiente expresión:

Que de nuevo puede abreviarse utilizando el polinomio de rezagos (como en el caso de los modelos AR):

¿Qué significa que una variable aleatoria se explique en función de los errores cometidos en períodos precedentes?, ¿De dónde proceden esos errores? ¿Cuál es la justificación de un modelo de este tipo?

a+....+a+a+a+=Y q-tq2-t21-t1tt

+a(L)=Y tqt

Page 273: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 272

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En realidad, un modelo de medias móviles (MA) puede obtenerse a partir de un modelo autorregresivo al realizar sucesivas sustituciones:

PROCEDIMIENTOS DE ANÁLISIS DE ESTACIONARIEDAD DE SERIES DE TIEMPO El estudio de la estacionariedad de las series de tiempo resulta clave en la práctica para la construcción de un modelo econométrico. La atención a la estacionariedad de las series de tiempo se ha convertido en algo indispensable por varios motivos, entre ellos: 1. La detección de la no-estacionariedad resulta

estadísticamente fundamental, ya que la misma afecta de forma decisiva al uso correcto de muchas de distribuciones en las etapas de identificación, contraste y validación de los modelos planteados. En ese sentido, no debe olvidarse que la mayor parte de la teoría econométrica está construida asumiendo la estacionariedad de su materia prima.

+a+....+a+a+a+a=Y

Y+a+a=Y

a+Y=Ya+Y=Y

j-t

j

3-t

3

2-t

2

1-ttt

2-t

2

1-ttt

1-t2-t1-tt1-tt

...........

........

Page 274: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 273

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

2. Trata de evitar al máximo que la no estacionariedad de las variables guíe los resultados de las estimaciones de las relaciones que las unen, provocando la obtención de regresiones espurias.

3. El análisis de estacionariedad es básico como etapa previa en el análisis de cointegración, una de las principales aportaciones a la técnica econométrica de los últimos años.

4. El concepto de tendencia estocástica frente al tradicional de tendencia determinista interesa conceptualmente a la teoría económica y, en especial, en el contexto del análisis temporal de los efectos de la política económica sobre las variables macro.

TENDENCIAS DETERMINISTAS Vs TENDENCIAS ESTOCÁSTICAS TENDENCIAS DETERMINISTAS Cuando se analiza la solución general a una ecuación en diferencias que representa una serie de tiempo, se admite una descomposición de la serie en componentes cíclico, tendencia, estacional y estocástico. La principal característica que define al componente de tendencia frente al estocástico es la presencia de efectos permanentes sobre la serie de tiempo yt. En un gran número de ocasiones, las series pueden no presentar componente de tendencia, como es el caso de un proceso autorregresivo puro AR(1) en el que los coeficientes cumplan las condiciones de estacionariedad:

Page 275: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 274

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Como se aprecia en el gráfico siguiente, este proceso fluctúa alrededor del valor medio representado por una línea horizontal cruzándolo frecuentemente sin que ningún shock o innovación sobre yt se convierta en permanente para valores futuros:

Proceso AR(1) Sin tendencia

Definir la tendencia en una serie de tiempo yt utiliza el siguiente cálculo. Por ejemplo, la serie:

Presenta un patrón dominado fundamentalmente por una tendencia sea como en los siguientes casos presentados de formas lineales o cuadráticas:

Page 276: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 275

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Este tipo de proceso, se clasifica dentro de aquellos que vienen definidos por lo que se denomina una tendencia determinista. Este patrón de evolución parecería servir adecuadamente al análisis de ciertas series económicas dado que resulta usual encontrar magnitudes que exhiban perfiles similares a los presentados. Esta tendencia de tipo determinista puede combinarse con el proceso autorregresivo para generar otra variedad de proceso con tendencia determinista que se denomina proceso estacionario sobre una tendencia. Su expresión sería la siguiente:

En este caso, el proceso es dominado por la componente de tendencia sumando a un proceso estacionario, con un valor razonable de la varianza de εt. Poder distinguir gráficamente la su evolución temporal como un modelo de tendencia determinista con un componente

Page 277: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 276

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

estocástico puro como el presentado en los gráficos anteriores resulta casi imposible. TENDENCIAS ESTOCÁSTICAS Si se observan algunas series en economía, se puede caer en la tentación de calificarlas entre aquellas con tendencias deterministas como las observadas hasta aquí. Sin embargo, desde la teoría económica sería muy difícil justificar una tendencia determinista. Aún a pesar de existir componentes tendenciales importantes desde el punto de vista teórico, seguramente estos no serían de naturaleza determinista. Es muy posible, por ejemplo, que la productividad tienda a crecer de forma natural en la medida en que con el paso del tiempo se va incorporando mejoras tecnológicas en procesos productivos. Sin embargo, ambos procesos teóricos no se producirán, con total seguridad, de una manera invariable, constante, predecible, determinista, con el paso del tiempo. Frente a la tendencia determinista surge por tanto la necesidad de definir un componente de tendencia, con efectos permanentes en la evolución de la serie analizada, pero de naturaleza estocástica. PASEO ALEATORIO (RANDOM WALK)

El caso más simple de modelo con tendencia estocástica viene determinado el paseo aleatorio simple:

Page 278: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 277

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Con εi ruido blanco. La solución recursiva de un paseo aleatorio corresponde a:

Esta expresión permite comprobar que un paseo aleatorio es estacionario en media por definición:

Su varianza, sin embargo, no es constante dado que su expresión corresponde a:

Según este proceso la varianza se amplía con el paso del tiempo tendiendo a infinito a medida que t también lo hace. Lo más interesante de la ecuación anterior puede observarse claramente como en cada una de las innovaciones o shocks definidas como εt=(ε0,ε1,...,εt-1,εt) tiene sobre yt un efecto permanente (o de tendencia) sobre yt pero siempre tratándose de un elemento de naturaleza aleatoria. Así, la denominada esperanza condicional para yt+s, es decir, el valor más probable de yt+s dadas las t realizaciones anteriores del proceso yt, es precisamente yt para todos los posibles valores

Page 279: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 278

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

de t y s. Esto confirma que cualquier innovación o shock de la sucesión contenida en:

Tiene una presencia sobre yt+s de la misma intensidad que sobre yt. Es decir, estamos ante un componente de tendencia. ¿Existen, en la realidad, fenómenos que se comporten como paseos aleatorios?. Nótese que, gráficamente, el paseo aleatorio fluctúa ampliamente sin presentar tendencia a crecer o a decrecer. Raramente alcanza un valor anterior y ninguna fuerza tiende a devolverlo a su nivel de equilibrio, cualquiera que sea el mismo. ¿Es posible encontrar series en economía de esa naturaleza? Figura1: Serie SIN tendencia determinista (No Estacionaria en media )

Figura 2: Serie CON tendencia determinista (No estacionaria en media)

Page 280: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 279

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PASEO ALEATORIO CON DERIVA (TENDENCIA DETERMINISTA MÁS TENDENCIA ESTOCÁSTICA) El paseo aleatorio con deriva incorpora una constante a0 a la expresión del paseo simple de la forma:

La expresión deriva se aplica ya que el proceso así definido experimentará una variación constante definida por el término a0 dado que la solución genérica recursiva a la ecuación anterior responde a la expresión:

Después de t períodos, el valor de yt se ve impactado por todas las innovaciones o shocks pasados y presentes a través del término de tendencia estocástica al mismo tiempo, de forma invariable, también permanente pero perfectamente conocida, por el término determinista a0t.

-10.0000

-8.0000

-6.0000

-4.0000

-2.0000

0.0000

2.0000

4.0000

6.0000

8.0000

10.0000

12.0000

ene-9

6

ene-9

7

ene-9

8

ene-9

9

ene-0

0

ene-0

1

ene-0

2

ene-0

3

ene-0

4

ene-0

5

-10.0000

0.0000

10.0000

20.0000

30.0000

40.0000

50.0000

ene-9

6

ene-9

7

ene-9

8

ene-9

9

ene-0

0

ene-0

1

ene-0

2

ene-0

3

ene-0

4

ene-0

5

Page 281: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 280

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

A diferencia del paseo aleatorio simple la deriva incluida en este otro modelo supone que el proceso no sólo no será estacionario en varianza sino tampoco en media.

Para la varianza se tiene que:

Comparando un paseo aleatorio simple de otro con deriva, el patrón gráfico de evolución de este tipo de procesos vendrá dominado por la componente tendencial determinista del mismo. No obstante para muestras pequeñas y una varianza de εt suficientemente elevada su aspecto puede confundirse con un paseo aleatorio sin deriva.

En cualquier caso, si el paseo aleatorio con deriva resulta gráficamente muy similar al presentado al de tendencia determinista explica como frecuentemente se califican procesos

Page 282: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 281

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

deterministas que, probablemente, presenten un componente con tendencia estocástica. Solamente para muestras grandes un proceso podrá ser distinguido del otro en la medida en que, aunque el paseo aleatorio con deriva presentará una marcada evolución de su tendencia, por tanto, tenderá a fluctuar de forma algo más visible sobre la línea de tendencia de lo que lo haría un modelo determinista puro. LAS REGRESIONES ESPURIAS El problema de la aparición de regresiones espurias en los resultados de un buen número de análisis económicos es siempre atribuido a Granger y Newbold (1974). Sin embargo, a finales de la década de los años 20, Yule (1926) ya había arrojado su particular primera piedra en el Journal of the Royal Statistical Society con un artículo con el título: Why do we sometimes get nonsense correlations between time series? El problema de las regresiones espurias admite como buenas, relaciones económicas que en realidad sólo se deben a aspectos casuales. Por regresión espuria se entiende aquellas ecuaciones de regresión que presentan una elevada significancia conjunta, medida en términos del coeficiente de ajuste R2 o R2 ajustado. Sin embargo, fuertes problemas de autocorrelación positiva reflejados en bajos valores del estadístico Durbin Watson.

Page 283: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 282

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La presencia de un término de error fuertemente autocorrelacionado impide efectuar un proceso de inferencia con mínimas garantías. La probabilidad de un error en el cálculo y en la aplicación de los test de significancia individual convencionales es muy importante, sin contar los problemas de no eficiencia de los estimadores. Este tipo de regresiones aparecen cuando se relacionan series de tiempo no estacionarias y se agudizan cuanto estas estén más cercanas a la forma de un paseo aleatorio. Es decir, cuanto más evidente sea la presencia de tendencias estocásticas en las series. La forma más clara de ilustrar el problema es utilizar los resultados del ejemplo expuesto por Newbold y Davies (1978) y Granger y Newbold (1986). Suponga dos variables yt y xt independientemente generadas por paseos aleatorios:

Donde ε1t y ε2t son procesos ruido blanco normales estándar independientes entre sí con media cero y varianza unitaria. Dado que yt y xt están generadas de forma independiente se debe esperar que no existiera ninguna relación significativa entre ambas.

Page 284: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 283

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Sin embargo, sobre un conjunto de 1000 muestras de yt y xt con 50 observaciones, alrededor de un 65% de las regresiones de yt sobre xt presentan contrastes t significativos a un nivel de significancia del 5%. Tal y como expone Enders (1995) basta con comprender las propiedades de la perturbación aleatoria de la regresión de yt

sobre xt para apreciar lo inconsistente de estos resultados. Efectivamente, en la regresión:

Es claro que, prescindiendo de la constante a0:

Por lo que imponiendo las restricciones iniciales y0=x0=0 se tiene que:

Por tanto, se está ante una sucesión εt no estacionaria en varianza. Si esto es así, εt presenta una tendencia estocástica, lo que quiere decir que el error cometido en t no se diluye en t+1, t+2... t+s. Es imposible que una regresión en la que los errores se acumulan de forma permanente pueda tener algún interés.

Page 285: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 284

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Nótese que en esta situación se violan un buen número de hipótesis básicas asumidas en los procesos de inferencia habituales en el contexto del Modelo Básico de Regresión Lineal: 1. La varianza de εt no es constante. Como se demostró

anteriormente la varianza se incrementa hacia el infinito a medida que el tamaño de muestra t crece.

2. Existe correlación serial. La misma expresión para εt puede utilizarse para comprobar como la correlación entre εt y εt+1 tiende a uno a medida que t se incrementa.

3. Si la serie xt no es estacionaria, no satisface la propiedad:

Dada semejante acumulación de errores, ningún test de significancia puede ser usado con garantías y por ello, ninguna inferencia será fiable. Las regresiones espurias, no obstante, no sólo se producen por la aparición de tendencias estocásticas en las series. Las tendencias deterministas también pueden ser un problema. Si se construye una serie yt lineal (1,2,3,4..... 50) y se hace depender de otra xt con tendencia cuadrática (1,4,.......502) el resultado en términos de R2 es 0,94 cuando en realidad el patrón de evolución de la serie cuadrática acabará por divergir de forma definitiva cuando el número de datos tienda a infinito. Desde el primer momento, y aún de forma intuitiva, la utilización de tasas o primeras diferencias se utiliza en las series de cara a mitigar los efectos negativos en este tipo de situaciones.

Page 286: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 285

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Es indudable, efectivamente, que este fenómeno sucede con mayor facilidad cuando son utilizados series en niveles, dado que los cambios sobre el nivel se producen de forma mucho más suave generando series con patrones tendenciales ampliamente comunes y fácilmente predecibles. El problema, no obstante, no reside en una cuestión de niveles o tasas, sino en el concepto de estacionariedad de la serie de tiempo. CONCEPTO DE INTEGRACIÓN Si se toma un paseo aleatorio (random walk) y es expresado en primeras diferencias se comprueba que, además de seguir siendo estacionario en media, se convierte también en un proceso estacionario en varianza, es decir:

En el caso de un paseo aleatorio con tendencia determinista (con deriva) la diferenciación permite también convertir la serie en estacionaria tanto en media como en varianza:

Además:

Page 287: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 286

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se puede así mismo comprobar como las covarianzas para observaciones del proceso separadas un determinado rezago j-esimo sólo dependen del valor de ese rezago. Es decir, se puede comprobar que ambos procesos diferenciados cumple con estacionariedad en sentido débil. La idea de que la diferenciación corrige los problemas derivados de la presencia de tendencias estocásticas y deterministicas. Puede generalizarse matemáticamente del siguiente modo. Suponga el caso general de un modelo ARIMA del tipo:

En el que se supone la presencia de una raíz unitaria en el polinomio de rezagos A(L), mientras que se mantienen las condiciones de estacionariedad para el proceso definido sobre εt mediante el polinomio L(B), o sea, se supone que todas sus raíces caen fuera del círculo unitario. Si el polinomio A(L) tiene efectivamente una raíz característica puede ser factorizado y expresarlo de la forma:

Donde ahora A’(L) será un polinomio de orden inferior en una unidad al original A(L), es decir, p-1. La principal característica de este nuevo polinomio es que ya no contiene una raíz unitaria, por tanto, todas sus raíces caen fuera del círculo unitario. La ecuación original del modelo ARIMA quedaría ahora:

O lo que es igual:

Page 288: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 287

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Incluyendo la diferenciación sobre la variable yt se tiene que:

Por tanto, la diferencia de un proceso con una raíz unitaria es ahora estacionaria y lo mismo ocurre cuando se esta ante dos raíces unitarias, si se toman diferencias dos veces o ante d raíces unitarias si se efectuan d diferencias. Por ejemplo, suponga el siguiente proceso:

Este puede expresarse como:

Utilizando los polinomios de rezagos resulta:

El polinomio de rezagos de la parte autorregresiva contiene una raíz unitaria por lo puede escribirse como:

Es interesante observar que no es necesario que yt siga un paseo aleatorio puro. Si en un proceso del tipo:

La perturbación aleatoria no fuera ruido blanco sino que siguiera un proceso autorregresivo de la forma:

Page 289: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 288

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La primera diferencia de yt daría una serie estacionaria siempre y cuando ρ fuera menor que la unidad en valor absoluto. Definición. Serie integrada de orden d. Se dice que una serie yt no estacionaria es integrada de orden d, se representa como yt~I(d), cuando puede ser transformada en una serie estacionaria diferenciándola d veces. Siguiendo la definición dada por Engle y Granger (1987), una serie sería integrada de orden d si admite una representación ARMA estacionaria e invertible después de ser diferenciada d veces. Un proceso ruido blanco, por ejemplo, o una serie AR(1) con coeficiente menor que la unidad son series I(0). Una serie que siga un paseo aleatorio es, sin embargo, una serie I(1). Granger (1986) y Engle y Granger (1987) caracterizaron las series I(0) frente a las I(1) de la siguiente forma:

PROCESO INTEGRADOS Vs NO INTEGRADOS

Sin embargo, la diferenciación de una serie para convertirla en estacionaria sólo es adecuada cuando se encuentra ante tendencias estocásticas, nunca cuando existen tendencias deterministas.

Page 290: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 289

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En ese caso, el procedimiento habitual para eliminar la tendencia terministica parte de aplicar sobre la serie original un filtro adicional. Se estima la regresión de la serie no estacionaria yt sobre un término de tendencia determinista obteniéndose una estimación de la serie original yt.

Es suficiente entonces con trabajar con la serie transformada:

En el gráfico siguiente (en azul) puede observarse como la serie original presenta una tendencia lineal creciente que puede ser estimada (representada) con la línea discontinua (tendencia). La serie corregida (filtrada) de tendencia reproduce exactamente las mismas variaciones que la serie original pero sin mostrar tendencia alguna. Estimación de tendencia y serie filtrada de tendencia

-400,00

-200,00

0,00

200,00

400,00

600,00

800,00

1 6

11

16

21

26

31

36

41

46

51

56

61

66

71

76

81

86

91

96

Serie Original Tendencia Serie (sin) "filtrada de" tendencia

Page 291: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 290

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

GENERACIÓN LA SERIE FILTRADA DE TENDENCIA Para realizar un filtro de tendencia, se asume que la tendencia (Tt) es un componente que se agrega a la serie sin tendencia (YSTt) generando la serie original (Yt). En el gráfico anterior, la serie original (en azul) es la suma de los valores de la serie sin tendencia (en rojo) más los valores de la tendencia (línea discontinua):

ttt YSTTy

Para calcular los valores de la tendencia en cada período se efectua una regresión simple de la serie en función contra una variable de tiempo t (1,2,3,4,……). El residuo de esta regresión será la serie filtrada de tendencia. La única decisión a considerar será el tipo de función matemática que mejor ajusta la tendencia de la serie (lineal, parabólica, exponencial, etc). SERIES CON DISTINTOS TIPOS DE TENDENCIA: REPRESENTACIÓN GRÁFICA Y FUNCIÓN MATEMÁTICA A ESTIMAR

i

b

ii utay

i

t

i ubay

TENDENCIA Potencial

-100000,00

-50000,00

0,00

50000,00

100000,00

150000,00

200000,00

1 8

15

22

29

36

43

50

57

64

71

78

85

92

99

Serie Potencial Ajuste

TENDENCIA Exponencial

-20000,00

-10000,00

0,00

10000,00

20000,00

30000,00

40000,00

50000,00

60000,00

70000,00

80000,00

1 8

15

22

29

36

43

50

57

64

71

78

85

92

99

Serie Exponencial Ajuste

Page 292: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 291

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ii utbay )ln(

ii utbtbay 2

Sobre la elección del modelo de tendencia se debe tener en cuenta: 1. Debe priorizarse la sencillez en la selección del modelo de

tendencia. Esta debe sólo centrarse en la evolución de la serie de modo que no es necesario que la tendencia reproduzca exactamente cada movimiento a corto plazo. Un comportamiento oscilante podría modelarse, por ejemplo, con una función sinusoidal. AJUSTE DE TENDENCIA

Ajuste de Tendencia Correcto (serie oscilante alrededor de una tendencia monótonamente creciente)

Ajuste de Tendencia Incorrecto (tendencia sobreparametrizada)

TENDENCIA Logarítmica

0,00

5,00

10,00

15,00

20,00

25,00

30,00

35,00

40,00

1 7

13

19

25

31

37

43

49

55

61

67

73

79

85

91

97

Serie Logarítmica Ajuste

TENDENCIA Polinomica

-40,00

-20,00

0,00

20,00

40,00

60,00

80,00

100,00

1 7

13

19

25

31

37

43

49

55

61

67

73

79

85

91

97

Tendencia Polinómica Ajuste

0.0000

5.0000

10.0000

15.0000

20.0000

25.0000

30.0000

ene-

96

ene-

97

ene-

98

ene-

99

ene-

00

ene-

01

ene-

02

ene-

03

ene-

04

ene-

05

0.0000

5.0000

10.0000

15.0000

20.0000

25.0000

30.0000

ene-

96

ene-

97

ene-

98

ene-

99

ene-

00

ene-

01

ene-

02

ene-

03

ene-

04

ene-

05

Page 293: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 292

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

2. Si existen dudas sobre el modelo de tendencia a utilizar, pueden probarse especificaciones alternativas (lineal Vs logarítmica, potencial Vs exponencial, por ejemplo) y utilizarse los resultados de la regresión (R2, porcentaje de error absoluto medio, contrastes t para los términos incluidos en la regresión, etc) con el fin de valorar cuál de las especificaciones ajusta mejor la evolución de la serie.

3. Las tendencias pueden ser compuestas, es decir, para un determinado período de análisis pueden combinarse distintos tipos de tendencias (primero lineal creciente, luego lineal decreciente, por ejemplo)

4. Algunas tendencias pueden no ser lineales por lo que su estimación con un modelo de regresión lineal requerirá la linealización previa de la función a estimar si no se conocen métodos de estimación no lineales.

5. En presencia de componentes estacionales conviene habitualmente eliminarlos antes de proceder al análisis de tendencia

En todo caso, una vez elegido el modelo de tendencia más adecuado, el procedimiento de filtrado es: 1. Se estima, conforme al modelo elegido, la regresión de la

serie en función del tiempo. En el ejemplo gráfico, el ajuste lineal por OLS implica estimar:

ttt UbTay

2. La tendencia se corresponde con la serie estimada (��t) en tanto que la serie filtrada es simplemente el residuo de esta regresión. La serie original (yt) menos la estimación de la tendencia (��t).

Page 294: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 293

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Debe tenerse especial cuidado para no confundir la tendencia determinista y estocástica, ya que entonces tanto uno como otro método resultarían incorrectos de aplicar. Por ejemplo, si se tiene un proceso del tipo:

En el que se tiene tendencia determinista pero no estocástica. Si se toma una primera diferencia la anterior expresión quedaría:

O sea, se habría eliminado la tendencia temporal pero incluida una raíz unitaria en el proceso MA, que ahora sería no invertible. Debe notarse que este problema también se planteará, por las mismas razones, en el caso en el que sobrediferenciacion de una serie más allá de su orden de integración. Se comente un error si se intentar transformar un modelo con tendencia estocástica aplicando el filtro representado para la eliminación de la tendencia determinista: 1. En primer lugar, el t-estadístico de significancia individual

tiende a infinito para la variable de tendencia determinista introducida en el filtro y es inconsistente, por lo que resulta fácil rechazar erróneamente la hipótesis de nulidad del parámetro de tendencia.

2. El R2 converge a una distribución no degenerada, es decir, a medida que el tamaño de la muestra se incrementa y no converge hacia un escalar, sino hacia una variable aleatoria.

Page 295: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 294

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. Un efecto adicional comentado por Durlauf y Phillips (1988) es que, en estos casos, el estadístico DW de la errónea regresión de la serie sobre una tendencia temporal tiende a acercarse a cero. Este síntoma puede utilizarse como medida de alerta cuando se encuentre en una situación similar.

En cualquier caso, la trascendencia de un posible error en los resultados del modelo exige establecer un modus operandi con más garantías. El chequeo de la presencia de raíces unitarias es insalvable, para lo cual deben conocerse extensamente los contrastes más habituales que permitan detectarlas. PROCEDIMIENTOS PARA LA DETECCIÓN DE RAÍCES UNITARIAS ANÁLISIS DEL GRÁFICO TEMPORAL DE LA SERIE Apoyándose en las características comunes de las series integradas frente a las no integradas, resumidas en la tabla anterior, se puede utilizar la representación gráfica de una serie para el análisis de su estacionariedad. Efectivamente, uno de los métodos que suelen proponerse como suficientes para la detección de la no estacionariedad de una serie es el del análisis de representaciones gráficas de la misma. Así, la contemplación del gráfico de evolución temporal de la serie es un insumo para decidir si la serie es o no estacionaria en virtud, por ejemplo, de la pendiente que presente.

Page 296: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 295

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Grafico de serie no estacionaria

Por otro lado, suelen aconsejarse medidas como el gráfico rango de la media para detectar la no estacionariedad en varianza. Ambos procedimientos sólo son parcialmente útiles. Efectivamente ya se ha visto anteriormente cómo pueden confundirse con facilidad representaciones gráficas de procesos con tendencias estocásticas de procesos con tendencias deterministas y los efectos que tiene un error en su confisión. Por otro lado, incluso con procedimientos técnicamente elaborados, resulta aún más complejo diferenciar, por ejemplo, un proceso con una raíz unitaria de otro con una raíz autorregresiva elevada. En el gráfico siguiente, por ejemplo, se han representado dos procesos, uno estacionario y otro con una raíz unitaria. En ambos casos se ha utilizado la misma sucesión de perturbaciones aleatorias mientras que los coeficientes utilizados en cada caso han sido diferentes.

Page 297: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 296

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

DIFERENCIACION GRAFICA DE PROCESOS ESTACIONARIOS Y NO ESTACIONARIOS Modelo estacionario Modelo I(1):

No obstante, a pesar que el análisis gráfico no puede considerase una herramienta suficiente para el análisis de la estacionariedad de una serie, si ha de servir como etapa previa a la aplicación de contrastes más avanzados. Efectivamente, observar la evolución gráfica de la serie puede permitir localizar cambios de estructura, comportamientos estacionales o medias y tendencias de tipo determinista, lo que permitirá aplicar con mayor porcentaje de éxito, las pruebas de raíces unitarias. ANÁLISIS DEL CORRELOGRAMA DE UNA SERIE Un procedimiento que no requiere la aplicación de ningún contraste para determinar la presencia de raíces unitarias en las series, es el de observar el correlograma de la misma. Es decir, la representación gráfica de su función de autocorrelación simple (FAS) y parcial (FAP).

Page 298: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 297

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Distintos trabajos, en especial los presentados por Hoskin (1989), Diebold y Rudebusch y Lo (1991), se han centrado en analizar las variaciones de la autocorrelación en función del orden de integración d de una serie. En general, la regla a aplicar será sencilla. Los valores de la FAS o la FAP de una serie con raíces unitarias descienden muy suavemente hacia el cero mientras que cuando no hay presencia de raíces unitarias el descenso es exponencial. Las imágenes que se muestran a continuación corresponden a series reales de tipo de cambio. La diferencia en el patrón de evolución sobre un correlograma. FAS DEL TIPO DE CAMBIO EN COLOMBIA SERIE DIFERENCIADA SERIE NO DIFERENCIADA

La razón de este comportamiento de la FAS y FAP en uno y otro está en función de las raíces características del polinomio de la ecuación en diferencias.

Page 299: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 298

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

De esta forma, si la serie no estacionaria que implica un proceso no estacionario guarda memoria larga de las innovaciones pasadas y recientes (precisamente por presentar un componente de tendencia), la relación entre dos valores separados por un lapso de tiempo j-esimo presentarán necesariamente algún tipo de relación, o sea, los coeficientes de correlación yt,yt-j tenderán a mantenerse elevados. Efectivamente, la expresión de la solución de una ecuación en diferencias de primer orden puede expresarse como:

A partir de las expresiones anteriores puede calcularse el coeficiente de autocorrelación yt,yt-j para cada caso. Cuando no existe raíz unitaria, el término a1 (menor que la unidad) fuerza a los coeficientes de autocorrelación a descender rápidamente hacia el cero en una progresión geométrica de razón a1. La expresión de la serie de coeficientes de autocorrelación es:

Tomando, por tanto, para el caso de raíz unitaria, la forma:

El cálculo de las correlaciones, sin embargo, es un término lineal (t-s) (y por tanto más lento) el que define la progresión hacia el cero de los coeficientes de autocorrelación. La expresión de los coeficientes de correlación es ahora:

Page 300: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 299

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si se representan las expresiones para los primeros 24 valores o rezagos de s, se puede apreciar como el ritmo de descenso de los coeficientes de autocorrelación en el caso de procesos AR(1), con distintos valores para a1, es directo y rápido, mientras que el caso del paseo aleatorio (random walk) el descenso es muy tenue, sobre todo para las primeras observaciones. COEFICIENTES DE AUTOCORRELACIÓN PARA UN PROCESO AR(1) Y UN PASEO ALEATORIO

La observación del gráfico de la función de autocorrelación puede completarse con el cálculo de contrastes Q como los propuestos por Box y Pierce (1970) o Ljung y Box (1978).

Q de Box-Pierce

Q de Ljung-Box

Page 301: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 300

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En ambos casos, la hipótesis a contrastar radica en que los p primeros coeficientes de correlación calculados ρj son iguales a cero. El escalar T será igual al número total de coeficientes de correlación representados en el correlograma. H0: ρj =0 H1: ρj ≠0

Estos contrastes se distribuyen como una χ2 con (T-k) grados de libertad. Su aplicación se puede ver en dos partes. La primera, aplicarlos sobre los residuos de un modelo ARIMA previamente estimado para saber si se está ante un proceso ruido blanco o no, en este caso el parámetro k toma el valor de los coeficientes estimados de ese modelo ARIMA. En segundo lugar, si, se están observando las pruebas directamente sobre una serie, no sobre los residuos de un modelo, los grados de libertad de la χ2 serán entonces p rezagos. Si el estadístico supera el valor de tablas se rechaza la hipótesis nula de los p primeros coeficientes son significativamente nulos. El problema principal de la utilización de este método es que el comportamiento de la función de autocorrelación cuando existe una raíz unitaria es extremadamente similar al del caso en el que la raíz tome un valor muy cercano a la unidad.

Page 302: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 301

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En la imagen inferior se muestran 4 correlogramas correspondientes a distintos valores del coeficiente a1 del proceso teórico:

Donde la sucesión εt ha sido generada idéntica para todos los casos:

Puede comprobarse como el primero de los casos (paseo aleatorio) puede confundirse con el resto aun cuando el valor de a1 esté relativamente alejado de la unidad (ρ=0.95). En el gráfico inferior puede observarse la similitud entre el valor del coeficiente de autocorrelación de un AR(1) y el de un paseo aleatorio para valores muy cercanos a la unidad e incluso, cómo el ritmo de decrecimiento es más lento para un ρ=0.98 cuando, como en este caso, el número de observaciones es relativamente pequeño (30):

Page 303: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 302

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

COMPORTAMIENTO DE UNA SERIE CON COEFICIENTES DE CORRELACIÓN CERCANOS A LA UNIDAD Y UN PASEO ALEATORIO

Este método servirá, al menos de forma más precisa, para distinguir un verdadero proceso integrado I(1) de otro que presente una raíz elevada. CONTRASTES DE NO ESTACIONARIEDAD PRUEBA DICKEY-FULLER La prueba habitual a la hora de determinar la estacionariedad de una serie de tiempo consiste en la aplicación de la prueba de Dickey–Fuller (DF). Éste es una prueba de No estacionariedad el cual contrasta la hipótesis nula como la presencia de una raíz unitaria en el proceso generador de datos de la serie analizada. H0: existe raíz unitaria (es un proceso no estacionario) H1: No exisite Raiz unitaria (es un proceso estacionario)

Page 304: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 303

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se supone inicialmente, como modelo de partida para el análisis de una determinada serie yt, un proceso estacionario autorregresivo de orden uno como hipótesis nula H0:

Frente a este modelo se plantea el modelo alternativo de un paseo aleatorio no estacionario del tipo:

Se trata, por tanto, de contrastar si el coeficiente a1 es igual a la unidad o distinto de ella.

Para probar el coeficiente a1, no se puede utilizar el contraste tradicional t-student sobre una estimación por OLS del primer modelo. La razón radica en que la hipótesis nula que habitualmente se contrasta a partir de la cual se deriva la expresión y propiedades de la prueba t parte de probar (a1=0). Sin embargo, en este caso se necesita contrastar H0: a1=1. Si la hipótesis nula no se rechaza, ya que la varianza de yt sería no estacionaria, dado que crecería con los valores del tamaño de muestra según la expresión dada de la varianza de un paseo aleatorio con deriva:

Page 305: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 304

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En estas condiciones la estimación del parámetro a1 sería una estimación inconsistente y sesgada respecto al verdadero valor del parámetro y el uso de la distribución t-student estándar sería incorrecta. Efectivamente, en el modelo simple AR(1):

La estimación de a1 será consistente según los valores que tome la estimación. Si |a1|<1, la distribución del estimador es asintóticamente normal, o lo que es lo mismo, el estadístico t-student converge hacia una N(0,1) cuando los grados de libertad tienden a infinito. En el caso de que |a1|>1, también puede caracterizarse la distribución del estimador del parámetro y de su razón de contraste t si bien la convergencia en el límite no se produce hacia una normal. El problema surge cuando |a1|=1, ya que en este caso, la distribución del parámetro, y por tanto, de su razón de contraste estadístico no puede caracterizarse adecuadamente dada la inconsistencia y sesgo de los resultados. La distribución del estimador es entonces función de movimientos Brownianos. Según Fuller (1976) se tiene que N(a1-1) converge en distribución a un cociente de integrales de Wiener. Por tanto, la distribución de probabilidad asintótica del estimador OLS del modelo AR(1) presenta una discontinuidad cuando a1=1 y, como sustituto, deberán utilizarse las

Page 306: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 305

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

distribuciones derivadas de forma empírica mediante un procedimiento de Montecarlo realizado por Dickey (1976). En este experimento se generaron un elevado número de series ruido banco εt para construir el mismo número de paseos aleatorios con deriva. La estimación de los parámetros de interés en cada uno de esos modelos controlados arrojó las siguientes conclusiones: 1. El 90% de los valores estimados del parámetro a1 estaban

menos alejados de 2.58 errores estándar del verdadero valor (la unidad).

2. El 95% de los valores estimados del parámetro a1 estaban menos alejados de 2.89 errores estándar del verdadero valor (la unidad).

3. El 99% de los valores estimados del parámetro a1 estaban menos alejados de 3.51 errores estándar del verdadero valor (la unidad).

Tras este experimento de Dickey, fue Fuller (1976) quien obtuvo la distribución límite apropiada y publicó, tabulados, toda una batería de valores críticos, dado que el valor empírico del contraste varía en función del tamaño muestral. Estas tablas de referencia, permiten prescindir de la distribución t-student a la hora de contrastar si el parámetro a1 es igual, o no, a la unidad. Más recientemente, MacKinnon (1991) realizó un número mayor de simulaciones que las tabuladas por Dickey y Fuller. Además, MacKinnon estimó la superficie de respuesta usando los

Page 307: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 306

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

resultados de la simulación, lo que permite calcular los valores críticos de la prueba DF para cualquier tamaño muestral y cualquier número de variables en el lado derecho de la ecuación. El modelo utilizado para el contraste DF no es el expuesto al comienzo sino otro equivalente derivado de la siguiente forma:

Por tanto, la hipótesis nula inicial se transforma ahora en H0: γ=0 frente a la alternativa H1: γ <0. Decir que γ es nulo es lo mismo que a1=1, o existe una raíz unitaria. Decir que es menor que cero equivale a decir que a1 es menor que la unidad o un proceso autorregresivo estacionario. El procedimiento básico para la aplicación de la prueba DF es aparentemente sencillo. Se estima el modelo propuesto y se calcula el valor estimado de la t del parámetro analizado. Una vez calculado se compara con el valor empírico de referencia obtenido con las tablas de Dickey y Fuller o de MacKinnon. Si el valor estimado para γ es superior al tabulado dado un determinado nivel de confianza se admite la hipótesis nula, o sea, la presencia de raíz unitaria.

Page 308: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 307

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

REPRESENTACIÓN DE UNA PRUEBA DF EN STATA

PRUEBA DF Y PROCESO GENERADOR DE DATOS Los valores críticos del t-estadístico de referencia para el contraste DF no sólo dependerán del tamaño muestral también del tipo de modelo estimado, por tanto, del proceso generador de datos supuesto. Por tanto, antes de estimar los parámetros del modelo es necesario decidir si el proceso generador de datos será el simple, presentado anteriormente, ó contendrá una constante (a0), un término de tendencia determinista (a2t) o ambas simultáneamente. Los tres modelos propuestos por Dickey-Fuller son por tanto:

Page 309: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 308

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Modelo 1. Simple

Modelo 2. Constante Modelo 3. Constante y tendencia determinística

Una vez decidido el modelo estadístico de referencia la manera de efectuar el contraste será diferente. Se nota generalmente por las letras τ para el caso más simple, τμ para el caso del modelo con constante y ττ para el caso del modelo con tendencia determinista. Consultar correctamente el estadístico de referencia es fundamental dado que las diferencias entre los distintos valores de τ, τμ y ττ son importantes. Por ejemplo, para un nivel de significancia del 95% y 100 observaciones los valores críticos serían –1.95 para τ, -2.89 para τμ y –3.45 para ττ. Tal y como describen Suriñach (1995) los modelos 2 y 3 presentados por Dickey y Fuller son en realidad formas reducidas de determinados modelos estructurales. Así, el modelo 2, que contrasta la hipótesis nula de paseo aleatorio con deriva frente a una alternativa de esquema AR(1) estacionario sin tendencia, es la forma reducida del modelo:

Bajo la hipótesis nula en el que a0=δ0(1-a1) con el caso de (a1=1) el término constante sería nulo luego su presencia en el modelo a estimar es irrelevante y sólo se justificaría para garantizar que,

Page 310: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 309

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

en el caso que no se rechace la hipótesis alternativa, el proceso autorregresivo tenga media no nula. El modelo 3, que contrasta la hipótesis nula de un paseo aleatorio con deriva frente a la alternativa de un proceso AR(1) estacionario sobre una tendencia determinista, sería la forma reducida del modelo:

Con a0=δ0(1-a1)+δ1a1 y a2=δ0(1-a1). Bajo la hipótesis de raíz unitaria (a1=1) se tiene que a0=δ1 y a2=0 luego, como en el caso anterior, la presencia en este caso del parámetro a2 es irrelevante en el caso de raíz unitaria y su presencia intenta sólo garantizar la consistencia del contraste en una situación de hipótesis alternativa (proceso estacionario sobre tendencia determinista). CONTRASTE DE RAÍCES UNITARIAS MÚLTIPLES Debe ahora ponerse de manifiesto una característica del contraste DF que quizá resulte inadvertida. El contraste DF no puede dar resultados concluyentes en una sola etapa. Si se aplica la prueba DF sobre una serie yt y el resultado es no rechazar la hipótesis nula (no estacionariedad o presencia de una raíz unitaria) la conclusión debe ser que, o bien yt~I(1) o bien no es integrada de ningún orden, es decir, que no puede transformarse en estacionaria por diferenciación.

Page 311: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 310

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para decidir entre una u otra alternativa Charemza y Deadman (1992) sugieren aplicar nuevamente la prueba DF ahora sobre la serie en diferencias ∆yt:

Contrastando el parámetro γ para que resultase nulo o menor que cero por tanto yt fuese integrada de orden 1, entonces ∆yt deberá ser I(0), es decir γ <0. Si, en cambio, la aplicación de la prueba DF sobre este nuevo modelo afirmara que ∆yt tiene una raíz unitaria, entonces el proceso debería continuar ahora con ∆∆yt a fin de determinar si yt es I(2) o se está ante una serie no integrable. Podría proseguirse ahora con ∆∆∆yt y así sucesivamente. Esquema Charemza-Deadman (1992)

En cualquier caso, como se muestra al final del esquema, siempre se debe tener presente la posibilidad que el test DF no sea capaz de detectar la presencia de una raíz unitaria para un determinado orden de diferenciación.

Page 312: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 311

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si así fuera, se corre el peligro de sobrediferenciar una serie. En ese caso, tal y como señalan Charemza y Deadman (1992) la prueba DF tiende a tomar un valor muy alto y positivo (en lugar de negativo) acompañado así mismo de un valor muy elevado del coeficiente de determinación para el ajuste. Dickey y Pantula (1987) proponen un procedimiento alternativo al anterior para el contraste de más de una raíz unitaria. La idea es realizar también una sucesión de contrastes pero empezando por el número máximo de raíces unitarias que se piensa pueden encontrarse. Así, si se piensa que un proceso tiene exactamente, y como mucho, dos raíces unitarias, se plateará el modelo siguiente:

Si efectivamente yt tiene dos raíces unitarias, ∆2yt debe ser estacionaria por lo que el parámetro β1 debe ser nulo. Se efectúa el contraste de la hipótesis nula H0: β1=0, si no se puede rechazar, se afirma que yt tiene exactamente dos raíces unitarias, o sea, es I(2). Si β1 es distinto de cero se debe plantearse entonces el modelo:

Dado que ya se sabe que no hay dos raíces unitarias algunos de los dos coeficientes, o ambos, no serán nulos (sencillamente esto sería incongruente con el resultado obtenido en la etapa anterior).

Page 313: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 312

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La hipótesis nula en este caso será que yt tenga una raíz unitaria, o sea, que ∆yt sea estacionaria. Para eso será necesario que en la expresión anterior β2=0 y β1<0. Si no es así debe rechazarse la hipótesis nula (tanto β1 como β2 son no nulos), entonces yt será estacionaria, es decir, no tendrá ninguna raíz unitaria. Este procedimiento puede utilizarse para un orden mayor r para el caso en que se sospechen sólo dos raíces unitarias. El caso sería bastante excepcional pero, si se diese, el procedimiento es el mismo que el descrito anteriormente sólo que comenzando el contraste con el modelo:

CONTRASTES CONJUNTOS DE PARÁMETROS EN EL MODELO SIMPLE DF Sobre los modelos propuestos que contienen más de un parámetro (modelos 2 y 3) puede además también contrastarse la hipótesis de nulidad simultánea de conjuntos de parámetros.

Dickey y Fuller (1981) plantearon la construcción de estadísticos F clásicos para contrastar las hipótesis H0:γ=a0=0 (estadístico ϕ1) en el modelo 2 y H0: γ=a0=a2=0 (estadístico ϕ2) ó H0: γ=a2=0 (estadístico ϕ3) en el modelo 3.

Page 314: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 313

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los estadísticos ϕ1,2,3 se construyen según la expresión conocida del test F:

Donde SCRmr y SCRmrn son las sumas de cuadrados de los residuos de los modelos restringido (mr) y no restringido (mnr), n es el número total de observaciones, k el número de parámetros del modelo no restringido y r el número de restricciones.

Como ya sucediera en el caso del contraste t individual, no es posible utilizar las tablas habituales de la razón F por lo que de nuevo debe acudirse a las tablas de Dickey-Fuller en las que se recogen los valores generados empíricamente para ϕi.

Resulta necesario resaltar, que la aplicación de los contrastes de nulidad conjunta ϕ1, ϕ2 y ϕ3 supone una forma alternativa a los estadísticos individuales t de contrastar la estacionariedad de yt. Efectivamente podría, por ejemplo, contrastarse con ϕ2 la hipótesis nula que yt siga un paseo aleatorio simple (no estacionariedad) frente a un AR(1) estacionario con término independiente. Este hecho, no hace sino hacer aún más compleja la realización e interpretación del contraste DF.

Por último, conviene no olvidar que, aún a pesar del carácter molesto (nuisance) de algunos de los parámetros, cabe la posibilidad de contrastar, también, la nulidad individual de los mismos, supuesta, eso sí, la existencia de una raíz unitaria.

Page 315: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 314

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Así, puede contrastarse en el modelo 2 la hipótesis a0=0 dado γ=0 mediante el denominado contraste ταμ o en el modelo 3 las hipótesis a0=0 dado γ=0 (estadístico τατ) y a2=0 dado γ=0 (estadístico τβτ).

RESUMEN PRUEBAS DF

PRUEBA DF Y ELECCIÓN DE COMPONENTES

DETERMINISTAS DEL PROCESO GENERADOR DE DATOS (PGD) El primer problema que plantea la aplicación de la prueba DF radica en la estructura teórica del proceso generador de datos asumida para la serie yt ya que influye decisivamente en los resultados obtenidos. Así, no es invariante a los resultados del contraste, suponer para yt un modelo con o sin término independiente, con o sin tendencia determinista, con componente autorregresivo de orden uno u orden superior a uno o con o sin componente de medias móviles.

Page 316: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 315

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El problema radica en que la mayor parte de las ocasiones, el modelo con las características del proceso se desconoce a priori.

Ya se ha observado cómo, desde el primer momento, se ha diferenciado claramente el caso de un modelo simple del caso de un modelo con constante y/o tendencia determinista, dado que los contrastes de referencia son en uno y otro caso diferentes (, , ).

Incluso se ha visto que una misma hipótesis nula puede contrastarse utilizando las prubas individuales τi o los conjuntos τi, dependiendo del proceso generador de datos (PGD) supuesto y de los coeficientes a incluir en el contraste en cada caso.

Las diferencias entre los estadísticos de referencia τ y ϕ para una misma hipótesis nula en las tablas de Dickey-Fuller de 1976 para τ y 1981 para ϕ son importantes, por lo que parece fundamental cuidar la elección del modelo y la hipótesis a contrastar en cada caso, siendo en muchas ocasiones esta etapa, decisiva de cara a la correcta aplicación del contraste. ¿Qué puede ocurrir entonces si se equivoca en la identificación del modelo de referencia? a. Si se toma como modelo de partida un modelo con

tendencia determinista y término constante, se puede estar sobreparametrizando la estimación lo que supone una inmediata pérdida de grados de libertad.

Pero además, los valores críticos de referencia para no rechazar o rechazar la hipótesis nula dependen del modelo

Page 317: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 316

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

estimado por lo que, parece algo arriesgado tomar conclusiones de no rechazo o rechazo de la hipótesis en cada momento con un modelo que, quizá, no sea realmente válido. Concretamente, para un determinado nivel de significancia, los intervalos de confianza alrededor del valor γ=0 se amplían de forma importante si se incluye una deriva o una tendencia determinista provocando, en caso de no ser realmente necesarios, frecuentes errores en el rechazo de la hipótesis nula de raíz unitaria. Dicho de otro modo, la potencia del contraste decrece tanto más cuanto mayor sea el número de parámetros incluidos incorrectamente. Esto significa que se tiende a concluir la existencia de una raíz unitaria cuando, en realidad, no la hay.

b. Una posible alternativa a este esquema podría ser el comenzar por el modelo más restringido, es decir, más simple, e ir incluyendo nuevos parámetros de forma secuencial.

Sin embargo, este procedimiento tampoco soluciona el problema de potencia del contraste dado que la omisión del término independiente o la tendencia determinista, cuando estas son variables relevantes también provoca de nuevo una estimable pérdida de potencia hasta el punto de poder incluso anularse por completo.

Campbell y Perron (1990) comprobaron empíricamente que la omisión de una variable relevante que crezca tan rápido o más que otra de las incluidas (término de tendencia determinista, por

Page 318: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 317

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ejemplo), provoca que la potencia del contraste se reduzca hasta cero a medida que el tamaño muestral se incrementa. Si la variable omitida fuese la deriva, el t-estadístico sería consistente pero, para muestras pequeñas, la potencia se vería seriamente afectada, tanto más cuanto mayor fuera el coeficiente de deriva omitido.

Este problema expuesto hasta aquí, admite además ciertos matices adicionales. En primer lugar, cuando el proceso generador de datos contiene una tendencia o una deriva, la varianza muestral de yt queda dominada por ellas. Así, se ha comprobado empíricamente que, en esos casos, los estadísticos tμ y tτ convergen a una distribución normal estándar por lo que, si se conoce la presencia real de esa tendencia o deriva, la hipótesis nula γ=0 debe contrastarse usando una distribución normal estandarizada en lugar de las distribuciones asintóticas tabuladas por Dickey y Fuller. Hylleberg y Mizón (1989) mostraron que los valores normales estándar llevan frecuentemente al rechazo de la hipótesis nula, incluso con muestras grandes, a menos que la constante sea muy grande. Estos autores propusieron nuevos valores críticos situados entre los clásicos tabulados por DF y los de la distribución normal. A medida el tamaño de la constante se reduce, estos valores se aproximan más a los valores DF. Por esta razón, en estas

Page 319: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 318

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

situaciones y para muestras pequeñas, se recomienda como criterio general utilizar las tablas propuestas por Dickey y Fuller y no las normales estandarizadas. En la práctica, el problema de la elección de los regresores deterministas a incluir en el contraste no tiene una solución sencilla. El principio general puede ser el de “elegir aquella especificación que, a priori, sea más verosímil tanto bajo la hipótesis nula como bajo la alternativa”. Así, puede realizarse un análisis previo de la serie que ayude a determinar si cabe la consideración de una tendencia (determinista o estocástica), y en ese caso incluir una constante y una tendencia en la regresión. Si la serie no presenta tendencia pero tiene media no nula, se incluye la deriva en el modelo y, por último, si presenta media nula y ausencia de tendencia se aplica el contraste con el modelo más restringido. Dolado (1990) y Perron (1990) propusieron, entre otros autores,

seguir un proceso en etapas a fin de garantizar el éxito en la elección

del modelo de referencia en el mayor número de ocasiones:

1. En primer lugar se estimaría el modelo menos restringido (con

término constante y tendencia determinista).

2. Dado que el principal error de esta táctica inicial consistiría en

la escasa potencia del contraste para el rechazo de la hipótesis

nula por inclusión de variables irrelevantes, si los valores

críticos indican rechazo (ausencia de raíz unitaria), se termina el

procedimiento.

3. En el caso de no rechazarse la hipótesis nula de presencia de

una raíz unitaria, es decir, en el caso en que se admite la

presencia de una raíz unitaria (H0: =0) sigue ahora examinar la

Page 320: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 319

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

significancia del parámetro de tendencia determinista a2. Dado

que, en este punto, estaríamos bajo la hipótesis ya admitida que

=0, se utiliza el valor de referencia de e incluso, para

mayor seguridad, también el contraste conjunto 3 (a2==0).

4. Si el término de tendencia resulta significativo (a20) se

contrasta de nuevo la presencia de una raíz unitaria (H0: =0)

pero utilizando entonces las tablas de una normal estandarizada.

Sea cual sea el resultado del test con las nuevas tablas finalizan

el contraste admitiendo o rechazando la presencia de una raíz

unitaria.

5. Si el término de tendencia es no significativo, deberá

replantearse el modelo inicialmente estimado pasándose a

examinar otro con término constante pero sin esta tendencia

determinista. Con este modelo se vuelve a analizar la presencia

de una raíz unitaria (=0).

6. En el caso en que, nuevamente, se sostenga la presencia de una

raíz unitaria, se contrastará entonces la adecuación del término

independiente a0 bien con el contraste , bien con 1. Si el

término independiente resulta significativo se utiliza de nuevo

las tablas de una normal para contrastar la presencia de la raíz

unitaria, concluyendo de nuevo aquí el contraste.

7. Sólo si entonces la constante a0 es no significativa se utiliza el

modelo más simple como modelo de referencia contrastándose,

de nuevo, la presencia de raíz unitaria. En este caso, no tiene

cabida el uso de la distribución normal estandarizada.

8. Por último, parece sensato incluir aquí como consejo la

atención a la teoría del fenómeno que se está analizando. Así,

en ciertas ocasiones la teoría económica nos mostrará que no

cabe considerar una tendencia en una determinada serie o bien,

Page 321: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 320

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

por el contrario, que no cabe la fluctuación alrededor de un

valor medio.

Prueba DF en modelos autorregresivos de orden superior.

Contraste ADF

Hasta este momento permite contrastar la presencia de una o más raíces unitarias en una determinada serie temporal para la que se supone un proceso AR(1). Sin embargo, muchas serie temporales se ajustan más adecuadamente a procesos autorregresivos de orden superior AR(2) o AR(3). No parece, por tanto, adecuado, contrastar la presencia de una o más raíces unitarias utilizando siempre la estructura de un modelo AR(1) ya que las raíces unitarias pueden aparecer también en estructuras más complejas. Este problema da lugar a lo que se conoce como test de raíces unitarias de Dickey-Fuller Ampliado (ADF). Si se quiere contrastar la presencia de una raíz unitaria en una serie que sigue un proceso AR(p), deberá aplicarse el procedimiento expuesto para el caso simple AR(1), pero suponiendo ahora del modelo:

Dónde:

Page 322: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 321

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Para entender este modelo y la hipótesis que se contrasta de cara a detectar la presencia de una raíz unitaria, veamos un caso sencillo de una serie que presente una raíz unitaria en el marco de un modelo AR(3). Dado el modelo original:

Sumando y restando para yt-2

Calculando

Sumando y restando para yt-3

Si la serie presenta una raíz unitaria en este modelo bastará con que γ=0 ya que entonces:

lo que garantiza que, al menos, una raíz característica de la ecuación sea igual a uno, es decir, yt ~I(1). La nulidad del

Page 323: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 322

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

parámetro se contrasta siguiendo el mismo procedimiento que en el modelo simple y, por tanto, se utilizan las mismas tablas que en el caso del contraste DF. En este sentido, es importante señalar que el propio Fuller demostró que la distribución asintótica del estadístico “t” del parámetro g estimado, es independiente del número de rezagos de la variable diferenciada que se incluya en la especificación del modelo estimado. Debe observarse cómo la aplicación del test ADF no sólo es conceptualmente útil para el contexto en el que se sospecha un modelo AR(p), sino que, además, se presenta como una posible corrección a los problemas de autocorrelación que pudieran aparecer en el término de error del modelo básico utilizado en el test simple DF, sobre todo en series de frecuencia superior a la anual. Efectivamente, debe tenerse en cuenta que los valores de referencia de la prueba se han obtenido suponiendo la ausencia de autocorrelación serial en et, en este sentido, la introducción de un número suficiente de rezagos de la variable dependiente podría ser suficiente para transformar et en un ruido blanco. La elección del número de rezagos a considerar viene determinada por: 1. El modelo teórico de referencia supuesto para yt, en la

medida en que este sea conocido por el investigador. 2. Criterios clásicos de aceptación de variables en un modelo

como el test “t- Student” de significancia individual, AIC o SBC.

Page 324: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 323

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Esta forma de corrección de posibles problemas de autocorrelación en et es lo que se denomina Solución Paramétrica al problema de la autocorrelación y fue sugerida por los propios autores del contraste, Dickey y Fuller (1981); de hecho, debe señalarse que numerosos textos introducen conceptualmente la prueba ADF al comentar el problema de una posible autocorrelación en los residuos del modelo simple DF. Esquema de análisis de estacionariedad previo a la identificación y eventuales transformaciones de la serie original según los resultados

Serie inicial “Yt”

¿Es estacionaria en media ?

Aplicar filtro de tendencia

NO

Continuamos con la serie filtrada

“Yt(ft)”

SI

Continuamos con la serie

inicial “Yt”

NO

Aplicar

diferencias

Continuamos con la

serie filtrada en

diferencias “dYt(ft)”

SI

Continuamos con

la serie filtrada

“Yt(ft)”

¿Es “Yt” estacionaria en

varianza ?

NO

Aplicar

diferencias

Continuamos con la

serie en diferencias

“dYt”

SI

Continuamos con

la serie original

“Yt”

¿Es “Yt(ft)” estacionaria

en varianza ?

(1) (2) (3) (4)

Serie inicial “Yt”

¿Es estacionaria en media ?

Aplicar filtro de tendencia

NO

Continuamos con la serie filtrada

“Yt(ft)”

SI

Continuamos con la serie

inicial “Yt”

NO

Aplicar

diferencias

Continuamos con la

serie filtrada en

diferencias “dYt(ft)”

SI

Continuamos con

la serie filtrada

“Yt(ft)”

¿Es “Yt” estacionaria en

varianza ?

NO

Aplicar

diferencias

Continuamos con la

serie en diferencias

“dYt”

SI

Continuamos con

la serie original

“Yt”

¿Es “Yt(ft)” estacionaria

en varianza ?

(1) (2) (3) (4)

Page 325: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 324

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Falta: Circulo unitario e idea de raíz unitaria. Teorema de representación de wold y condición de invertibilidad Ecuaciones de yule Walker Estimación Pronostico Condiciones de invertibilidad Estadisticl de ljung box PROTOCOLO DE IDENTIFICACIÓN DE MODELOS ARIMA En términos generales, se conoce como identificación del modelo la determinación de los ordenes “p” y “q”, de la estructura ARMA de la transformada la variable transformada Zt de una serie temporal yt diferenciada o con filtro de tendencia. Antes de proponer algunas técnicas concretas para la identificación de la serie Zt, conviene hacer algunas observaciones preliminares importantes: a. La observación de la estructura ARMA(p,q) supone la

presencia de componentes regulares en las series, una vez filtrada la presencia de tendencias deterministas y estocasticas. No todas las series presentan este tipo de componentes regulares o, dicho de otro modo, no todas las series son susceptibles de ser analizadas mediante un esquema ARMA.

Page 326: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 325

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

A este respecto, conviene recordar que los modelos ARMA implican estructuras de comportamiento muy sencillas que no siempre se ajustan a la compleja evolución de las series reales.

b. Aunque técnicas de identificación pueden aplicarse a cualquier variable transformada Zt de la serie original yt debe tenerse en cuenta que el resultado del proceso de identificación no es independiente de las decisiones adoptadas en el proceso de análisis de estacionariedad previo. Todas las decisiones adoptadas en este proceso previo (aplicación de filtros de tendencia, elección de un filtro frente a otro, orden de integración y diferenciación de la tendencia estocastica) implican obtener diferentes versiones, transformadas de Zt, y por tanto, alteran las características del proceso a observar mediante la identificación. Aplicar una diferencia cuando no existía una raíz unitaria en una tendencia estocastica (sobrediferenciar), no aplicar una diferencia necesaria (infradiferenciar), elegir un filtro de tendencia incorrecto implican errores en el proceso de identificación. Así, por ejemplo, en las siguientes figuras se observa como la aplicación incorrecta de un filtro de tendencia lineal genera una señal filtrada sobre la variable transformada Zt absolutamente distinta de la que se genera cuando se aplica el filtro correcto.

Page 327: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 326

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Figura 1: Serie Yt con tendencia polinómica

Figura 2: Serie Yt, filtro de tendencia lineal incorrectamente aplicado y serie

filtrada Zt=yt(ft) resultante

Figura 3: Serie Yt, filtro de tendencia polinómico correctamente aplicado y serie filtrada Zt=yt(ft) resultante

c. La presencia de componentes estacionales en las series de

tiempo estacionarias obliga a plantearse al menos tres preguntas previas a la identificación:

i. ¿Conviene preservar el componente estacional en la serie o eliminarlo antes de identificar sus estructuras ARMA y utilizar los resultados con fines analíticos?

0

400000

800000

1200000

1600000

96 97 98 99 00 01 02 03 04 05

SERIE1

-200000

0

200000

400000

-500000

0

500000

1000000

1500000

2000000

96 97 98 99 00 01 02 03 04 05

Residual Actual Fitted

-40000

-20000

0

20000

40000

-500000

0

500000

1000000

1500000

2000000

96 97 98 99 00 01 02 03 04 05

Residual Actual Fitted

Page 328: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 327

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

ii. En caso que sea de interes eliminar el componente estacional, ¿Cuándo conviene aplicar el correspondiente filtro para elimianr la estacionalidad?. ¿Antes del tratamiento de la tendencia determinista y las raíces unitarias? ¿Después de los filtros de tendencia pero antes del análisis de Raíces Unitarias?

iii. Suponiendo que esta claro cuándo conviene eliminar la estacionalidad, ¿existe un procedimiento estándar o más de uno? y, lo que es más importante, ¿es indiferente la aplicación de los distintos métodos que existen o por el contrario los distintos procedimientos impactan sobre la serie filtrada resultante y, por tanto, sobre el resto de las etapas del análisis?

Algunas de las preguntas previas tienen una respuesta. Empezando por el final, existen distintos métodos para eliminar la componente estacional y la aplicación de cada uno de ellos genera resultados que pueden diferir sustancialmente influyendo en el resto de las etapas (identificación y análisis de estacionariedad). Entender distintos procedimientos pasa por comprender una distinción muy simple de tres (3) tipos genéricos de estacionalidad. Puramente determinista, Estacionalidad estacionaria y Estacionalidad integrada. Definicion. Estacionalidad determinista. Asume que el componente estacional de una serie transformada Zt puede ser

Page 329: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 328

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

pronosticado con exactitud a futuro, permaneciendo invariante en el tiempo, y puede, por tanto, ser modelado por ejemplo mediante la inclusión de variables dummies. Excluida la estacionalidad determinista, el resto de métodos ideados para modelar la estacionalidad no determinista (X11, X12) impactan de forma distinta, y a veces significativa, en los resultados obtenidos para la serie filtrada y, además, generan resultados potencialmente distintos según el momento elegido para la aplicación del filtro. Por último, conviene preguntarse además si la estacionalidad es siempre “estacionaria” o, por el contrario, del mismo modo que aparecen raíces unitarias “regulares” es posible encontrar raíces unitarias estacionales. Efectivamente, es posible encontrar raíces unitarias estacionales lo que obliga a pensar en la aplicación de test específicos43 antes de observar otros componentes estacionales estacionarios en la identificación.

Con el fin de no complicar en exceso el proceso de identificación yen términos de la estacionalidad y supondremos bien que estamos ante una serie sin componentes estacionales o, al menos, con componentes estacionales estacionarios que, por tanto, podrán ser filtrados previamente o bien modelados en el propio proceso de identificación ARMA en su componente estacional (SARMA).

43 Existen varias propuestas al respecto: DF Estacional (Dickey Fuller) , HEGY (Hyllenerg,Engle,Granger y Loo) , CH (Canovas – Hansen)

Page 330: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 329

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

TÉCNICAS DE IDENTIFICACIÓN DE ESTRUCTURAS ARMA CORRELOGRAMA Tradicionalmente se ha sugerido la utilización del correlograma de la serie como método de identificación de la estructura ARMA de una serie Zt. En este contexto, la utilización de un gráfico para resolver la identificación parece una propuesta muy sugerente. Sin embargo, como se tiene a su disposición herramientas mucho más potentes para decidir qué estructura ARMA representa mejor la serie analizada por lo que no debe sobrevalorar el correlograma y debe considerarlo, a lo sumo, un punto de apoyo inicial, meramente orientativo, con el que iniciar el proceso de identificación. El correlograma de una serie es una representación gráfica de sus coeficientes de autocorrelación simple y parcial. La secuencia de coeficientes de autocorrelación simple se denomina Función de Autocorreación Simple (FAS) y la secuencia de coeficientes parciales Función de Autcorrelación Parcial (FAP). Un coeficiente de autocorrelación simple de orden “k” (ρk) es un coeficiente de correlación simple “al uso” entre la serie Yt y a la serie Yt-k.

ktt

kttk

yDTyDT

yyCov

),(

Page 331: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 330

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Dado que el proceso es estacionario en varianza (DT(Yt)=DT(Yt-

k)):

yVar

yyCov kttk

),(

Cuando hablamos de autocorrelación parcial de orden k (πk), indica la correlación entre Yt e Yt-k condicionada a los valores de los rezagos intermedios de la propia serie. Por ejemplo, si hablamos de la relación entre Yt e Yt-3 se refiere a la correlación entre estas dos series condicionado a los valores de Yt-1 e Yt-2.

121 ,....,, ktttkttk yyyyyCorr

La influencia de los rezagos intermedios en los valores de Yt e Yt-k podría calcularse el estimado de una regresión de Yt e Yt-k sobre esos valores intermedios:

111111ˆ.....ˆˆˆ

ktttt yyyy

1111ˆ.....ˆˆˆ

ktktktkt yyyy

La relación parcial será entonces la correlación simple exhibida entre el residuo de ambas regresiones, es decir, entre la proporción de Yt e Yt-1 no condicionada a los valores de los rezagos intermedios:

)ˆ()ˆ(

)ˆ)(ˆ(

ktkttt

ktktttk

yyVaryyVar

yyyyCov

Page 332: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 331

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La representación para una determinada serie de un número suficiente de coeficientes de autocorrelación simple y parcial resulta indicativa de la estructura del proceso estocástico subyacente. La razón estriba en que, desde un punto de vista estrictamente teórico, todo proceso estocástico estacionario AR(p) presenta funciones de autocorrelación simple y parcial de un patrón similar (valores de los coeficientes simples o parciales para los diversos retardos) y lo mismo ocurre con los procesos MA(q). En concreto, un examen técnico detallado de las funciones de autocorrelación simple y parcial demuestra que: a. Un proceso genérico AR(p) muestra un decrecimiento rápido

de los coeficientes de autocorrelación simple junto a la presencia de ”p” coeficientes significativos de autocorrelación parcial.

b. De forma simétrica, un proceso genérico MA(q) muestra un decrecimiento rápido de los coeficientes de autocorrelación parcial junto a la presencia de ”p” coeficientes significativos de autocorrelación simple.

Aunque el “aspecto” teórico de un AR(p) o un MA(q) es sencillo de diferenciar, cuando analizamos series temporales reales, la representación de correlogramas muestrales resulta siempre algo menos evidente y, por tanto, más confusa. En ese sentido, conviene observar las siguientes recomendaciones:

Page 333: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 332

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

a. El análisis de los correlogramas es sólo un análisis preliminar que después podrá complementarse con medidas técnicas adicionales por lo que, en todo caso, el correlograma deberá utilizarse para realizar sólo un juicio preliminares que después conviene refrendar con otros cálculos.

b. El patrón AR(p) exige la presencia simultánea de un decrecimiento en la función simple y (p) valores estadísticamente significativos en la función parcial; la presencia aislada de una de las dos cosas no puede asociarse a un proceso AR(p). De forma similar, los patrones de un MA(q) deben aparecer también de forma simultánea.

c. El número “p” o “q” de rezagos significativos en la FAP o en la FAS puede evaluarse en términos estadísticos44 pero en un primer momento basta observar si los valores de los coeficientes son gráficamente significativos, es decir, si presentan un valor evidentemente mayor que el resto de coeficientes. Los rezagos estadísticamente significativos son de orden limitado (de orden uno, es decir, para el primer retardo, de orden dos o, muy rara vez, de tercer orden). Un valor aparente significativo en un orden elevado (salvo en los retardos estacionales), sin que previamente los anteriores retardos parezcan significativos, suele indicar

44 Bartlett demostró que

n

Nk1,0ˆ

Como para cualquier distribución normal estándar, el intervalo de confianza al 95% es 1,96*DT , pueden calcularse los límites de nulidad de los “ρ”: cualquiera que se salga de esos límites es estadísticamente distinto de “0” (límites que aparecen dibujados en el correlograma de E-Views)

Page 334: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 333

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

algúna atipicidad en la serie, y no un patrón de interés analítico.

EVALUACIÓN ECONOMÉTRICA DE LAS ESPECIFICACIONES ARMA Más allá de la utilización del Correlograma de la serie, conviene utilizar los procedimientos habituales de evaluación de una estimación econométrica para decidir el modelo ARIMA que mejor ajusta la seria analizada. En la práctica real, el número de estructuras ARIMA alternativas para ajustar una serie es muy reducido dado que términos de orden regular45 superior a 2 son muy poco habituales. Esto supone la mayor parte de las veces elegir entre un AR(1), un MA(1), un AR(2), un MA(2) o alguna combinación ARMA de orden 1 ó 2. Así pues, la recomendación de orden general es comenzar observando el correlograma y, en base a los indicios apuntados por el mismo, valorar econométricamente las dos o tres posibles estimaciones alternativas. Par esa evaluación econométrica, pueden considerarse criterios estadísticos habituales como los siguientes: a. Análisis de la significancia individual de los coeficientes AR y

MA. Para ello puede utilizarse el contraste “t” clásico de significación estadística individual al modo habitual.

45 Para la componente estacional ocurre algo similar. Órdenes estacionales superiores a 1 (4, 12,… dependiendo de la frecuencia de la serie) son inhabituales.

Page 335: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 334

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

b. Criterios de información (Akaike46 y/o Schwarz47 entre otros). Recordando que, entre modelos alternativos, se elegirá aquel con el menor valor del criterio de información.

c. Evaluación de los errores. El análisis de errores clásico de una regresión puede proporcionar criterios suficientes para elegir entre posibles modelos alternativos. En este sentido, pueden utilizarse cualesquiera medidas que resuman A proiri el tamaño (suma de errores, porcentaje medio de error, …) y sus características (ausencia de trazas autocorrelacionadas o heterocedásticas, capacidad de ajuste de los puntos de cambio de tendencia, …) Oo que permitan intuir su comportamiento a posteriori (comportamiento de los errores con enfoque de validación cruzada, comportamiento del ajuste hacia el final del período histórico,…)

EVALUACIÓN DE LA ESPECIFICACIÓN SARMA (ESTACIONALES) Del mismo modo que se ha identificado la presencia de términos AR y/o MA en la componente “regular”, observando los correlogramas o utilizando criterios clásicos de evaluación

46 El coeficiente AIC: responde a la expresión:

n

eenkLnk

'ln2)ln(2

Para muestras pequeñas, se propone la versión corregida AICc (muestras pequeñas):

1

12

kn

kkAIC

47 El criterio de Schawrz, denominado generalmente BIC, es algo más exigente que el AICE para la inclusión de nuevas variables y responde a la

expresión

n

nk

n

ee )ln('ln

Page 336: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 335

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

econométrica, pueden así mismo identificarse estructuras AR y MA para retardos estacionales. Este tipo de estructuras SAR y/o SMA se identifican con los mismos instrumentos especificados anteriormente. Con relación al correlograma, en el caso de las componentes estacionales las estructuras SAR y SMA se identifican gráficamente con los mismos patrones señalados para la componente regular. Sin embargo, para evaluar en este caso un decrecimiento en la FAP o FAS debemos fijarnos exclusivamente en los valores de los coeficientes de autocorrelación (simples o parciales) correspondientes a los rezagos estacionales (por ejemplo para una serie trimestral, se debe observar gráficamente el valor de los coeficientes de autocorrelación para t-4, t-8, t-12……etc). Dado que habrá que observar coeficientes de autocorrelación para rezagos estacionales, deberán solicitarse correlogramas más extensos que par la identificación de la componente regular. En una serie mensual, por ejemplo, una docena de coeficientes son suficientes para observar cualquier estructura en la componente regular y, sin embargo, no podría observarse la componente estacional dado que el único coeficiente estacional disponible sería el correspondiente a “t-12”. Por lo que se refiere a la evaluación econométrica de las especificaciones SARMA alternativas, todos los consejos citados

Page 337: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 336

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

para la evaluación econométrica de la componente regular son igualmente aplicables para evaluar la conveniencia de la inclusión de términos SAR y/o SMA en una especificación. INTRODUCCIÓN AL ANÁLISIS DE INTERVENCIÓN El modelamiento econométrico ARIMA de una serie temporal rara vez concluye con la identificación de una estructura AR / MA. La razón es que este tipo de estructuras ARMA regulares y/o estacionales pueden servir como regla general de comportamiento para la serie disponible, pero sólo capturarán aquella porción de la variabilidad sistemática que se observe a lo largo de la serie completa. Esto significa que, aún utilizando una estructura ARMA pueden quedar fuera de análisis: a. Ciertos componentes de variabilidad sistemática (y por ello

previsible en gran medida) pero de carácter irregular o de frecuencia anómala. Como componente sistemático de carácter puntual podemos, por ejemplo, imaginar el efecto de la semana santa sobre la serie semanal de entrada de turistas. Dado que la Semana Santa es un fenómeno puntual dentro del año (no ocurre todos los meses) y además no siempre “cae” en la misma semana natural, su “efecto” sobre la serie no se puede recoger con el componente regular ARMA previamente identificado. Otros efectos de esta naturaleza pueden ser el efecto”año bisiesto”, la presencia de fiestas de distinto carácter (internacional, nacional, regional, local,…) que afecten a la serie o a parte de ella.

Page 338: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 337

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

b. Impactos puntuales en la serie debidos a la presencia de observaciones atipicas, imprevisibles, no sistemáticas, relacionadas con acontecimientos extraordinarios o errores en la manipulación de datos (atípicos) Ejemplos de puntos atípicos con influencia sobre cualquier serie hay tantos como acontecimientos imprevisibles puedan ocurrírsele a uno (un atentado, un seísmo, un cambio legislativo, una fusión empresarial, …..)

La presencia de este tipo de componentes deficientemente incluidos en la especificación, pueden generar problemas en los modelos estimados. En primer lugar, la presencia de puntos o períodos atípicos eleva el error de estimación, lo que repercute en varios aspectos clave en materia de evaluación general del modelo (tests de significatividad, precisión en el contraste de hipótesis, tamaño de los intervalos para los parámetros y la predicción, etc). En segundo lugar, la propia presencia no atendida de tramos o puntos anómalos puede inducir errores en la identificación de las estructuras ARMA. En este sentido, algunos puntos atípicos pueden tener una elevada influencia en los resultados de las medidas y los test que se utilizan en la tarea de especificación.

Page 339: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 338

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Adicionalmente, la presencia de señales atípicas en las series y su correcta detección aporta en muchas ocasiones una fuente auxiliar de conocimiento del fenómeno analizado que no conviene desperdiciar. En líneas generales, el análisis de intervención aspira a complementar la identificación ARMA de la componente de variabilidad sistemática regular de la serie, añadiendo al modelo una componente (de tipo determinista) que recoja los efectos de los anómalos. Esa componente determinista puede ser, a futuro, previsible o imprevisible en función, precisamente, del carácter determinista o no sistemático del acontecimiento incluido. La forma que adoptará la componente determinista del análisis de intervención dependerá del tipo y duración fenómeno a incorporar en el modelo. En ocasiones se tratará de series completas de tiempo en otras de meras variables dummy pensadas para capturar algún acontecimiento puntual. Así, por ejemplo, en el caso del modelamiento de datos atípicos (outliers), suelen distinguirse algunos perfiles habituales (se muestran sólo algunos ejemplos de los diversosperfiles que podrían imaginarse):

Impulso: El acontecimiento es puramente puntual afectando a una única observación.

Escalón: Se produce un cambio de nivel (media) en la serie a partir de un determinado acontecimiento.

Page 340: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 339

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Meseta: Una variante del atípico de escalón pero de duración determinada

Tendencia (o rampa): El acontecimiento impacta progresivamente en la serie generando una tendencia determinista.

Los distintos acontecimientos que requieren análisis de intervención pueden ser conocidos previamente por el analista por lo que su detección técnica no es necesaria. Sin embargo, la exploración puramente técnica de la serie en busca de datos atípicos puede ser también importante por cuanto algunos fenómenos que impactan en la serie pueden no ser conocidos a priori (bien por falta de atención o estudio del analista, bien por tratarse de cuestiones particularmente raras e inexplicables incluso a posteriori). En este sentido, muchos programas con módulos específicos de análisis de series temporales (TRAMO-SEATS) ofrecen

-50

-40

-30

-20

-10

0

10

20

1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495

-5

0

5

10

15

20

25

30

35

40

1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495

-5

0

5

10

15

20

25

30

35

40

1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495 -10

-5

0

5

10

15

20

25

30

35

40

1 14 27 40 53 66 79 92 105 118 131 144 157 170 183 196 209 222 235 248 261 274 287 300 313 326 339 352 365 378 391 404 417 430 443 456 469 482 495

Page 341: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 340

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

mecanismos de detección y caracterización de datos atípicos que complementan las ideas a priori del analista. Transformaciones de Box-Cox. La familia de transformaciones más utilizada para resolver los problemas de falta de normalidad y de heterocedasticidad es la familia de Box-Cox. Si se desea transformar la variable Y, cuyos valores muestrales se suponen positivos, en caso contrario se suma una cantidad fija M tal que Y + M > 0. La transformación de Box-Cox depende de un parámetro 𝜆 por determinar y viene dada por:

Si se quieren transformar los datos para conseguir normalidad, el mejor método para estimar el parámetro 𝜆 es utilizar la estimación por máxima verosimilitud y se calcula como sigue para diferentes valores de 𝜆 se realiza la transformación:

Siendo y=(y1,y2,…..yn)1/n la media geométrica de la variable Y. Para cada 𝜆, se obtiene el conjunto de valores {Ui(𝜆)}i=1…n. La función de verosimilitud es:

Page 342: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 341

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Se elige el parámetro �� que maximiza L(λ). En la práctica, la transformación mas utilizada para buscar la homocedasticidad y normalidad en el proceso estocástico el logaritmo natural.

METODOLOGÍA BOX – JENKINS La publicación de Box y Jenkins “Times Series Análisis: Forecasting and Control” en la década de los 70’s generó un nuevo conjunto de herramientas de predicción, cuyo procedimiento se llamó metodología Box- Jenkins. También técnicamente conocida como metodología ARIMA. Este método de predicción se basa en el análisis de las propiedades probabilísticas o estocásticas de las series de tiempo económicas en sí mismas, pues una variable Yt puede ser expresada como una función de sus valores pasados, razón por la que algunas veces se les denomina modelos sin concepción estructural donde no existe relación causal alguna a diferencia de los modelos clásicos de regresión. El objetivo de la metodología Box – Jenkins es identificar y estimar un modelo estadístico que puede ser interpretado como generador de la información de la muestra. En este sentido, si el modelo estimado es usado para la predicción debe suponerse que las características de la serie es al menos estacionaria en estido debil. Por lo tanto, la predicción se efectúa sobre una base válida considerando que el modelo es estacionario o estable. PROCEDIMIENTO Las etapas que se deben seguir en la elaboración de un modelo ARIMA con fines predictivos son las siguientes:

Page 343: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 342

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Etapa 1. Identificación. Esta fase consiste en detectar el tipo de proceso estocástico que ha generado los datos. Esto significa encontrar los valores adecuados del la parte autoregresiva (p),el orden de integración (d) y el componente de mendia móvil (q) del modelo ARIMA. Las herramientas fundamentales en la identificación son el correlograma muestral y el correlograma parcial muestral. Es importante tener en cuenta que antes de usar los criterios de identificación sobre las funciones de autocorrelación de FAS y FAP se debe lograr una serie estacionaria. Para ello, se efectúan las pruebas de estacionariedad a la serie original. En caso de que esta no sea estacionaria, la variable puede diferenciarse d veces hasta que ésta sea estacionaria. Mediante este procedimiento se identifica el orden de integración d del modelo ARIMA. A continuación se presentan los patrones teóricos de la FAS y FAP según el tipo de modelo, los cuales son útiles en la identificación de p y q del modelo ARIMA:

Page 344: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 343

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Puesto que en la práctica no se observan la FAS y la FAP teóricas, se usan las FAS y FAP estimadas, las cuales presentan error estadístico. El objetivo es encontrar la mayor exactitud entre la FAS y FAP teóricas y estimadas, en tanto que la identificación del modelo ARIMA requiere de habilidad, la cual se obtiene con la práctica. Cabe anotar, que en el procedimiento de identificación de p y q, Cabe anotar, que en el procedimiento de identificación de p y q, se consideran aquellos rezagos estadísticamente significativos, por lo cual no es necesario incluir rezagos intermedios hasta p o q si éstos no son significativos. Etapa 2. Estimación. En esta etapa se estiman los coeficientes de los términos autorregresivos y de media móvil incluidos en el modelo, cuyo número de rezagos p y q ya han sido identificados en la etapa anterior. Algunas veces la estimación se efectúa por OLS, pero en otras se recurre a la estimación no lineal de los parámetros. Este último

Page 345: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 344

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

procedimiento utiliza un algoritmo para minimizar la suma de los cuadrados de los residuos, comenzando con algún valor inicial de los parámetros del modelo. En general el algoritmo busca si otro vector de parámetros mejora el valor de la función objetivo, produciendo iteraciones sucesivas hasta alcanzar la convergencia. Los paquetes estadísticos efectúan este procedimiento a través de rutinas de computador en las que se tienen definidos los parámetros iniciales, así como los criterios de convergencia. Teóricamente el método OLS en la medida que las muestras sean grandes posee propiedades asintóticas, esto quiere decir que se generan estimadores asintóticamente consistentes y convergen a una distribución normal, por lo que las pruebas hipótesis convencionales sobre los parámetros del modelo serán válidas. La estimación del modelo ARMA(p,q) se efectúa para la serie que se ha comprobado es estacionaria. En la práctica los modelos más comunes son los autorregresivos. Sin embargo, de acuerdo con el teorema de descomposición de Wold, el modelo ARMA debería ser la primera opción, teniendo en cuenta que la inclusión de términos adicionales MA puede mejorar las propiedades estadísticas de la estimación. Los modelos MA son poco comunes y en la práctica a todos los modelos se les incorpora la constante o intercepto. Debido a que en la práctica es difícil identificar con exactitud el orden p y q del modelo ARMA, se suelen plantear dos o más modelos plausibles,

Page 346: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 345

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

que luego de ser estimados son útiles para la elección del más apropiado. Etapa 3. Verificación de Diagnóstico. En esta etapa ser busca evaluar si el modelo estimado se ajusta a los datos en forma razonablemente buena, ya que es posible que exista otro modelo ARMA que también lo haga. A esta etapa también se le conoce como validación o comprobación de diagnóstico en la cual se efectúan algunas pruebas antes de hacer uso del modelo para la predicción. La validación o verificación incluye el análisis de los coeficientes o parámetros del modelo, la evaluación de la bondad de ajuste y análisis de los residuos. 1. Análisis de los coeficientes. Se desea que el modelo

ARMA(p,q) estimado cumpla con las condiciones de estacionariedad e invertibilidad y que exista significancia estadística en los rezagos incorporados. Teniendo en cuenta las propiedades asintóticas de la estimación por OLS, los estadísticos t-student pueden utilizarse para probar significancia individual de cada uno delos coeficientes hasta p y q.

2. Bondad de Ajuste. Debido a que en la fase de identificación se postula más de un modelo tentativo, en el diagnóstico o validación es importante identificar cuál de los modelos presenta una mejor bondad de ajuste. Una herramienta para ello es el R2 ajustado, el cual es corregido por los grados de libertad resultantes de introducir parámetros adicionales en el modelo. Por esta razón es aconsejable el R2 ajustado que el R2, ya que el primero en cierto modo tiende a evitar o

Page 347: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 346

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

castigar la sobreparametrización. Sin embargo, el R2 ajustado tiene validez solamente cuando se comparan modelos en los que se han tomado el mismo número de diferencias. Esto se sustenta en que la varianza total depende del número de diferencias que se haya tomado.

3. Debido a esta limitación del R2 se han propuesto medidas alternativas ecomo criterios de información como Akaike Information Criterion (AIC) o el Schwartz Criterion (SBC). Estas son herramientas estadísticas útiles para elegir el número adecuado de rezagos p y q del modelo ARMA. Ambos criterios se basan en la utilización de la suma de los cuadrados de los errores, buscando minimizarla a partir de diversas combinaciones de p y q. A esta prueba se le conoce como la prueba de parsimonia. Al efectuar el diagnóstico se desea que tanto el AIC y el SC den lo menor posible al comparar modelos con diversas combinaciones de p y q. En este proceso es importante considerar que los rezagos adicionales deben ser significativos, puesto que si éstos no los son aumenta k sin que la suma de cuadrados de los errores se reduzca.

4. Análisis de los residuos. El supuesto de errores del modelo son un proceso puramente aleatorio (media cero, varianza constante y no correlación serial) debe verificarse. Para ello es posible efectuar varios análisis: a. Gráfico de los residuos. Consiste en una gráfica de los

errores en función del tiempo. La gráfica puede revelar a simple vista si por ejemplo es admisible la hipótesis de varianza constante o correlación.

b. Correlograma de los residuos y el estadístico Ljung – Box. Se evalúa con el correlograma que los errores del

Page 348: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 347

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

modelo son ruido blanco. En caso de no serlo, es indicativo de que hay alguna estructura remanente del modelo que no se logró capturar. La manera de efectuar la prueba es mediante la inspección del comportamiento del correlograma muestral a medida que aumenta el número de rezagos y a través del estadístico Ljung–Box.

c. Histograma. Generalmente se acostumbra probar que los errores del modelo siguen distribución normal. Para ello, se construye el histograma de frecuencias. La prueba de normalidad se efectúa con el estadístico Jarque Bera. En caso de que el modelo cuente con errores autocorrelacionados se volverá a la etapa de identificación con el objeto de reformular el modelo hasta que los errores sigan un proceso puramente aleatorio.

5. Pronóstico. El paso mas importante. Se pronostica un periodo futuro a partir del modelo seleccionado. Es decir, aquel que es “el mejor” resultante de las etapas anteriores, es importante considerar si la variable original fue diferenciada. Se hace necesario ejecutar pruebas de backtesting e intramuestra para verificar al asertividad del modelo.

SELECCIÓN DE MODELOS Existen dos metodologías en la selección de modelos de pronóstico. La primera parte de los criterios de información. La segunda utiliza metodologías de minimización del error de pronóstico.

Page 349: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 348

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

CRITERIOS DE INFORMACIÓN La selección de modelos en el análisis econométrico involucra tanto consideraciones estadísticas como no estadísticas. Esto dependerá de los objetivos del análisis, de la naturaleza y extensión de la teoría económica utilizada y de los resultados estadísticos del modelo bajo consideración comparado con otros modelos econométricos. El cálculo de los valores de las funciones de criterio corresponde a las propuestas por Akaike (1973,1974), Schwarz (1978) y Hannan-Quinn (1979), tanto para modelos uniecuacionales como multiecuacionales. Estos criterios de selección de modelos miden el “ajuste” (“fit”) de un modelo dado, maximizando el valor de la función de máxima verosimilitud con el uso de diferentes funciones de costos (“penalty”) para tomar en cuenta el hecho de que diferentes números de parámetros desconocidos pudieron haber sido estimados para diferentes modelos bajo consideración. Si ln(Θ) es el valor maximizado de la función de máxima verosimilitud de un modelo econométrico, donde Θ es el estimador de máxima verosimilitud de Θ, basado en una muestra de tamaño n. Definición. Criterio de información de Akaike (AIC). Para este modelo proporciona una aproximación para muestras pequeñas. Se define como:

Page 350: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 349

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Definición. Criterio de información Bayes-Schwarz (BIC). Suministra una aproximación para muestras grandes del porcentaje de probabilidad del modelo bajo consideración. Este criterio se define como:

Definición. Criterio de información Hannan–Quinn. Este criterio de información fue primeramente propuesto para seleccionar el orden autorregresivo de los modelos de promedios móviles o vectores autorregresivos (VAR), y es definido por:

MINIMIZACIÓN DEL ERROR DE PRONÓSTICO Si entendemos que una predicción es mejor que otra cuando comete menor error, los criterios de selección de modelos serían el error cuadrático medio (ECM), error absoluto medio (EAM) y error absoluto porcentual medio (EAPM). Estos indicadores se calcularían a período histórico, es decir, se calcularían los valores que el modelo ofrece para las H últimas observaciones y se compararían con el valor real, del siguiente modo:

Page 351: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 350

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Otra medida que permite analizar la bondad de la predicción. Está basada en la diferencia cuadrática que existe entre las tasas de crecimiento de la variable real y la estimada conocida como u de Theil. El valor de coeficiente está comprendido entre 0 y 1. El valor 0 supone una predicción perfecta ya que coinciden ambas tasas en todos los puntos. El valor 1 en cambio supone máxima desigualdad, este hecho se puede deber a predicciones nulas para valores reales distintos de cero o viceversa. El valor del coeficiente se puede atribuir a tres factores: 1. Error Sistemático: atribuido a la diferencia sistemática entre

el promedio de las tasas reales y estimadas de la variable dependiente. Toma valores positivos o negativos según la media de la tasa de crecimiento de la variable estimada sea mayor o menor que la media de la tasa de la variable real.

2. Error de Dispersión:atribuido a la diferencia entre las desviaciones típicas de las tasas de crecimiento reales y estimadas de la variable dependiente. Toma valores entre 0 y 1 ó -1 y 0 según la dispersión de la tasa de crecimiento de la variable estimada sea mayor o menor que la media de la tasa de la variable real.

n

y

n

y

n

yy

TheilUn

i

i

n

i

i

n

i

ii

1

2

1

2

1

2

ˆ

ˆ

Page 352: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 351

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

3. Error de Correlación: Supone el que las dos series siguen trayectorias distintas, queda reflejado en la mayor o menor correlación existente entre las tasas de crecimiento reales y estimadas de la variable dependiente.

Page 353: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 352

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

PROCESOS ESTACIONALES Durante los últimos años se presenta un aumento pronunciado del interés por el análisis de la variación estacional de las series cronológicas. Este hecho, junto con investigación relacionada con el tema de raíces unitarias de modelos autoregresivos, llevó al tratamiento de las raíces unitarias estacionales. La evidencia proporcionada por estos estudios indica que, además de ser no estacionarias, muchas series cronológicas económicas observadas con periodicidad inferior a la anual muestran también variaciones estacionales que son más grandes y más irregulares que lo que se creía anteriormente. De hecho, mientras algunas variables muestran variaciones estacionales determinísticas, otras despliegan movimientos estacionales que cambian lentamente a través del tiempo. En otras palabras, algunas series cronológicas económicas observadas con periodicidad trimestral o mensualmente parecen desplegar a menudo variaciones estacionales estocásticas no

Page 354: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 353

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

estacionarias y, en esos casos, los correspondientes procesos generadores de los datos (PGD) son llamados estacionalmente integrados o procesos con raíces unitarias estacionales. Cuando se trabaja con datos que presentan estacionalidad, se puede utilizar algún filtro para obtener datos estacionalmente ajustados o puede intentar captar la estacionalidad por medio de variables dummy estacionales lo que es equivalente a suponer que las variaciones estacionales son puramente determinísticas. Sin embargo, si los efectos estacionales cambian gradualmente a través del tiempo, el modelo de variables dummy produce una especificación dinámica errada. Por esta razón, siempre que se usen datos estacionales en econometría es aconsejable hacer la prueba de las propiedades estacionales de las series cronológicas utilizadas. PROCESOS ESTACIONALES E INTEGRACIÓN ESTACIONAL La teoría subyacente al análisis de series cronológicas estacionales considera tres clases de procesos estacionales:

1. Puramente determinísticos, 2. Estacionarios en covarianza 3. Procesos estacionales integrados.

La primera clase incluye aquellos procesos generados por componentes puramente determinísticos como un término constante, variables ‘dummy’ estacionales y tendencias determinísticas. En el siguiente ejemplo, el proceso yt es generado solamente por dummies estacionales que afectan la coordenada al origen:

Page 355: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 354

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

y Dit i

i

s

t t

1 (1)

Donde las variables Dit (i = 1,2,..., s) toman el valor 1 cuando t corresponde a la estación i, y cero en los otros casos, y donde t

es un conjunto de variables aleatorias idéntica e independientemente distribuídas (IID). Esta ecuación puede ser reformulada para evitar la confusión entre los niveles de las diferentes estaciones, de la siguiente manera:

y Dit i

i

s

t t

* *

1

1

(2) Donde es la media del proceso y los coeficientes i* están sujetos a la restricción de sumar cero. Para hacer operativa esta restricción las dummies Dit* (i = 1, 2,..., s) se definen de manera tal que toman valor 1 cuando t corresponde a la estación i, –1 cuando t representa la estación s, y valen cero el resto de las veces, y donde t es una serie de variables aleatórias IID. Finalmente, la ecuación anterior también puede incluir tendencias determinísticas con coeficientes estacionales constantes o variables, es decir,

y Di Di g tt ii

s

t ii

s

t t

1

1

1

[ ( )] (3)

Donde g(t) es un polinomio determinístico en t. El segundo caso, proceso estacional estacionario en covarianza, puede ser ejemplificado por un modelo expresado como yt = s yt – s + t (4) donde s < 1 y t es un conjunto de variables aleatorias IID. Si s = 1 en la ecuación (4), entonces tenemos un paseo aleatorio estacional, un proceso que exhibe un patrón estacional que varía a través del tiempo. Ésta es la tercera clase de proceso estacional

Page 356: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 355

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

listada anteriormente. En ese caso, la variable s ty , definida como, s yt = yt–yt–s (5) Es estacionaria. La diferencia principal entre estas formas de estacionalidad es que en el modelo determinístico, si t es ruido blanco, los shocks, o innovaciones, tienen sólo un impacto inmediato; en el caso del modelo estacional estacionario los ‘shocks’ tienen un efecto transitorio (desaparecen en el largo plazo), mientras que tienen un efecto permanente en el modelo integrado. Es decir, los procesos estacionalmente integrados tienen propiedades similares a aquéllas observadas en el caso ordinario (frecuencia cero). Las series tienen buena memoria de manera tal que los efectos de un shock permanecen para siempre y pueden, en consecuencia, modificar el patrón estacional de manera permanente. Estos procesos tienen varianzas que aumentan linealmente desde el comienzo de la serie y no están asintóticamente correlacionados con procesos que tengan raíces unitarias en otras frecuencias. La secuencia de los tests depende de la definición de integración estacional adoptada. De entre las diferentes definiciones de integración estacional existentes mencionamos tres de ellas: la propuesta por Osborn (1988), otra debida a Engle (1989) y finalmente aquélla dada por Hylleberg (1990). Se dice que una variable es integrada de órdenes (d,D), denotado I(d,D), si la serie se transforma en estacionaria después de diferenciarla d veces con diferencias finitas y D veces con diferencias estacionales, es decir, Xt ~ I(d,D) si

Page 357: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 356

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

t

D

s

d

t

Dsd XXLL )1()1( es estacionaria. El segundo concepto establece que una serie cronológica es integrada de orden d0 y ds, denotado SI(d0,ds), si ( ) [ ( )] [ ( )]1 0 0 L S L X S L Xd d

t

d d

ts s es estacionaria,

donde la expresión polinómica S(L) se define como S(L)=1+L+L2+L3+….Ls-1. Cuando las variables no presentan integración estacional ambas definiciones coinciden, es decir, I(1,0) = SI(1,0), I(2,0) = SI(2,0), etc. Por el contrario, siempre que una serie es estacionalmente integrada estas definiciones difieren. Esto sucede porque Δs=(1-Ls) puede factorizarse como (1-L)S(L). De esta manera, el equivalente de I(0,1) es SI(1,1); I(1,1) = SI(2,1), y así sucesivamente. De la misma manera, el proceso SI(0,1) no tiene equivalente. En este trabajo utilizaremos la definición SI. Finalmente, una tercera definición afirma que una serie xt es un proceso estacional integrado si tiene una raíz unitaria estacional en su representación autoregresiva. Más generalmente, es integrada de orden d en la frecuencia si el espectro de xt toma la forma f c d( ) ( ) 2

Para próxima a . Esto es denotado convenientemente por xt~I(d). Esta definición resulta conveniente al discutir los resultados de algunas pruebas. PRUEBAS DE RAÍCES UNITARIAS ESTACIONALES Antes de describir las diferentes pruebas es necesario tener la estrategia propuesta por Dickey-Pantula (1987) que sugieren que para conservar el tamaño nominal de la prueba en el caso de más de una raíz unitaria, es conveniente comenzar la sucesión de pruebas a partir del número máximo de raíces en consideración. Esto también es válido cuando se trabaja con datos trimestrales

Page 358: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 357

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

y presenta una sucesión completa de posibles pruebas que empiezan con el caso SI(2,1), indicando las alternativas que pueden someterse a cada prueba en cada caso. Siguiendo este criterio en el caso que nos ocupa, comenzamos haciendo la prueba de hipótesis de existencia de dos raíces unitarias. Si una variable tiene que ser filtrada de alguna manera para que se transforme en estacionaria, esto puede ser causado por una raíz unitaria, o por raíces unitarias de alguna frecuencia estacional. Este hecho determina cual será el modelo de regresión que debe ser estimado para hacer la prueba dada una hipótesis nula. La idea básica es que cuando la hipótesis nula establece que existe una raíz unitaria en el rezago de orden 1 o en los rezagos estacionales, los estadísticos de la prueba de hipotesis son modificados de manera tal que, al estimarse la regresión, se usen datos apropiadamente diferenciados (con Δ o Δs, respectivamente). Cuando la hipótesis mantenida es que existen raíces unitarias en las frecuencias estacionales, deben usarse datos estacionalmente corregidos. PRUEBAS CON HIPÓTESIS NULA DE EXISTENCIA DE RAÍCES UNITARIAS La prueba HEGY es una extensión del modelo Dickey-Fuller para el caso en que la periodicidad de los datos es trimestral. Éste es el test más comúnmente usado en los trabajos empíricos recientes. La estrategia propuesta permite detectar la presencia de raíces unitarias en una (o en todas) las frecuencias estacionales así como en la frecuencia cero. Para hacer la prueba la hipótesis nula de que las raíces del polinomio autoregresivo (1-L4)=0 están localizadas sobre el círculo unitario, versus la

Page 359: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 358

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

alternativa de que se encuentran fuera del mencionado círculo, los autores usan la factorización del polinomio basado en las cuatro raíces del mismo ( )1 1 1 1 14 L L L iL iL( )( )( )( ) (6) Donde cada factor del lado derecho de la igualdad está asociado con una raíz en particular. Agrupando los factores del lado derecho de (6) de tres maneras diferentes, obtenemos: ( )( )( )( )1 1 1 1 L L iL iL ( ) ( )1 L S L (7.1)

( )( )1 1 2 3L L L L (7.2)

( )( )1 12 2L L (7.3) El segundo factor en el lado derecho de las tres igualdades anteriores, o sea S(L), (1-L+L2-L3) y (1-L2), son filtros que transforman adecuadamente los datos originales generando tres variables auxiliares utilizadas en la regresión de la prueba. Cuando la hipótesis nula de la prueba establece que existen dos raíces unitarias en la frecuencia cero esos filtros se aplican sobre la primera diferencia de la variable en vez de aplicarlos sobre el nivel de la misma. Este último caso, que corresponde a la prueba de una raíz unitaria, es el que usamos a continuación para mostrar el procedimiento HEGY. Si denominamos yt a los precios e yit (i = 1,2,3) a las variables auxiliares, tenemos: Y1t=S(L)yt es la transformación de los datos que filtra toda

la variación estacional de la serie reteniendo la raíz unitaria asociada a la raíz +1 del polinomio autoregresivo (frecuencia cero).

Y2t=-(1-L+L2-L3)yt es la transformación que retiene la raíz unitaria –1 del polinomio autoregresivo, la cual está

Page 360: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 359

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

asociada con la frecuencia . El cambio de signo del filtro tiene por objeto facilitar la manipulación algebraica mas no afecta la esencia de la prueba.

Y3t=-(1-L2)yt es la variable auxiliar asociada con las dos raíces complejas conjugadas del polinomio autoregresivo y que corresponde a la frecuencia π/2 .

Cabe resaltar, por lo tanto, que se cumplen las siguientes igualdades:

4

2 31 1 1 1y L L L L y L Yt t t ( )( ) ( ) ttt YLyLLLLy 2)1()1)(1( 32

4 ttt YLyLLy 3)1()1)(1( 222

4 . Después de hacer uso de algunos resultados del álgebra, se obtiene una expresión equivalente que facilita la prueba de hipótesis de hipótesis. El modelo testable resultante, usado para verificar la presencia de una raíz unitaria48 en la frecuencia cero y raíces unitarias en las frecuencias estacionales, está dado por la ecuación (8) que puede ser estimada por mínimos cuadrados ordinarios (OLS y los estadísticos usados para realizar inferencias, mientras que el término μt puede contener una constante, una tendencia determinística y/o tres dummies estacionales:

1341221114 ttttt YYYy

tit

k

i

ityY

1

4233 (8)

48 En este caso la hipótesis nula de existencia de dos raíces unitarias en la frecuencia cero ya fue rechazada. El modelo usado en aquel test es

semejante a la ecuación (8): la variable dependiente es 12 yt y las auxiliares fueron obtenidas con los filtros anteriores, apenas que

aplicados a yt en vez de yt .

Page 361: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 360

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

La interpretación de los resultados y los valores críticos necesarios para realizar las pruebas pueden encontrarse en Hylleberg (1990). El orden de los rezagos (el valor de k en la suma) es determinado usando las pruebas de diagnóstico de manera tal que los errores del modelo estimado sean ruido blanco. En la estimación de la ecuación (8), si no se rechaza la nula de π1=0 significa que existe una raíz unitaria en los datos estacionalmente ajustados. No rechazar π2=0 implica en la existencia de una raíz unitaria en el ciclo estacional con periodo semestral (dos ciclos por año). Si π3 y π4 son estadísticamente iguales a cero existe una raíz unitaria en el ciclo estacional anual. PRUEBAS CON HIPÓTESIS NULA DE ESTACIONARIEDAD Puesto que las pruebas HEGY toman como nula la existencia de raíces unitarias, el rechazo de su hipótesis nula implica el resultado (fuerte) que la serie tiene un comportamiento estacional estacionario. Sin embargo, debido a la baja potencia de las pruebas en muestras de tamaño moderado, la falta de rechazo de la hipótesis nula no puede tomarse como evidencia a su favor de la presencia de raíces unitarias. Teniendo en cuenta este problema de baja potencia de las pruebas HEGY, un complemento útil de los procedimientos anteriores sería otra prueba que tomase la estacionalidad estacionaria como hipótesis nula y la no estacionaria como alternativa. En este contexto, el rechazo de la hipótesis nula implicaría el resultado (fuerte) de que los datos son de hecho no estacionarios, una conclusión que ni las pruebas DHF ni los de HEGY pueden proporcionar. Visto conjuntamente con estas pruebas, el procedimiento permitiría realizar un análisis más completo de sus datos.

Page 362: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 361

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El punto de partida es un modelo lineal de series cronológicas con estacionalidad estacionaria que puede especificarse matemáticamente de dos maneras diferentes, aunque equivalentes. La primera es la representación trigonométrica usada en la literatura de serie cronológicas, y la segunda, es la formulación con variables dummy. El primer procedimiento da lugar a dos pruebas de raíces unitarias en las frecuencias estacionales, y el segundo, resulta en cuatro pruebas para la variación en el tiempo de los coeficientes de las variables dummy estacionales (datos trimestrales). Estas diferentes pruebas son obtenidas mediante la especificación apropiada de la hipótesis alternativa en cada caso. La regresión auxiliar usada para realizar estas pruebas es la siguiente:

y Z f ut t t t ' '

(9) Donde la variable Zt es un vector de tamaño (kx1) de variables

explicativas, ut es estacionaria, f t t st s

'

/[ ( , ), / cos sin( , ),...,cos( , t),sin( , t)] 1 1 2 2 , donde

j

j

s

2

( , ,.... )j s 1 2 2 El valor de s es el número de observaciones por año. De esta manera, ft es equivalente a un conjunto de variables ‘dummy’ estacionales representado en el dominio de la frecuencia. Si la alternativa en consideración es estacionalidad no estacionaria, entonces debe hacerse una prueba simultánea de la existencia de raíces unitarias en todas las frecuencias estacionales. Esto significa que, para ejecutar la prueba de estabilidad con hipótesis nula de estacionariedad en todas las frecuencias, el estadístico que debe calcularse es el siguiente:

Page 363: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 362

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

t

fT

t

tf FFTL~

)~

(~ 1

1

2

T F Ff

t tt

T

2 1

1

tra[ ](~

)~ ~

Donde ~ ~F f ut t

t

T

t

1 es una secesión de sumas parciales,

~ut es el conjunto de residuos en la estimación de la ecuación (9) por MCO y donde

~

( , ) ~ ~ f

k m

m

t kt

t t k tW k mT

f f u u

1

Es una estimación consistente de la matriz de varianza-covarianza de f ut t

~ (llevando en cuenta la posible existencia de

heterocedasticidad y autocorrelación), y donde W(∙,∙) es un alisado o suavizamiento (‘smoothing’). Si lo que interesa es hacer la prueba de los componentes estacionales en las correspondientes frecuencias individuales, la matriz pertinente asume una forma diferente y el estadístico L original se reduce a Lj (j=1,2,...,s/2) que puede computarse como un subproducto del cálculo de Lf. Cuando se usan datos trimestrales (s=4) resultan dos estadísticos de ese tipo. Éstos son dados por la forma cuadrática

L T F Fj jt

t

T

jj

f

jt

2

1

1~(~

)~

donde ~ ~F f uj t jt

t

T

t

1 , f t tjt j j

' [ ( , ), cos sin( , )] , f ts t

t

/ , ( , ) ( )2 1 cos y ~ , ,

, ,

j j

f j j

f

j j

f

j j

f

j j

f

2 1 2 1 2 1 2

2 2 1 2 2

Para j

s

2 y donde hl

f

es un elemento característico de ~ j j

f

. La distribución asintótica del estadístico de la prueba es la distribución generalizada de Von Misses con grados de libertad según la dimensión del proceso de sumas parciales. Las pruebas

Page 364: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 363

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Lj son complementos útiles de la prueba conjunta Lf. Si la prueba conjunta rechaza la hipótesis nula esto podría deberse a la existencia de raíces unitarias en cualquiera de las frecuencias estacionales. Las pruebas Lj son aptos para descubrir exactamente en cual frecuencia estacional específica surge la no estacionariedad. Para realizar el test de patrones estacionales variables se usa el modelo más tradicional con variables ‘dummy’ estacionales, determinando si la coordenada al origen estacional cambia a través del tiempo. Nuevamente, escogiendo apropiadamente la forma de la matriz pertinente es posible definir s estadísticos La diferentes (a=1,2,3…,s) que permiten hacer la prueba de la estabilidad de la a-ésima ordenada al origen estacional. Cuando el objetivo de la prueba es la estabilidad conjunta de las constantes estacionales se define un estadístico Lj. Sin embargo, éste es una prueba para inestabilidad en cualquier ordenada al origen estacional, de manera que pueden detectarse hasta movimientos de largo plazo. Como resultado, la hipótesis nula puede rechazarse en consecuencia de la existencia de inestabilidad de largo plazo en esa frecuencia, lo cual es un rasgo indeseable de la prueba. Las modificaciones propuestas por Canova y Hansen para resolver este problema llevaron de vuelta al estadístico de prueba conjunta definida en el primer caso. EJEMPLO. DESCRIPCIÓN DE LOS DATOS Y RESULTADOS DE LOS TESTS

Page 365: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 364

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Los datos son el precio medio de exportación, por trimestre, de la tonelada de carne bovina argentina que cubren el periodo 1960–1970, están expresados en pesos de 1960. La segunda fuente es una publicación donde se publica la serie mensual del índice del precio real del kilogramo vivo del novillo en el Mercado de Liniers. Esta serie cubre el periodo enero de 1970–octubre de 1994. GRÁFICO I. PRECIO TRIMESTRAL DEL NOVILHO EN EL MERCADO DE LINIERS (Índice de los precios reales; base de comparación: 1970-I) Periodo: 1960–1994

40

60

80

100

120

140

160

180

60 65 70 75 80 85 90

IND70NOR IND70SEC

La observación del gráfico revela una acentuada disminución del índice entre 1973 y 1975. Con efecto, el índice cae de un valor de 160 en el primer trimestre de 1973 para 55 en el tercer trimestre de 1975. Cabe resaltar que esa disminución ocurre en la serie de la SAGyP, lo cual elimina la posibilidad de que el problema se origine en el encadenamiento de las series. En

Page 366: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 365

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

consecuencia, es evidente que los datos correspondientes al periodo 1960–1974 tienen un nivel medio superior al resto de la serie. Usando la prueba de Chow en un modelo de regresión con una dummy para la ordenada al origen y otra para la pendiente, se detecta una ruptura estructural en la serie al final de 1974. Por lo tanto, el último trimestre de 1974 y el primero de 1975 pertenecen a dos ‘conjuntos de datos’ diferentes. La primera mitad tiene 60 observaciones y valor medio de 125,56 mientras que la segunda, con 80 observaciones, tiene media igual a 89,96. En el Cuadro I se presentan los estadísticos estimados y los valores críticos necesarios para realizar las distintas pruebas HEGY. En los tres periodos fue ajustado el modelo dado por la ecuación (8), con las diferencias indicadas en el cuadro, es decir, en todos los casos se incluye una constante mientras que solamente en el periodo completo se incluye una tendencia determinística. Como los coeficientes de las variables dummy estacionales no fueron significativos tales variables fueron eliminadas de los modelos. En ninguno de los tres casos fue necesario incluir la variable dependiente rezagada para obtener residuos sin autocorrelación. CUADRO I. Resultados de las pruebas con Hipótesis Nula de Existencia de Raíces Unitarias

Prueba Parámetro

Estadístico

Valor crítico (5%)

Page 367: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 366

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Periodo: 1960–1974 Ecuación con constante, sin tendencia y sin ‘dummies’ estacionales. N = 60

1 2 3 4 3 4

– 2,91 – 5,63 – 5,92 –3,70 33,48

– 2,96 – 1,95 – 1,90 – 1,72 3,04

Periodo: 1975–1994 Ecuación con constante, sin tendencia y sin ‘dummies’ estacionales. N = 80

1 2 3 4 3 4

– 4,89 – 6,90 – 6,90 –3,35 40,80

– 2,88 – 1,95 – 1,90 – 1,68 3,08

Periodo: 1960–1994 Ecuación con constante, con tendencia y sin ‘dummies’ estacionales. N = 140

1 2 3 4 3 4

– 4,34 – 8,67 – 8,44 – 5,20 68,25

– 3,46 – 1,96 – 1,90 – 1,64 3,04

Exceptuando el caso del coeficiente 1 en el periodo 1960–1974, en todos los otros casos se rechaza la hipótesis nula de existencia de raíces unitarias al 5% de significancia. Antes de concluir que existe una raíz unitaria en la frecuencia cero de la serie del primer periodo, recordemos las advertencias de Canova y Hansen (1995) sobre la baja potencia de las pruebas HEGY. Si esa raíz unitaria realmente existiera eso implicaría la presencia de una tendencia en la serie. Sin embargo, cuando se incluye la variable tendencia en el modelo el coeficiente de la misma no es

Page 368: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 367

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

significativo pero transforma en significativo el coeficiente 1 (estadístico – 3,21), rechazando la hipótesis de existencia de raíz unitaria. CUADRO II. RESULTADOS DE LOS TESTS CON HIPÓTESIS NULA DE ESTACIONARIEDAD

Características de los Tests (Tamaño de la muestra)

Valores Críticos (5%)

Estadísticos 1960–74

1975–94

1960–94

Yt1 incluído como regressor N

– –

No 60

No 80

Sí 140

Raíces en todas las frecuencias Raíz unitaria en la frecuencia Raíz unitaria en la frecuencia /2 Inestabilidad por trimestre: Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4 Inestabilidad en todos los trimestres

1,01 0,75 0,47 0,47 0,47 0,47 0,47 1,24

0,46 0,37 0,13 0,20 0,13 0,10 0,28 0,71

0,28 0,24 0,04 0,04 0,13 0,10 0,12 0,38

0,82 0,49 0,35 0,28 0,15 0,44 0,23 1,23

Page 369: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 368

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Acerca de los resultados obtenidos con la aplicación de la metodología de CH (ver Cuadro II), los tests fueron ejecutados con la serie de los precios sin ninguna transformación. En los dos subperiodos no se incluyó la variable dependiente retrasada entre los regresores, pero sí se lo hizo en el caso de la serie completa debido a la presencia de la tendencia decreciente ya comentada. Los datos del Cuadro II informan los valores de los estadísticos necesarios para realizar el test conjunto de existencia de raíces unitarias en todas las frecuencias y en cada una de las frecuencias estacionales. También se presentan aquellos estadísticos con los cuales se hacen los tests de estabilidad de los coeficientes de las variables ‘dummy’ estacionales trimestre por trimestre y en conjunto. Como puede observarse, en ninguno de todos los casos se rechaza la hipótesis nula de estacionariedad al nivel de 5% de significación. Esto indica que la serie es estacionaria tanto en la frecuencia cero cuanto en las frecuencias estacionales. Estos resultados son coherentes con aquellos obtenidos al usar el test de HEGY. Comparando nuevamente con los resultados obtenidos en el caso de la aplicación de la metodologia de CH a la serie de precios de São Paulo, Aguirre y Sansó (1999) encuentran evidencias de existencia de una raíz unitaria estacional en la frecuencia de la serie brasileña. Tales resultados contradicen aquellos producidos —para la misma serie— por los tests de HEGY. Como em ambas metodologías la hipótesis nula es rechazada, Aguirre y Sansó eliminan la posibilidad de que la causa de esta incoherencia sea la baja potencia de los tests, concluyendo que debe tratarse de una especificación incorrecta

Page 370: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 369

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

del modelo utilizado para efectuarlos. El verdadero modelo podría ser, por ejemplo, no lineal. BIBLIOGRAFÍA 1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of

Cross Section and Panel Data. MIT Press. 2 Kalman, R.E., A New Approach to Linear Filtering and

Prediction Problems, Trans. ASME,J. Basic Engineering, vol 82, March 1960, pp 94-35.

3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton University Press.

4 Amemiya T.(1985), Advanced Econometrics. Harvard University Press.

5 Greene W. (1997), Econometric Analysis. Prentice Hall, tercera edición.

6 White, H. (1984), Asymptotic Theory for Econometricians. Academic Press

7 Kydland, Finn y Prescott, Edward. (1990). "Business Cycles: Real Facts and a Monetary Myth". En: Quarterly Review. Federal Reserve Bank of Minneapolis. Primavera. P.3-18.

Page 371: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 370

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

VECTORES AUTOREGRESIVOS (VAR) La aplicación de vectores autoregresivos (VAR) modela las interacciones simultáneas entre un grupo de variables. Un VAR es un modelo de ecuaciones simultáneas formado por un sistema de ecuaciones de forma reducida sin restringir49. En un modelo vectorial autoregresivo de primer orden, VAR(1), las variables explicativas de cada ecuación son una constante, más un rezago de cada una de las variables del modelo. Si el modelo pretende explicar el comportamiento temporal de 3 variables, por ejemplo, habría 3 variables explicativas, más una constante en cada ecuación, para un total de 12 coeficientes a estimar, siguiendo la formula n+np. Como puede verse, todas las variables son tratadas simétricamente, siendo explicadas por su pasado. Pueden incluirse también, como variables explicativas, algunas de naturaleza determinista, como tendencias temporales, variables dummy estacionales, que sirve para llevar a cabo una análisis de intervención en el sistema. Por último, podría incluirse como explicativa una variable, incluso en valor contemporáneo, que pueda considerarse exógena respecto a las variables que integran el modelo VAR. El modelo VAR es útil cuando existe evidencia de simultaneidad entre un grupo de variables y la posibilidad de que sus relaciones se transmitan a lo largo de un determinado número de períodos. Al no imponer ninguna restricción sobre la versión estructural del modelo este incurre en errores de especificación que son solucionados imponiendo restricciones. De hecho, la principal motivación detrás de los modelos VAR es la dificultad 49Ecuaciones de forma reducida indica que los valores contemporáneos de las variables del modelo no aparecen como variables explicativas en ninguna de las ecuaciones. El conjunto de variables explicativas de cada ecuación está constituido por un bloque de rezagos de cada una de las variables del modelo. Las ecuaciones no restringidas implica que en cada una de ellas exsite el mismo grupo de variables explicativas.

Page 372: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 371

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

en identificar variables como exógenas50 como se hace necesario en el proceso de identificacion y estimación en un modelo de ecuaciones simultáneas. En un modelo VAR todas las variables se tratan de igual modo, el modelo tienen tantas ecuaciones como variables, y los valores rezagados de todas las ecuaciones son variables explicativas en todas las ecuaciones. Una vez estimado el modelo, puede procederse a excluir algunas variables explicativas, en función de su significancia estadística. Si se mantiene el mismo conjunto de variables explicativas en todas las ecuaciones, la estimación por mínimos cuadrados ordinarios (OLS) ecuación por ecuación es eficiente. Sin embargo, la presencia de bloques de rezagos como variables explicativas hace que la colinealidad entre variables explicativas sea relevante, lo que hace perder precisión en la estimación del modelo y reduce los valores numéricos de los estadísticos tipo t de Student. En un modelo VAR estimado no tiene sentido tratar de interpretar los signos y las magnitudes de los coeficientes individuales. Por el contrario, hay que utlizar estadísticos globales, que traten de resumir con carácter agregado la influencia de unas variables sobre otras que incluye estadísticos tipo F para el contraste de significancia de un bloque de rezagos de una determinada variable, contrastes de causalidad, funciones de impulso respuesta y descomposiciones de la varianza del error. EL MODELO VAR

50 La defincion de exogeneidad estadística se expondrá con mas detalle en el documento siguiendo a Sims (1980)

Page 373: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 372

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En el caso más simple, con sólo dos variables y un rezago, el modelo VAR(1) puede ser expresado como:

o, en forma matricial,

Donde los términos de error satisfacen las siguientes propiedades:

En el modelo VAR anterior, valores negativos de β12 y β21 tienden a inducir correlación negativa entre y1t e y2t si bien no la garantizan. Una innovacion inesperada en y2t, en la forma de un valor no nulo de la innovación u2t, además de afectar a y2t, influye sobre y1t, a través de de la correlación entre las innovaciones de ambas variables. En general, una sorpresa en y2t vendrá acompañada de un valor no nulo de la innovación u1t, salvo en el caso excepcional en que σu1u2=0. Estos efectos se propagan en el tiempo debido a la presencia de los valores rezagados como variables explicativas. En general, un modelo VAR en términos de sus rezagos anteriores puede ser expresado como:

Donde Yt es un vector columna nx1, K es el orden del modelo VAR, o número de rezagos en cada ecuación, y ut es un vector nx1 de innovaciones sin autocorrelación, con la propiedad que var(ut)=Σ constante. El elemento (i,j) en la matriz As, 1≤s≤K

Page 374: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 373

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

mide el efecto directo de un cambio en Yi en el instante t sobre las variables explicativas al cabo de s períodos, Yj,t+s. El elemento i-ésimo en ut es el componente de Yit que no puede ser previsto utilizando el pasado de las variables que integran el vector Yt. UN MODELO ESTRUCTURAL Es útil interpretar el modelo VAR como una forma reducida de un modelo estructural,

Donde y1t, y2t son variables estacionarias, y ε1t, ε2t son innovaciones, procesos ruido blanco con valor esperado cero y varianzas σ2

ε1, σ2ε2. Este es un modelo de ecuaciones simultáneas

con sus dos variables endógenas. Una innovación en y2t, en la forma de un valor no nulo de la innovación estructural ε2t, afecta directamente a y2t, pero también influye sobre y1t a través de la presencia de y2t como variable explicativa en la primera ecuación. Este efecto se propaga en el tiempo debido a la presencia de los valores rezagados. Es natural pensar que los términos de error del modelo estructural estan no correlacionados, puesto que la correlación contemporánea entre y1t e y2t ya está capturada por la presencia de sus valores contemporáneos como variables explicativas en ambas ecuaciones. Por tanto, suponemos que Cov(ε1t,ε2t)=σε1,ε2=0. De forma resumida, la representación matricial del modelo estructural puede escribirse,

Con

Page 375: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 374

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Y si suponemos que la matriz B tiene inversa, lo cual requiere que α11α21≠ 1, tenemos,

Donde

Con lo que supone la forma reducida del modelo VAR. Si los términos de error del modelo estructural eran ruido blanco, también los términos de error del modelo VAR tendrán estructura ruido blanco. Sin embargo, las innovaciones del VAR estarán correlacionadas entre sí, puesto que,

De modo que, si los términos de error del modelo estructural están no correlacionados, σε1ε2=0, las perturbaciones del modelo VAR tendrán correlación no nula. Es importante examinar las relaciones entre los parámetros de ambos modelos, que son, en el caso del modelo VAR(1), las 6 relaciones entre los parámetros β y los parámetros α que aparecen en (3.3), más las 3 relaciones entre los elementos de las respectivas matrices de covarianzas,

Page 376: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 375

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

IDENTIFICACIÓN EN UN MODELO VAR La estimación de un modelo VAR(1) en forma reducida proporciona valores numéricos para 10 parámetros, las dos constantes más los cuatro coeficientes en las variables rezagadas y las varianzas y covarianza del vector ut. El modelo estructural consta de 11 parámetros, las dos constantes, los 6 coeficientes, y los 3 parámetros de la matriz de covarianzas del vector εt, por lo que no es posible recuperar los parámetros del modelo estructural. En modelo 1 se prueba que el modelo estructural recursivo bivariante de orden 1, de la forma: Modelo 1. Suponga un modelo VAR con las siguientes caracterisiticas:

El modelo anterior está exactamente identificado, es decir, sus parámetros pueden recuperarse de forma única a partir de las estimaciones del modelo VAR en forma reducida. Este es un modelo que identifica todos los parámetros del modelo estructural a partir de las estimaciones de la forma reducida, introduciendo la hipótesis de que la variable y1t afecta a la variable y2t únicamente con un rezago, mientras que la dirección de influencia de y2t hacia y1t se presenta dentro del mismo período. No sólo se pueden recuperar estimaciones de todos los parámetros que aparecen en el modelo estructural, también las series de tiempo de los residuos del modelo estructural pueden recuperarse a partir de los residuos obtenidos en la estimación del modelo VAR, mediante, el hecho que:

Page 377: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 376

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Modelo 2. Supongamos un modelo con dos restricciones con un modelo VAR(1) de la forma:

Implicaría que la variable y1t no afecta ni de forma contemporánea, ni rezagada a la variable y2t, por lo que ésta puede considerarse exógena respecto de y1t. Examinando los modelos anteriores, se puede observar que las dos restricciones impuestas, α21=α22=0 implica que en el modelo VAR, β21=0, restricción que puede contrastarse utilizando el estadístico t-student sobre dicho coeficiente. Al incluirse una restricción más, el modelo estructural está ahora sobreidentificado, es decir, hay más de una manera de recuperar valores numéricos para los parámetros de dicho modelo, a partir de las estimaciones numéricas del modelo VAR. Modelo 3. Ahora se analizara el caso con en modelo 3, Más dificultades plantean el modelo,

Este modelo también se encuentra sobreidentificado, con varias maneras de recuperar las estimaciones de los parámetros del modelo estructural. Sin embargo, en este caso no hay ninguna restricción sencilla contrastable que permita evaluar esta representación ya que las que pertenecen al modelo estructural introducen tipos no lineales para verificar los parámetros del modelo VAR en forma reducida. Una posible estrategia consiste en estimar el modelo VAR sujeto a restricciones no lineales

Page 378: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 377

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

generadas por las condiciones de sobreidentificación. Al obtener innovaciones estructurales a partir de las del modelo VAR en forma reducida equivale a la posibilidad de disponer de valores numéricos para los elementos de la matriz B, puesto que εt=But. Esta matriz tiene unos en la diagonal principal, pero no es simétrica, por lo que tiene k(k−1) parámetros por determinar. Además, se debe contar con las k varianzas de las innovaciones estructurales que sus covarianzas son nulas. Así, tenemos k2 parámetros del modelo estructural, que se necesitan recuperar a partir de los (k2+k)/2 elementos de Var(ut). es necesario por tanto, (k2−k)/2 restricciones adicionales, si se desea tener alguna posibilidad de identificar el modelo. En el caso de un modelo VAR(1) con 2 variables, se debe imponer (22−2)/2=1 restricción para identificar el sistema exactamente. En un modelo con 3 variables se necesita imponer (32−3)/2=3 restricciones. El número de restricciones necesarias para identificar el modelo es independiente del orden del modelo VAR. Si se imponen condiciones de recursividad en un modelo con 3 variables, tenemos,

Que implica imponer 3 restricciones sobre los elementos de la matriz B−1, por lo que el modelo estaría, en principio, exactamente identificado. La recursividad del sistema equivale a suponer que la matriz B es triangular inferior o superior, lo que genera exactamente k2−k restricciones, precisamente el número que se precisa para lograr la identificación exacta del modelo. Hay conjuntos alternativos de restricciones, como,

Page 379: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 378

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Que también lograría la identificación exacta del modelo. La representación inversa es,

Otro tipo de restricciones consistiría en imponer un determinado valor numérico para una respuesta. Por ejemplo, podemos pensar que la innovación ε2t tiene un efecto unitario sobre y1t, es decir, como

Esto equivale a suponer que α11= −1. Una posibilidad diferente consistiría en identificar el modelo estructural imponiendo restricciones sobre la matriz de covarianzas, ya sea imputando un valor numérico para la varianza de ε1t, la varianza de ε2t, o la covarianza entre ambos. Este tipo de restricciones conduce a soluciones múltiples, por lo que el modelo estructural está en tal caso, sobreidentificado. Por último, puede conseguirse la identificación imponiendo restricciones razonables entre los valores numéricos de los parámetros estructurales. Por ejemplo, puede imponerse una condición de simetría, α11=α21, o cualquier otra que resulte adecuada en la aplicación que se analiza. En el caso del modelo de 2 variables está condición de simetría de efectos conduce asimismo a una condición de igualdad de varianzas para las innovaciones estructurales, lo que no ocurre en modelos con más de 2 variables.

Page 380: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 379

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

IDENTIFICACIÓN Y RESPUESTAS DEL SISTEMA Otra manera de entender los problemas de identificación es la siguiente suponga que, sin considerar el posible modelo estructural, hemos estimado un modelo VAR(1) , en el que es necesario calcular cómo reacciona cada variable ante una innovación en una de ellas, lo que luego denominaremos como funciones impulso respuesta. Sería poco adecuado, sin embargo, calcular las respuestas a un impulso en una de las innovaciones, u1, por ejemplo, sin que u2 experimente ningún impulso, pues ambas innovaciones están correlacionadas entre sí. Por tanto, hemos de transformar primero el modelo estimado en otro modelo en que los términos de error, siendo innovaciones, estén no correlacionados entre sí. Para ello, podríamos seguir una estrategia similar a la discutida más arriba, proyectando por mínimos cuadrados una de las dos innovaciones, u1t, por ejemplo, sobre u2t,

Cuyo residuo at, definido por at=u1t−ρtu2t, estaría no correlacionado, por construcción, con u2t. Premultiplicando el modelo (2.1) por la matriz

Tendríamos,

Un modelo en el que la variable y2 tiene efectos contemporáneos sobre y1. En este modelo, tiene sentido preguntarse por las respuestas de ambas variables a una perturbación en at o en u2t, puesto que ambos están no correlacionados, por construcción.

Page 381: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 380

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

En respuesta a un impulso en u2t, ambas variables reaccionarán en el mismo instante, y también en períodos siguientes, hasta que dichas respuestas decaigan a cero. En cambio, en respuesta a una perturbación en at, y1 responderá en el mismo período y períodos siguientes, mientras que y2 sólo responderá en períodos siguientes al de la perturbación. Este es el modelo estructural exactamente identificado (4.1) que antes consideramos. Una extensión a este procedimiento se basa en el hecho conocido de que dada una matriz simétrica, definida positiva, como es la matriz de covarianzas Σ, existe una única matriz triangular inferior A, con unos en su diagonal principal, y una única matriz diagonal D, con elementos positivos a lo largo de su diagonal principal, tal que Σ admite una descomposición,

Si consideramos la transformación lineal del vector de error precisamente con esta matriz, εt=A-1ut, tenemos,

Por lo que, a diferencia de los componentes del vector u, los elementos del vector ε están no correlacionados entre sí. Deshaciendo la transformación, tenemos,

Por lo que,

Page 382: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 381

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Si los coeficientes a1k, a2k, ..., ak−1,k se obtienen mediante una estimación de mínimos cuadrados ordinarios de la ecuación (4.2), que tiene a ukt como variable dependiente, y a ε1t, ε2t, ..., εk−1,t como variables explicativas,

Entonces tendremos, por construcción, E(εkt.ε1t)=E(εkt.ε2t)=...=E(εkt.εk−1,t)=0. Dicho de otra manera, si estimamos regresiones de cada innovación uit sobre todas las que le preceden dentro del vector u y nos quedamos con el residuo de dicha regresión, llamémosle εit, tendremos un componente de uit que, por construcción, estará no correlacionado con u1t,u2t,...,ui−1,t. Nótese que los espacios generados por las variables u1t, u2t, ..., ui−1,t y por las variables ε1t, ε2t, ..., εi−1,t son los mismos, es decir, que ambos conjuntos de variables contienen la misma información. La única diferencia entre ambos es que las variables u1t, u2t,...,ui−1,t tiene correlaciones no nulas, mientras que las variables ε1t, ε2t,...,εi−1,t están no correlacionadas entre sí. CONDICIONES DE ESTABILIDAD Si resolvemos recursivamente el modelo VAR(1) tenemos,

Como puede verse, para la estabilidad del sistema es preciso que las sucesivas potencias de la matriz A1 decaigan hacia cero, pues de lo contrario, el futuro lejano tendría efectos sobre el presente, en contra de la convergencia temporal de efectos inherente a todo proceso estacionario. Esto requiere que las raíces del

Page 383: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 382

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

polinomio característico de dicha matriz | Ik−A1λ |=0, decrezcan fuera del círculo unitario, condición análoga a la que se tiene para un proceso autoregresivo univariante. Cuando se cumplen las condiciones de estabilidad, tomando límites, tenemos,

Donde µ=E(Y) es el vector de valores esperados, que viene dado por,

Además,

En el caso bivariante, µ1=E(u1t), µ2=E(u2t), con

Siendo Δ=(1−β11)(1−β22) − β12β21, y

VAR Y MODELOS UNIVARIANTES Si se parte de un VAR(1), como (2.1), escrito en función del operador de rezagos de la forma:

Se tiene que

Reemplazandolo en la ecuación anterior se tiene que:

Page 384: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 383

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Finalmente,

Que es un proceso ARMA(2,1). ESTIMACIÓN DE UN MODELO VAR En ausencia de restricciones, la estimación por mínimos cuadrados, ecuación por ecuación, de un modelo VAR produce estimadores eficientes a pesar de que ignora la información contenida en la matriz de covarianzas de las innovaciones. Junto con el hecho de que colinealidad entre las variables explicativas no permite ser estricto en la interpretación de los estadísticos t, sugiere que es preferible mantener todas las variables explicativas iniciales en el modelo. El estimador es consistente siempre que los términos de error sean innovaciones, es decir, procesos ruido blanco, pues en tal caso, estarán no correlacionados con las variables explicativas. Por tanto, la ausencia de autocorrelación en los términos de error de todas las ecuaciones es muy importante. Tomando ambos hechos conjuntamente, es fácil concluir que debe incluirse en cada ecuación como variable explicativa, el menor número de rezagos que permita eliminar la autocorrelación residual en todas las ecuaciones. Existen contrastes del tipo de razón de verosimilitud sobre el número de rezagos a incluir en el modelo. Un modelo VAR no se estima para hacer inferencia acerca de coeficientes de variables individuales. Precisamente la baja precisión en su estimación no aconseja cualquier análisis de

Page 385: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 384

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

coeficientes individuales. Tiene mucho sentido, por el contrario, el análisis conjunto de los coeficientes asociados a un bloque de rezagos en una determinada ecuación. Bajo hipótesis de normalidad del vector de innovaciones, el logaritmo de la función de verosimilitud es,

Siendo �� la matriz de covarianzas estimada del vector de innovaciones u,

Una matriz simétrica, definida positiva, por construcción. CONTRASTACIÓN DE HIPÓTESIS Y CONTRASTES DE ESPECIFICACIÓN Uno de los contrates más habituales en un modelo VAR es el relativo al número de rezagos que deben incluirse como variables explicativas. Es importante dentro de este análisis tener en cuenta que en cada ecuación entra un bloque de rezagos de todas las variables del vector y. Si, por ejemplo, trabajamos con 4 variables y establecemos un orden 3 para el VAR, tendremos 12 variables explicativas, más el término constante, en cada ecuación, con un total de 52 coeficientes en el sistema de ecuaciones, más parámetros en la matriz de varianzas-covarianzas de las innovaciones. El número de parámetros a estimar crece rápidamente con el número de rezagos. Si pasamos de 3 a 4 rezagos, tendríamos 68 coeficientes más los 10 parámetros de la matriz de covarianzas. Por eso ya comentamos con anterioridad que debe incluirse en cada ecuación el menor

Page 386: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 385

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

número de rezagos que permita eliminar la autocorrelación del término de error de todas ellas. Existe un contraste formal de significancia de un conjunto de rezagos, que utiliza un estadístico de razón de verosimilitudes,

Donde |ΣR|,|ΣSR| denotan los determinantes de las matrices de covarianzas de los modelos restringido y sin restringir, respectivamente. Si queremos contrastar si un cuarto retardo es significativo, deberíamos estimar el modelo con 3 y con 4 rezagos, y construir el estadístico anterior, que tiene una distribución chi-cuadrado con un número de grados de libertad igual al número de restricciones que se contrastan. Al pasar del modelo con 3 rezagos al modelo con 4 rezagos, hay que añadir un rezago más de cada variable en cada ecuación, por lo que el número de restricciones es igual al incremento en el número de rezagos, por el número de variables al cuadrado. Sin embargo, no puede olvidarse que la elección del número de rezagos debe tener en cuenta la eliminación de autocorrelación residual. Los estadísticos anteriores no examinan este importante aspecto y, por tanto, no deben utilizarse por sí sólos. En consecuencia, una buena estrategia es comenzar de un número reducido de rezagos, y examinar las funciones de autocorrelación de los residuos, junto con estadísticos del tipo Ljung-Box o Box-Pierce para contrastar la posible existencia de autocorrelación, lo que requeriría aumentar el número de rezagos y con ello, el número de parámetros a estimar.

Page 387: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 386

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Lamentablemente, sin embargo, es muy poco probable que pueda eliminarse la autocorrelación residual con menos de 4 rezagos cuando se trabaja con datos trimestrales, o con menos de 12 rezagos, cuando se trabaja con datos mensuales. Una estrategia distinta para encontrar el orden del modelo VAR consiste en examinar los denominados criterios de Información, que son determinadas correcciones sobre el valor muestral de la función logaritmo de Verosimilitud. Los más conocidos son los de Akaike y Schwartz,

Siendo n= k(d+pk) el número de parámetros estimados en el modelo VAR. El parametro d es el número de variables exógenas, p el orden del VAR, y k el número de variables. En ocasiones, se ignora el término constante, y los criterios anteriores se aproximan por,

Siendo N el número de parámetros que se estima, y Σ la matriz de covarianzas de los residuos. Estos estadísticos se calculan para una sucesión de modelos con distinto número de rezagos y se comparan, seleccionando aquél modelo que produce un menor valor del estadístico. Un estadístico de razón de verosimilitudes como el antes descrito puede utilizarse para contrastar cualquier tipo de hipótesis, y no sólo la significancia de grupos de variables, siempre que el modelo restringido esté anidado dentro del modelo sin restringir. CONTRASTES DE CAUSALIDAD

Page 388: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 387

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Un contraste especialmente interesante se conoce como de causalidad en el sentido de Granger. Supongamos que estamos explicando el comportamiento de una variable y utilizando su propio pasado. Se dice que una variable z no causa a la variable y si al añadir el pasado de z a la ecuación anterior no añade capacidad explicativa. El contraste consiste en analizar la significancia estadística del bloque de rezagos de z en la ecuación mencionada, y la hipótesis nula es que la variable z no causa, en el sentido de Granger, a la variable y. La propuesta inicial de Granger hacía referencia a que la predicción de y basada en el pasado de las dos variables y y z, sea estrictamente mejor (es decir, con menos error) que la predicción de y basada exclusivamente en su propio pasado. Así, se diría que la variable z no causa a la variable y si se tiene,

Sin embargo, esta propiedad no suele analizarse; se contrasta exclusivamente la significancia del bloque de rezagos de z en la ecuación de y, si dicho bloque de variables es significativo, contribuirá a mejorar la predicción de la variable y. Esta manera de proceder se basa en que, analíticamente, es evidente que la presencia del bloque de rezagos de z en la ecuación de y hace que el valor esperado condicionado de y en el pasado de las dos variables, y y z, sea distinta del valor esperado condicionado de y en su propio pasado exclusivamente. Si bien esta propiedad teórica no siempre se manifiesta en resultados prácticos, y es bien sabido que un buen ajuste no necesariamente conduce a una buena predicción.

Page 389: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 388

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

El contraste puede llevarse a cabo utilizando el estadístico F habitual en el contraste de significancia de un bloque de variables, o mediante el estadístico de razón de verosimilitudes. Con más de dos variables, existen posibles contrastes de causalidad y en algunos casos, el estadístico de razón de verosimilitudes puede resultar más útil que el estadístico F, al permitir contrastar la exclusión de algún bloque de rezagos en varias ecuaciones simultáneamente. Asimismo, el contraste de causalidad o, lo que es lo mismo, el contraste de significancia de un bloque de rezagos puede llevarse a cabo mediante un estadístico de razón de verosimilitudes, en el que el modelo restringido excluye un grupo de rezagos de una ecuación. REPRESENTACIÓN MA DE UN MODELO VAR Todo modelo VAR admite una representación de medias móviles (VMA),

La recursividad de Yt−s en (2.2). La representación VMA puede obtenerse asimismo en función de las innovaciones estructurales. Esta representación permite resumir las propiedades de las relaciones cruzadas entre las variables que componen el vector yt, que queda representado como una combinación lineal de valores actuales y pasados del vector de innovaciones. La simultaneidad vuelve a quedar palpable en sentido que cualquier innovación uit afecta a todas las variables Yj,t+s. Si volvemos al modelo de dos variables de orden 1, tenemos,

Page 390: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 389

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Que, como vimos, puede escribirse,

y, en términos de las innovaciones del modelo estructural,

Donde,

Existe un procedimiento recursivo para obtener las matrices de coeficientes de la representación de medias móviles,que utiliza la relación,

De modo que tenemos,

Que conduce a,

Que pueden utilizarse para calcular recursivamente las matrices de coeficientes de la representación de medias móviles. FUNCIONES DE IMPULSO RESPUESTA La ecuación (9.1) es la representación de medias móviles del modelo VAR(1) bivariante. Los coeficientes de la sucesión de matrices Φ(s) representan el impacto que, a lo largo del tiempo,

Page 391: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 390

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

tienen sobre las dos variables del modelo y1t e y2t una perturbación en las innovaciones ε1t, ε2t. Por ejemplo, los coeficientes φ12(s) reflejan el impacto que en los distintos períodos s, s≥1, tiene sobre y1 una perturbación del tipo impulso en ε2. Es decir, consideramos que ε2 está en su valor de equilibrio, cero, excepto en un período, en que toma un valor igual a 1; como reaccionan, y dicha respuesta se extiende a varios períodos, hasta que las sucesión φ12(s) se hace cero. La sucesión de valores numéricos {φ12(s)} se conoce como la respuesta de y1 a un impulso en ε2. El efecto, multiplicador o respuesta a largo plazo es la suma ∑ 𝜙12

∞𝑠=0 (𝑠). Esta suma existe

si las variables son estacionarias, pues en tal caso ha de cumplirse |∑ 𝜙12

∞𝑠=0 (𝑠)|<∞. El problema al que nos enfrentamos

al tratar de calcular las funciones de impulso respuesta es que, si bien contamos con estimaciones numéricas de los parámetros βij con i,j=1,2, desconocemos los parámetros α11 y α21 que aparecen en (9.2). En el modelo recursivo que antes vimos, se tiene α21=0. Además, se prueba en el ejercicio 1 que en este modelo el parámetro α11 puede recuperarse mediante ��1=σu1u2/σ2

u2. En ese caso, u2t=ε2t y u1t = ε1t+α11ε2t=ε1t+α11u2t. Las funciones de impulso respuesta sólo puden obtenerse bajo restricciones de este tipo. La que hemos descrito es la más habitual, y equivale a admitir que una de las dos variables afecta a la otra sólo con rezago, si bien permitimos que en la otra dirección haya respuesta contemporánea. Estaremos caracterizando las respuestas del sistema a un impulso en cada una de las innovaciones del modelo estructural o, lo que es lo mismo, en la innovación u2t y en u1t−α11u2t. Esta última es la componente de u1t que no está explicada por u2t o, si se prefiere,

Page 392: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 391

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

la componente de u1t que no está correlacionada con u2t. En efecto, consecuencia, tanto y1 como y2

Que está incorrelacionado con ε2t. De hecho, si α21=0, entonces u1t−α11u2t es, precisamente, igual a la perturbación estructural ε1t. Como hemos visto, las funciones de impulso respuesta sólo pueden obtenerse después de haber incluido restricciones acerca del rezago con que unas variables inciden sobre otras. Esta elección condiciona bastante, en general, el aspecto de las funciones de respuesta, excepto si las innovaciones del modelo VAR, u1t y u2t están no correlacionadas, en cuyo caso, coinciden con las innovaciones del modelo estructural. Las funciones impulso respuesta calcula el impacto que, en cada instante futuro tendría, sobre cada variable del modelo, un impulso en una determinada innovación, y ello puede repetirse para las innovaciones en cada una de las ecuaciones. Por eso, suele representarse en varios gráficos, cada uno de los cuales incluye las respuestas a través del tiempo, de una determinada variable a un impulso en cada una de las innovaciones. De este modo, se tiene tantos gráficos como variables en el modelo, cada uno de ellos conteniendo tantas curvas como variables. Alternativamente, pueden construirse gráficos, cada uno de los cuales representa la respuesta temporal de todas las variables del modelo a un impulso en una de las innovaciones. Nuevamente hay tantos gráficos como variables, cada uno de ellos conteniendo tantas curvas como variables. El inconveniente del segundo tipo de representación es que las respuestas de las distintas variables dependen de sus respectivas volatilidades,

Page 393: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 392

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

por lo que la comparación de las respuestas de dos variables diferentes a un determinado impulso no permite decir cuál de las variables responde más. Recordando que la desviación típica es una medida adecuada del tamaño de toda variable aleatoria de esperanza nula, debemos dividir las respuestas de cada variable por su desviación típica antes de representarlas en un mismo gráfico. Tampoco un impulso de tamaño unidad tiene el mismo significado en cada variable, por lo que conviene calcular las respuestas normalizadas a un impulso de tamaño igual a una desviación típica en cada innovación. Consideremos un VAR(1) sin constante (es decir, las variables tiene esperanza igual a cero),

Supongamos que antes del instante t0 las innovaciones toman un valor cero en todos los períodos, las variables están en sus niveles de equilibrio, y=y∗=0. En dicho instante, la innovación u1t0 toma un valor unitario, u1t0=1, y vuelve a ser cero en los períodos siguientes. ¿Cuál es la respuesta del sistema? En el instante t0,

Por lo que y2t0 e y3t0 estarán en sus niveles de equilibrio, y2=y∗

2=0, y3=y∗3=0, mientras que y1t0=y∗

1+1= 1. Posteriormente,

Page 394: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 393

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

Que van proporcionando la primera columna de las matrices que obtenemos calculando las sucesivas potencias de la matriz de coeficientes A1. De este modo, tendríamos las respuestas del sistema a sorpresas en las innovaciones del modelo VAR. Si queremos calcular las respuestas a innovaciones estructurales, debemos utilizar la representación,

y examinar la sucesión definida en (9.2). DESCOMPOSICIÓN DE LA VARIANZA Si utilizamos la representación MA para obtener predicciones de las variables y1, y2, tenemos,

Por lo que el error de predicción es,

Cuya varianza es,

Que, inevitablemente, aumentan con el horizonte de predicción. La expresión anterior nos permite descomponer la varianza del

Page 395: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 394

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

error de predicción en dos fuentes, según tenga a ε1 o a ε2 como causa. Con ello, estamos examinando el inevitable error de predicción en cada variable a un determinado horizonte, y atribuyéndolo a la incertidumbre acerca de la evolución futura en cada una de las variables. Es, por tanto, una manera de hacer inferencia acerca de las relaciones intertemporales entre la variables que componen el vector y. Para ello, se expresan los componentes de cada varianza en términos porcentuales,

Si una variable es prácticamente exógena respecto a las demás, entonces explicará casi el 100% de la varianza de su error de predicción a todos los horizontes posibles. Esto es lo más habitual a horizontes cortos, mientras que a horizontes largos, otras variables pueden ir explicando un cierto porcentaje de la varianza del error de predicción. La descomposición de la varianza está sujeta al mismo problema de identificación que vimos antes para las funciones de impulso respuesta, siendo necesario introducir alguna restricción como las consideradas en la sección anterior. Si la correlación entre las innovaciones del VAR es muy pequeña, el ordenamiento que se haga de las variables del vector y o, lo que es lo mismo, las restricciones de exclusión de valores contemporáneos que se introduzcan serán irrelevantes. Sin embargo, tales restricciones condicionan de manera significativa la descomposición de la varianza resultante. De hecho, con las restricciones de la sección anterior, ε2 explica el 100% de la varianza del error de predicción un período hacia adelante en la variable y2. Si, en vez de dicha restricción, excluyéramos y2t de la

Page 396: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 395

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

primera ecuación, entonces ε1 explicaría el 100% de la varianza del error de predicción un período hacia adelante en la variable y1. IDENTIFICACIÓN RECURSIVA: LA DESCOMPOSICIÓN DE CHOLESKY Para eliminar la correlación contemporánea existente entre las innovaciones ut de distintas ecuaciones, podemos transformar el vector ut en un vector et mediante la descomposición de Cholesky de la matriz de covarianzas Σ, Σ=Var(ut). Esta descomposición nos proporciona una matriz triangular inferior G tal que GGt=Σ. Como consecuencia, G−1ΣG−1t = I, y el sistema VAR puede escribirse,

Entonces

El efecto de eit sobre Yj,t+s viene medido por el elemento (j,i) de la matriz ��s. La sucesión de dichos elementos, para 1≤s≤∞ proporciona la respuesta dinámica de la variable Yj a una innovación en la variable Yi. Esto se conoce como función de respuesta de Yj a un impulso no esperado en Yi. Como eit es el error de pronostico un período hacia adelante en Yit, la representación VMA ortogonalizada, por la descomposición de cholesky, nos permite calcular el error de proostico de Yit, m-períodos hacia adelante, en el instante t−m+1, a través del elemento i-ésimo en le vector Pm−1 s=0 Aeset−s. Su varianza, el elemento i-ésimo en la diagonal de ∑ ��𝑠��𝑠

𝑡𝑚−𝑠 , puede escribirse,

∑ ∑ ��𝑠(𝑖, 𝑗)��𝑠(𝑗, 𝑖)𝑚−1𝑠=0

𝑘𝑗=1 , siendo ��𝑠(𝑖, 𝑗)��𝑠 el elemento (i,j) de la

Page 397: Curso econometria

NOTAS DE CLASE: ELEMENTOS DE ECONOMETRÍA Y ESTADÍSTICA FINANCIERA 396

|Facultad de Economía |Carlos Mendoza Astroz| | PERIODO 2015-I |

matriz element ��𝑠. Al aumentar m, a partir de m=1, esta descomposición de la varianza del error de predicción de Yit+m entre las k variables del vector Yt se conoce como descomposición de la varianza de Yit. Proporciona una estimación de la relevancia de cada variable del sistema para explicar los errores de predicción de las fluctuaciones futuras en Yit. BIBLIOGRAFÍA 1 Wooldridge, Jeffrey M. (2003).Econometric Analysis of

Cross Section and Panel Data. MIT Press. 2 Kalman, R.E., A New Approach to Linear Filtering and

Prediction Problems, Trans. ASME,J. Basic Engineering, vol 82, March 1960, pp 94-35.

3 Hamilton, J.D. (1994) “Time Series Analysis”, Princeton University Press.

4 Amemiya T.(1985), Advanced Econometrics. Harvard University Press.

5 Greene W. (1997), Econometric Analysis. Prentice Hall, tercera edición.

6 White, H. (1984), Asymptotic Theory for Econometricians. Academic Press

7 Kydland, Finn y Prescott, Edward. (1990). "Business Cycles: Real Facts and a Monetary Myth". En: Quarterly Review. Federal Reserve Bank of Minneapolis. Primavera. P.3-18.