libro cap 3

30
CAPITULO 3 EL METODO DE ESTIMACIÓN DE MÍNIMOS CUADRADOS ORIDINARIOS: MODELO LINEAL GENERAL 3.1. INTRODUCCIÓN En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las principales variables que explican a otra variable a la cual le hemos dado el nombre de variable dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k variables (Y y X 1 , X 2 ,..., X k ) en notación matricial. Este modelo es conocido como el modelo de regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en el Capítulo 2. Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable endógena (Y) y k variables exógenas (X). Formalmente: i ki k i i i i X X X X Y µ + β + + β + β + β = ... 3 3 2 2 1 1 i = 1,2,......n (3.1) La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes

Upload: dhoko123

Post on 26-Dec-2015

46 views

Category:

Documents


5 download

DESCRIPTION

stata cap3

TRANSCRIPT

Page 1: Libro cap 3

CCAAPPIITTUULLOO 33 EELL MMEETTOODDOO DDEE EESSTTIIMMAACCIIÓÓNN DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS

OORRIIDDIINNAARRIIOOSS:: MMOODDEELLOO LLIINNEEAALL GGEENNEERRAALL

33..11.. IINNTTRROODDUUCCCCIIÓÓNN En la investigación aplicada buscamos darle contenido empírico a las relaciones que nos

sugiere la teoría y la intuición. En muchos casos lo que buscamos es determinar cuáles son las principales variables que explican a otra variable a la cual le hemos dado el nombre de variable dependiente. En el Capítulo precedente se ha limitado el análisis de regresión al estudio de las relaciones existentes entre una variable endógena o explicada (Y) y una variable exógena o explicativa (X). Para tal fin, realizamos la estimación de los parámetros desconocidos del modelo de regresión bivariado y posteriormente demostramos sus propiedades por lo que concluimos que el estimador MCO es MELI. En el presente Capítulo, Vamos a generalizar el análisis previo incluyendo más de una variable explicativa (aparte del intercepto) utilizaremos el mismo criterio de minimización (MCO) y presentaremos el modelo de regresión lineal de k variables (Y y X1, X2,..., Xk) en notación matricial. Este modelo es conocido como el modelo de regresión lineal general, pues en él se generaliza el modelo de regresión bivariado estudiado en el Capítulo 2.

Cabe mencionar que para que el lector pueda comprender con facilidad los conceptos que se

estudiarán a continuación debe recordar algunos conceptos de álgebra matricial. En este modelo la función de regresión poblacional, definida en el Capítulo 1, está compuesta por la variable endógena (Y) y k variables exógenas (X). Formalmente:

ikikiiii XXXXY µ+β++β+β+β= ...332211 i = 1,2,......n (3.1)

La ecuación (3.1) indica que el vector Y observado es la suma del vector de errores (µ ) y de

una combinación lineal de las columnas de X. Nótese que ahora se tienen k pendientes

Page 2: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

52

( kββ ,.....1 ) y µi el término de error correspondiente a la i-ésima observación. Por otro lado, la

inclusión de un intercepto en el modelo hace que X1 represente un vector de unos, si reemplazamos éste en la expresión (3.1) se obtiene el siguiente conjunto de ecuaciones:

1131321211 ... µ+β++β+β+β= kk XXXY

2232322212 ... µ+β++β+β+β= kk XXXY

..........................................................................

nknknnn XXXY µ+β++β+β+β= ...33221

En términos matriciales:

nY

Y

Y

.2

1

=

n,kn,

k,,

X...X

.........

.........

X...X

2

112

1

1

1

1

.

β

ββ

k

.2

1

+

µ

.

.1

(nx1) (nxk) (kx1) (nx1)

y en forma compacta: µβ += XY (3.2)

33..22.. LLAA EESSTTIIMMAACCIIÓÓNN MMCCOO PPAARRAA EELL MMOODDEELLOO DDEE RREEGGRREESSIIÓÓNN LLIINNEEAALL GGEENNEERRAALL Con el fin de estimar los coeficientes del modelo de regresión y el intercepto, debemos re-

escribir la ecuación (3.1) de modo que para la observación i tendríamos un valor observado de Y y un valor estimado de la forma:

kiXkˆ...i2X2ˆ1ˆiY β++β+β=

Recordemos que la diferencia entre el valor estimado o predicho por el investigador y el

valor observado de la variable endógena resulta un residuo o término de error (e):

ktkiii Xˆ..XˆˆYe β−−β−β−= 221

y, repitiendo este proceso para todas las observaciones muestrales se obtiene:

eˆXeXˆ...XˆˆY kk221 +β=+β++β+β= (3.3) En la ecuación anterior, β es un vector de coeficientes de k elementos, e es otro vector de

residuos de n elementos y X representa la matriz de variables explicativas de orden (nxk). Como se mencionó en la introducción del presente capítulo, utilizaremos el criterio del

método de estimación MCO para obtener los estimadores: minimizar la suma de cuadrados de

los residuos (SRC = ∑ 2ie ). Se denota matricialmente como ee′ :

[ ] ∑=+++=

=′ 2222

21

2

1

21 ......... in

n

n eeee

e

.

e

e

eeeee

Page 3: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

53

Por la ecuación (3.3), se tiene que:

) ˆX - Y ( )' ˆX - Y ( ββ=′ee De esta manera, el problema de minimización a resolver es el siguiente:

Min ( Y - X β )' ( Y - X β )

β

( Y - X β )' ( Y - X β ) = Y'Y - Y'X β - 'β X'Y + 'β X'X β

= Y'Y - 2 β 'X'Y + β 'X'X β

en la expresión anterior Y'X β y 'β X'Y son escalares y por tanto son iguales(uno es el transpuesto del otro). Por otro lado, cuando se reemplazan los valores muestrales para X e Y la

suma de residuos al cuadrado define una función del vector de coeficientes β . De modo que:

)ˆ(fee β=′

donde los elementos del vector β son las variables de la ecuación, por lo que se debe minimizar

la misma con respecto a β . Para tal fin, es preciso hacer una digresión acerca del álgebra matricial utilizada para obtener los resultados que a continuación se detallan:

Min (Y'Y - 2 β 'X'Y + β 'X'X β)

β

ββ+β−= ˆX'X'ˆY'X'ˆY'Ye'e 2

022 =β+−=β∂

∂ ˆX'XY'Xˆe'e

β= ˆX'XY'X (3.4)

Digresión:

Se define )(bf!

como una función de k elementos distintos de bi entonces debemos calcular k derivadas parciales de dicha función con respecto a cada bi. En este sentido, se obtiene el vector gradiente (primeras derivadas parciales) como definición general en formas lineales:

∂∂

∂∂

=∂

∂→

nb

bf

b

bf

b

bfbf

)(

)(

)()(

1

!"

!

!

!!

(3.5)

Page 4: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

54

Ahora definamos una función lineal, donde a es un vector de k elementos constantes cualesquiera.

)b(f!

= a’b

)b(f!

= a1b1+ a2 b2+.......+ak bk

y, utilizando la expresión(3.5) se obtiene:

a

a

..

a

a

b

)ab(

b

)ba(

k

2

1

=

=∂′∂=

∂′∂

Nótese la similitud entre la expresión anterior y el problema de minimización definido en

(3.4). Así, obtenemos las siguientes expresiones:

)X'ˆ(ˆ

)ˆ'X( =β∂β∂=

β∂β∂

Asimismo, podemos definir la siguiente forma cuadrática en b, donde A es una matriz

simétrica de orden (kxk):

Abbbg ')( =

[ ]kb...bb 21

kkkk

k

k

AAA

AAA

AAA

#

"$""

#

#

21

22212

11211

kb

b

b

"2

1

Abb' = kk AbbAbbAb 1112211121 22 +++ #

kk AbbAb 222222 2+++ ##

"

kkk Ab2

Derivando parcialmente la expresión anterior, obtenemos lo siguiente:

+++

++++++

=

∂∂

∂∂∂

=∂

kkkk22k11

k2k222121

k1k122111

k

2

1

Ab2Ab2Ab2

Ab2Ab2Ab2

Ab2Ab2Ab2

bg

bg

bg

b

)b(g

#

"

#

#

"

Page 5: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

55

Ab

b

b

AAA

AAA

kkkkk

k

221

21

11211

=

= "

#

"$"

"$"

#

Por lo anterior, notemos que:

=∂

∂b

)Ab'b( β=β∂

ββ∂ ˆ)X'X(2ˆ

)ˆX'X'ˆ(

Ahora regresemos a la expresión (3.4). Esta representa la simbolización compacta de las k

ecuaciones normales del modelo. Nótese que estas ecuaciones pueden reexpresarse en términos de sumatorias, de forma similar al Capítulo anterior:

∑=∑β++∑β+β ikiki YXˆ...Xˆˆn 221

∑=∑β++∑β+∑β iikiikii YXXXˆ...XˆXˆ22

22221

...............................................................................................................................

∑=∑β++∑β+∑β ikikikikiki YXXˆ...XXˆXˆ 2221

o en términos matriciales,

=

β

ββ

∑∑∑

∑∑∑∑∑

Yn

..

Y

Y

.

X...XX

............

X...XX

ˆ...

ˆ

ˆ

.

X...XXX

............

XX...XX

X...Xn

knkk

n

kkiikiki

kiiii

kii

2

1

21

222212

1

22

2222

2 1111

( XX ′ ) β = ( YX ' ) En este sentido, y con el fin de obtener los estimadores MCO, debemos premultiplicar la

expresión anterior por ( XX ' )-1, si es que tal matriz es invertible1. Asimismo, se verifica que el estimador es una función de los datos, para ello basta con reemplazarlos en la siguiente expresión:

Y'X)X'X(ˆ 1−=β (3.6)

Nótese que en este modelo también se verifica que las variables explicativas y el término de error son ortogonales entre sí (Cov (X, µ) = 0). Para tal fin debemos reordenar la expresión compacta de las ecuaciones normales (3.4), utilizando algunas propiedades del álgebra matricial:

0)ˆ(' =− βXYX ⇒

1 En los casos en que la matriz ( )XX ' no es invertible, el sistema de ecuaciones normales tiene infinitas soluciones,

esto ocurre cuando existe multicolinealidad, es decir cuando se relaja el noveno supuesto de la Sección (1.2).

Page 6: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

56

0

0

..

0

0

..' 2

1

=

=

′′

=

eX

eX

eX

eX

k

(3.7)

0'')'('')ˆ('' 1 =−=−=−= − YXYXXYXXXXYXXYXeX β Observamos que el primer elemento de la matriz anterior resulta:

∑ ==

n

iie

10

0=e

por lo que, los residuos de la regresión estimada por MCO tienen media igual a cero, siempre que el investigador incluya un término independiente en el modelo2. Por otro lado, los demás elementos de la matriz muestran que, al igual que en el modelo de regresión lineal simple, el supuesto de ortogonalidad entre los errores y las variables independientes se cumple.

33..33.. UUNNAA IILLUUSSTTRRAACCIIÓÓNN Para ilustrar este método matricial véase el ejemplo (2.1), donde se obtienen los

estimadores de un modelo bivariado por el método MCO. Así, obtenemos el modelo de regresión lineal simple en términos matriciales:

eXY += β

+

ββ

=

nnn e

..

e

e

ˆ

ˆ

X

....

X

X

Y

..

Y

Y

2

1

2

1

2

22

21

2

1

1

1

1

y, por el resultado obtenido en (3.4)

)(ˆ).( YXXX ′=β′

∑=

ββ

∑∑

=

=

==

=n

tii

n

ii

n

ii

n

ii

n

ii

YX

Y

XX

Xn

12

1

2

1

1

22

12

12

ˆ

ˆ

Ahora, veamos la Tabla (2.1) y reemplacemos en la expresión matricial anterior los valores correspondientes. Así, las matrices que resultan de la aplicación de este procedimiento son las siguientes:

2 Nótese que la presencia de un término independiente en el modelo implica que la primera fila de X es un vector de unos.

Page 7: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

57

(X’X) =

4620

2010 (X’Y) =

166

80

luego la inversa de la matriz (X’X) resulta.

(X’X)-1 =

0,166666660,33333333-

0,33333333-0,76666666

Si aplicamos la fórmula del estimador MCO en términos matriciales (3.6), obtenemos:

=

=

ββ=β

1

6

166

80

0,166666660,33333333-

0,33333333-0,76666666ˆ

ˆˆ

2

1

los cuales son los mismos obtenidos en el capítulo anterior. Este resultado ilustra el hecho de que el estimador presentado en esta capítulo (y que será el más utilizado a lo largo del libro) es una generalización del estimador bivariado (que usualmente se trabaja en términos de sumatorias).

33..44.. PPRROOPPIIEEDDAADDEESS DDEE UUNN BBUUEENN EESSTTIIMMAADDOORR Todo estimador debe cumplir con ciertas condiciones que nos den cierta seguridad acerca de

su idoneidad. Si un estimador cumple con estas condiciones podrá utilizarse con relativa seguridad de que los resultados obtenidos son equivalentes en términos estadísticos a los verdaderos parámetros que siempre serán desconocidos.

Esta propiedades pueden agruparse en dos categorías: i) propiedades exactas (o de muestras

pequeñas) y ii) propiedades aproximadas (o de muestras grandes o asintóticas). Las primeras de ellas se refieren a resultados sobre los cuales existe certeza y que pueden

analizarse incluso en un contexto de muestras pequeñas. El segundo grupo se refiere a resultados que no se pueden comprobar en muestras pequeñas y que deben analizarse como aproximaciones. La única forma de lograr hacer este análisis es realizando el ejercicio de ir aumentando el tamaño de muestra y observar como se va comportando el estimador3. Las principales propiedades se pueden resumir de la siguiente forma:

3.4.1 Propiedades de Muestras Pequeñas:

Primera propiedad: Insesgamiento

Recuérdese que en el Capítulo 2 estudiamos esta propiedad y demostramos que el estimador

MCO para un modelo de regresión con dos variables era insesgado. De esta manera, definimos formalmente un estimador insesgado:

E ( β ) =β

3 De allí que reciban el nombre de propiedades asintóticas. Estas propiedades serán analizadas en profundidad en el capítulo X, dedicado a esta tópico.

Page 8: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

58

En promedio, el estimador resulta igual al parámetro desconocido si se repite el experimento de muestreo varias veces. Gráficamente:

Con lo anterior no queremos afirmar que el estimador obtenido es igual al verdadero valor

del parámetro, sino que proviene de una distribución cuya media es igual a dicho valor (β ).

Segunda propiedad: Eficiencia

El estimador debe tener la menor varianza posible con el fin de lograr mayor precisión en sus aproximaciones. Por lo tanto, un estimador eficiente es aquél que cumple con la primera propiedad y además es el que posee la mínima varianza entre todos los demás estimadores insesgados posibles. Así, y como se demostró en la ilustración del teorema de Gauss-Markov, el estimador MCO cumple con esta propiedad. Gráficamente: (Figura 2.3):

3.4.2 Muestras Grandes: (Propiedades Asintóticas)

Primera propiedad: Consistencia

Un parámetro es consistente si se cumple que:

P lim β=β n ∞→

Page 9: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

59

Esta propiedad indica que conforme aumente el tamaño de la muestra la media de la

distribución del estimador se aproximará más al verdadero valor del parámetro. Es decir, si se cumple esta propiedad β resulta la media de tal distribución.

Cabe destacar que esta propiedad es de suma importancia pues si un estimador resulta

sesgado utilizando un tamaño muestral reducido, el investigador puede eliminar dicho sesgo aumentando el número de observaciones de la muestra. Por lo tanto, para garantizar que el estimador MCO sea insesgado se debe utilizar muestras grandes )60( ≥n .

Segunda propiedad: Insesgamiento asintótico

La idea detrás de esta propiedad es analizar si el sesgo tiende a desaparecer en la medida que

el tamaño muestral tiende a infinito. Tiene cierta relación con la propiedad anterior pero no son equivalentes. En este caso se analiza el comportamiento del sesgo, mientras que en la consistencia se analiza el punto hacia el cual converge la distribución del estimador.

Tercera propiedad: Eficiencia Asintótica

Este propiedad está referida al comportamiento de la varianza de la distribución asintótica

del estimador. La distribución asintótica es aquella hacia la cual converge la distribución del estimador a medida que crece el tamaño muestral. La idea es analizar si la varianza de esta distribución es menor que cualquier otra proveniente de estimadores alternativos.

33..55.. PPRROOPPIIEEDDAADDEESS DDEELL EESSTTIIMMAADDOORR MMCCOO

1. Insesgamiento

Recordemos que para determinar el insesgamiento debemos reemplazar el modelo verdadero dentro de la fórmula de nuestro estimador:

β YXXX ')'( 1−=

)(')´( 1 µ+β= − XXXX

µ+β= −− ')'(')'( 11 XXXXXXX

β µ+β= − ')'( 1 XXX (3.8)

Tomando esperanzas a la expresión precedente, obtenemos:

)ˆ(βE )(')'( 1 µ+β= − EXXX

β=β)ˆ(E (3.9)

De esta manera se verifica que el estimador MCO, para el modelo de regresión general, es insesgado. Un resultado fundamental para la comprobación de esta propiedad es que las X son fijas o que no están correlacionadas con el error. La ortogonalidad entre los regresores y el términos de error es necesaria para comprobar el insesgamiento.

2. Matriz varianza-covarianza (Eficiencia)

Page 10: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

60

)ˆ(βVar ]))'ˆ(ˆ))(ˆ(ˆ[( β−ββ−β= EEE

])'ˆ)(ˆ[( β−ββ−β= E Ahora, por la ecuación (3.8) se obtiene:

)ˆ(βVar ])'('')'[( 11 −− µµ= XXXXXXE

11 )'()'(')'( −− µµ= XXXEXXX

Recordemos que por el segundo y tercer supuesto del modelo de regresión lineal4

verificamos que: nIE 2)'( µσ=µµ . Por consiguiente, la expresión anterior resulta:

121 )'(')'()ˆ( −µ

− σ=β XXXIXXXVar n

12 )'()ˆ( −µσ=β XXVar (3.10)

Analicemos ahora lo que significan las expresiones (3.9) y (3.10). La primera indica que el

estimador β de MCO es insesgado bajo los supuestos del modelo lineal, esto implica que cuando el investigador dispone de varias muestras el método de estimación de MCO arroja estimadores que en promedio son idénticos a los verdaderos valores de los parámetros desconocidos. Sin embargo, en la mayoría de los casos cuando corremos una regresión solamente contamos con una muestra, en tal sentido no conocemos con exactitud la distancia entre el estimador y su valor esperado poblacional, es decir tenemos una aproximación de la misma. Por lo tanto, es de suma importancia calcular un promedio de dicha distancia, en otras palabras, de la matriz de varianzas y covarianzas del estimador MCO.

Analicemos en forma intuitiva los componentes de dicha matriz. En primer lugar, depende

de la varianza del error. Esto es, si la distribución poblacional del error presenta una alta dispersión, la varianza del estimador β se comportará de igual forma (existe una relación directa entre los dos). Por otro lado, el análisis del segundo componente es un poco más complicado, dado que los elementos de la matriz (X’X) están relacionados directamente con las varianzas y covarianzas muestrales de las X5. Si analizamos las implicancias de la relación matemática notaremos que a mayor dispersión de las variables independientes, la matriz (X’X) es mayor6 y por tanto su inversa es menor, de modo que la varianza del coeficiente de regresión será menor. Es decir, a mayor varianza de las X ganamos precisión en las estimaciones del modelo. Esta última idea la podemos entender de manera utilizando un gráfico. En él, ilustraremos el caso de una regresión bivariada, en el eje de las abcisas tenemos los valores de la variable independiente y en el eje de las ordenadas, los valores de la variable dependiente:

4 Véase la sección (1.2) del primer capítulo 5 Tomemos en cuenta la fórmula de la varianza muestral de una variable:

1

2

1

)()(

222

−+−

=−−

= ∑ ∑∑n

xnxxx

n

xxxVar

iii

Como vemos, si el primer término del desarrollo de la sumatoria es mayor, la varianza de la variable x será mayor. Ese término es precisamente uno de los términos de la diagonal principal de la matriz X´X. De igual manera ocurre con los elementos fuera de esta diagonal principal que serán los elementos correspondientes de la covarianzas muestrales de las variables explicativas incluidas en el modelo. 6 Por ejemplo si las varianzas muestrales de las variables explicativas incluidas en el modelo son mayores entonces la sumatoria de las variables elevadas al cuadrado tenderán a ser mayores, como estos son los elementos de la diagonal principal, sabemos que a mayor la traza de una matriz cuadrada, mayor será su magnitud.

Page 11: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

61

Figura 3.1

La figura anterior indica que cuando las observaciones de X presentan poca variabilidad la

línea de regresión que muestra dicha característica es LR1. Basta introducir una nueva observación (a) para que la línea de regresión presente un cambio brusco de pendiente (LR2), por lo que los estimadores MCO pierden precisión en la medida que son muy sensibles.

Figura 3.2

El gráfico anterior muestra como a mayor variabilidad de las X es más fácil identificar la

línea de regresión. Ahora se verifica que al incluir otra observación en el modelo la pendiente de la línea de regresión no se ve afectada o de lo contrario varía ligeramente. Por lo tanto, se concluye que la variabilidad en los datos (X) es indispensable para que las predicciones del modelo estimado sean confiables y por ende los estimadores presenten mayor precisión.

De todo lo discutido hasta el momento, vemos que dos elementos para evaluar la calidad de

un estimador son el sesgo y la varianza. Sin embargo, se pueden presentar casos en donde la varianza de un estimador sesgado es menor que la de un estimador insesgado. En este caso ¿cuál estimador debemos escoger? La respuesta a esta pregunta encontró una solución en el planteamiento de un criterio que nos permita evaluar un estimador tomando en cuenta el sesgo y la varianza. Este criterio recibe el nombre de Error Cuadrático Medio (ECM)que se define como la esperanza matemática de la diferencia entre el valor estimado del parámetro y su valor verdadero:

2))ˆ(()ˆ()ˆ()ˆ( θθθθθ SesgoVarianzaEECM +=−=

Page 12: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

62

Dado que el estimador MCO cumple con la propiedad de insesgamiento su error cuadrático

medio será idéntico a su varianza, por tanto se deberá comparar dicha medida de dispersión con el ECM de cualquier otro estimador sesgado. Sin embargo, la aplicación de este criterio es general y puede aplicarse a cualquier par o más de estimadores.

Hasta aquí hemos hablado de cómo estimar la varianza y la interpretación de la misma. Sin

embargo, la estimación de la varianza es un paso previo a la comprobación de que ésta es la mínima (propiedad de eficiencia). Para ello utilizaremos, al igual que en el capítulo anterior el teorema de Gauss-Markov en su forma matricial.

Teorema de Gauss-Markov

Aquí extenderemos los resultados encontrados en el capítulo 2 a todo un vector de

coeficientes β . Debemos notar que dicho vector es lineal pues cada uno de sus elementos es una función lineal de la variable endógena (Y). Demostración:

Sea YA~~ =β donde A

~ es una matriz de orden (kxT)

Definimos otra matriz A (kxT) a la diferencia:

')´(~ 1 XXXAA −−=

Según lo anterior:

]][)'([~ 1 µ+β+=β − XXXXA

µ++β+β=β − ]')´([~ 1 XXXAAX (3.11)

y tomando esperanzas a ambos lados de la ecuación, obtenemos como resultado:

β+β=β AXE )~

( (3.12)

De modo que β~ será insesgado sí y solo sí suponemos que AX=0. De esta manera, resulta útil reexpresar la ecuación (3.11) para el cálculo de la varianza del estimador:

µ++β=β − ]')´([~ 1 XXXA (3.13)

Ahora reemplacemos la expresión anterior en la definición de la matriz de covarianzas del

estimador, así obtenemos:

])'~

)(~

[()~

( β−ββ−β=β EVar

]])'('[']')'([[ 11 −− +µµ+= XXXAXXXAE

2121212 )'('')'()'(')~

( µ−

µ−

µ−

µ σ+σ+σ+σ=β XXAXAXXXXXAAVar

212 )'(' µ−

µ σ+σ= XXAA

matriz varianza del

definida positiva estimador MCO

Page 13: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

63

La expresión anterior indica que la matriz de covarianzas del estimador alternativo es igual a la del estimador MCO más una matriz definida positiva. En este sentido, se verifica que la varianza de cualquier otro estimador lineal insesgado debe ser necesariamente igual o mayor que la varianza del estimador MCO. 33..66 OOTTRROOSS RREESSUULLTTAADDOOSS RREEFFEERRIIDDOOSS AALL EESSTTIIMMAADDOORR MMAATTRRIICCIIAALL DDEE MMÍÍNNIIMMOOSS CCUUAADDRRAADDOOSS

OORRDDIINNAARRIIOOSS

1.El vector de residuos de Mínimos Cuadrados es una transformación lineal del vector de errores del modelo teórico. Recordemos que:

β−= ˆXYe

YXXXXIn ]')'([ 1−−=

]][')'([ 1 µ+β−= − XXXXXIn (3.14)

][ µ+β= XM x

YMMe xx =µ=

Este resultado se entenderá si tomamos en cuenta las propiedades que indicaremos más

abajo. Definimos la matriz Mx = ]')'([ 1 XXXXI n−− 7 como la matriz de proyección ortogonal

de la variable dependiente en el espacio definido por los errores. Esta matriz cumple con las siguientes propiedades:

i.) Simétrica e idempotente8:

xM xM = ]')'([ 1 XXXXI n−− ]')'([ 1 XXXXI n

−−

= ')'(')'(')'(')'( 1111 XXXXXXXXIXXXXXXXXI nn−−−− +−−

= ')'( 1 XXXXI n−−

= Mx

ii) Ortogonal a la matriz X

XXXXXIXM nx ]')'([ 1−−=

= 0')'( 1 =− − XXXXXX Si utilizamos esta última propiedad obtenemos el resultado presentado en (3.14).

2. La suma de residuos el cuadrado del modelo lineal general puede expresarse en términos de los errores teóricos del modelo.

Un resultado adicional que se deriva de las propiedades ya mencionadas de la matriz Mx es que la suma residual de cuadrados puede expresarse en términos del verdadero vector de errores. Así, obtenemos:

7 En realidad, la matriz de proyección ortogonal Mx está asociada a otra matriz Px. Esto se explicará detalladamente en la sección (3.9). 8 Una matriz simétrica es aquella cuya transpuesta es igual a la matriz original. Por su parte, unamatriz idemportente es aquella que al ser multiplicada por sí misma da como resultado la misma matriz.

Page 14: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

64

YMYeeSRC x'' ==

)](')'([)'( 1 µβµβ +−+= − XXXXXIX n

µβµµββ ]')'(['']')'([']')'(['' 111 XXXXIXXXXXIXXXXXIX nn−−− −+−+−=

βµ XXXXXI n ]')'([' 1−−+

µµµµ xxx MMMeeSRC '''' ===

µµ xx MYMYeeSRC ''' ===

3. Otra forma de expresar la Suma de Cuadrados de los Residuos Mínimo-Cuadráticos.

Recordemos que:

SRC - Suma de Residuos al Cuadrado:

ee' )ˆ)(''ˆ'( ββ XYXY −−=

ββββ ˆ''ˆ''ˆˆ'' XXYXXYYY +−−=

βββ ˆ''ˆ''ˆ2' XXYXYY +−=

YXXXXXYXYY ')'(''ˆ''ˆ2' 1−+−= ββ

YXYXYY ''ˆ''ˆ2' ββ +−=

YXYYee ''ˆ'' β−= (3.15)

4. Se verifica que en términos probabilísticos la esperanza del error estimado es igual a

cero.(Véase el segundo supuesto del modelo de regresión lineal- Cap 1)

)ˆ()()( βXEYEeE −=

ββ XX −=

0)( =eE

33..77.. MMEEDDIIDDAASS DDEE BBOONNDDAADD DDEE AAJJUUSSTTEE

Recordemos que el propósito del análisis de regresión es explicar el comportamiento de la variable dependiente (Y). Al disponer de una muestra dada, sabemos que el comportamiento de Y es aleatorio, es decir puede tomar un valor relativamente bajo para algunas observaciones y relativamente alto para otras. Dichas variaciones de la variable pueden aproximarse con la varianza muestral de Y (Var(Y)), Por ello, es importante cuantificar su magnitud.

Para el modelo de regresión lineal simple procuramos explicar la conducta de la variable

dependiente, escogiendo adecuadamente la variable explicativa(X), a través de la regresión. Después de ajustar la regresión somos capaces de separar el valor de Yi para cada observación

en sus dos componentes: iY y ei . Es decir:

iii eYY += ˆ (3.16)

Page 15: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

65

De modo que, el error estimado muestra la discrepancia entre el valor de Y predicho )Y( i y su valor observado. Así, por la ecuación (3.16) podemos descomponer la varianza de Y de la siguiente forma9:

)()ˆ()( iii eVarYVarYVar +=

La expresión anterior muestra que es factible descomponer la varianza de la variable

endógena en un componente explicado por el modelo de regresión lineal, en el sentido descrito anteriormente, y en otro no explicado relacionado a la presencia del residuo.

Recuérdese que la bondad de ajuste del modelo nos permite conocer el grado en que la

estructura que gobierna el comportamiento de la variable dependiente, recoge el comportamiento de tal variable. O en otros términos, mide cuán bien explicado está el comportamiento de la variable endógena por nuestro modelo.

En consecuencia, definimos formalmente al coeficiente de determinación:

)Y(Var

)Y(VarR

i

i2 = (3.17)

y muestra la proporción de la varianza explicada por la regresión lineal. Asimismo, podemos definir formalmente al R2 en términos de las sumas de cuadrados definidas en la sección (2.4). Así, resulta:

STC = SEC +SRC

eeYnYYYnYY 22 ′+−′=−′

STC

SEC

YnYY

YnYYR

2

22 =

−′−′

= (3.18)

donde la suma explicada de cuadrados(SEC) se define por:

22 YnˆXXˆYnYY −β′β′=−′

( ) 21 YnYXXXXXˆ −′′′β′= −

SEC 2YnYXˆ −′β′= Debe mencionarse que esta suma explicada de cuadrados está medida alrededor de la media

de la variable dependiente. El término 2Yn precisamente resta la media de la variable dependiente10. Este cálculo se puede hacer si es que el modelo contiene un intercepto.

Asimismo, podemos expresar el coeficiente de determinación en términos de la suma

residual de cuadrados:

9 Recuérdese que por el supuesto de ortogonalidad entre las variables explicativas y el error estimado, se tiene que:

0eXˆeY =′β′=′ .

10 Recordemos que ( )

∑∑ ∑∑

−′=−−=

+−=−222

222

2

2

ynyyynynyy

ynyyyyy

i

iii

Page 16: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

66

22

YnYY

ee1

STC

SRC1R

−′′

−=−= (3.19)

y por el resultado obtenido en (3.15), se tiene:

2

2

YnYY

Y'X'ˆY'Y1R

−′β−−=

Algo que debe discutirse a estas alturas es que el R2 estará acotado entre 0 y 1 si es que sólo

se incluye un intercepto en el modelo. Esto se concluye porque la inclusión del intercepto asegura – a través de las ecuaciones normales- que la media de los errores mínimos cuadráticos (ei) sea cero. Este resultado es importante para poder descomponer la suma total de cuadrados en la suma explicada y la suma de residuos al cuadrado como dos conjuntos disjuntos. Esto asegura que existe ortogonalidad entre las variables explicativas y el término de error mínimo cuadrático. De no incluir intercepto –por construcción- nada asegura que la parte explicada y la parte no explicada sean ortogonales entre sí, por lo que la suma de total de cuadrados podría incluir un tercer término que puede ser negativo o positivo. De ser negativo y mayor que yý, el R2 podría ser negativo incluso. Por ello si no existe intercepto el R2 puede ser negativo y no está acotado por abajo. El valor máximo de 1 se seguirá manteniendo.

Debido a que el coeficiente de determinación mide la bondad de ajuste de los valores

estimados a la línea de regresión, puede ser utilizado para comparar el grado del poder explicativo de dos modelos. Pero no cualquier tipo de modelos, hay que tomar en cuenta los siguientes casos:

i) En los casos en que el investigador disponga de un modelo que incluya intercepto y otro

que no lo incluya, no es posible discernir entre los dos pues el R2 resultante del primer modelo podría resultar negativo, específicamente se haya en el siguiente intervalo [ ]1,∞− como ya se mencionó. En este caso los R2 no son comparables.

ii) Cuando dos modelos están especificados con igual número de variables explicativas y

tratan de explicar la misma variable endógena pero no incluyen intercepto. Es factible utilizar al R2 como una medida de comparación, de esta manera se eligirá aquél que tenga la menor suma residual, lo que implica un mayor R2 sea negativo o positivo.

iii) El R2 también es de mucha utilidad cuando comparamos dos modelos anidados, se

denominan así aquellos modelos cuya estructura consta de una variable endógena y variables exógenas comunes. Pero, uno de ellos está especificado con un menor número de variables explicativas. En tal sentido, debemos hallar el R2 del modelo que omite algunas variables para luego incluir una por una las restantes. Con este procedimiento se verificará que el modelo ampliado disminuirá su suma residual conforme se incluya otra variable, por lo tanto el R2 mejora considerablemente.

iv) Un hecho adicional, que es obvio, y poca veces se menciona es que si se estiman dos

modelos que tratan de explicar dos variables dependientes distintas, el R2 no es una medida que tenga mucho sentido comparar, dado que cada R2 mide la explicación de la varianza dela variable endógena que en este caso no son las mismas.

Una conclusión lógica que se infiere de lo anterior es que el R2 es una función creciente del

número de variables explicativas utilizados en el modelo. Es decir, una variable adicional aumenta la proporción en que el modelo explica el comportamiento de la variable endógena. Por ello, es importante que el investigador incluya todos los regresores necesarios para explicar con mayor precisión a Y.

Page 17: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

67

Algo que se deriva de lo discutido en el párrafo anterior es que una forma de elevar cada vez

más el R2 es incluir nuevas variables. La inclusión de una nueva variable, en el peor de los casos, no modifica el R2 pero en la mayoría de las veces logra aumentarlo11. Sin embargo, si bien el beneficio de incluir una variable más está en la elevación del R2, tiene un costo. Este viene dado por la pérdida de grados de libertad. Recordemos que por la inclusión de una variable más, aumenta en igual cantidad el número de ecuaciones normales y por lo tanto existe un error adicional que no puede tomar cualquier valor sino que debe restringirse a tomar un valor de tal forma que se cumpla la ecuación normal. Esto le quita libertad al modelo para captar la verdadera estructura que se quiere analizar. Entonces, como vemos, la inclusión de una variable adicional tiene un costo y un beneficio. Por ello, es importante definir un indicador que tome en cuenta estas dos consideraciones, de tal forma de contar con una medida más confiable. Este indicador es el estadístico conocido como R2 ajustado o corregido. Formalmente:

)R1()kn(

)1n(1

)1n/(STC

)kn/(SRC12R 2−

−−

−=−−

−= (3.20)

La interpretación de este R2 alternativo es similar al anterior pues cumple con las mismas

propiedades del R2 original y tiene el mismo objetivo como medida de bondad de ajuste. Pero, le añade el ajuste por los grados de libertad que se pierden por la inclusión de una variable

adicional en el modelo. De modo que, la fracción: )kn(

)1n(

−−

aumenta cuando el número de

variables explicativas (k) se incrementa, mientras que el término (1-R2) disminuye. En consecuencia, se dice que esta nueva medida de bondad de ajuste es relativamente neutral a la introducción de variables adicionales.

Un punto importante como resumen de esta sección es presentar de manera sintética las

magnitudes involucradas en el cálculo de las medidas de bondad de ajuste. Como sabemos, cada uno de los componentes de la suma total de cuadrados tendrá asociados ciertos grados de libertad, los cuales serán utilizados más adelante. La formulación matricial de la descomposición de la varianza (tabla ANOVA) para el modelo lineal general es la siguiente:

Fuente de

variación Suma de

cuadrados Grados de libertad

Total de la regresión

2YnYY −′

n-1

Debido a la regresión

2YnˆXXˆ −β′β′

k-1

Debido a los residuos

Y'X'ˆY'Y β− n-k

La pérdida de un grado de libertad para la STC proviene del hecho de que para el cálculo de

ella debe estimarse la media de la variable dependiente. En el caso de la SEC ocurre lo mismo. Los grados de libertad son k-1 porque el espacio en donde están definidos los parámetros es k-dimensional y se pierde un grado de libertad por el cálculo de la media de la variable dependiente que sabemos es la misma que la media de la variable dependiente estimada a través del modelo. Por último, los grados de libertad de la suma residual es la diferencia entre los dos grados de libertas ya mencionados.

11 Recordemos que la suma explicada de cuadrados está relacionada a la siguiente magnitud:

ββ XX ′′ que es una forma cuadrática. Al incluir una variable más esta magnitud aumentará o a lo más no disminuirá

debido a que si el efecto de la variable es cero no se modificará esta expresión.

Page 18: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

68

33..88 MMOODDEELLOO PPAARRTTIICCIIOONNAADDOO

Cuando los paquetes estadísticos utilizados no eran tan potentes como los de ahora o no

existían, los cálculos se complicaban cuando se introducían un número alto de variables. Ello llevó a buscar formas de abreviar los cálculos. De allí surgió lo que ahora se denomina el modelo particionado. Si bien actualmente los programas estadísticos permiten hacer estimaciones con gran número de observaciones y variables explicativas, este análisis permanece relevante dado que permite ilustrar la interpretación de los parámetros de un modelo.

Podemos plantear entonces nuestro modelo lineal general de la forma tradicional:

eˆXY +β=

En este caso introduciremos un cambio. Este cambio implica particionar la matriz X en dos submatrices:

X = [X1 X2]

De modo que, las ecuaciones normales del modelo resultan:

′′

=

ββ

′′′′

YX

YX

XXXX

XXXX

2

1

2

1

2212

2111ˆ

ˆ

Digresión:

Cabe señalar que para hallar la inversa de una matriz particionada se tiene dos

procedimientos, los cuales dependen del orden de las submatrices en las que se separe la matriz original. Así, para la estimación de los parámetros del modelo debemos calcular la matriz inversa de (X’X). Se pueden dar dos casos:

i) Se define la matriz particionada P, de orden kxk:

=

2221

1211

PP

PPP

donde el orden de cada una de las matrices: P11, P12, P21, P22, es respectivamente mxm, mxr, rxm,y rxr, (donde m+r = k). Ahora definamos a F como la matriz particionada inversa de P, de orden kxk:

=

2221

1211

FF

FFF

Si bien los elementos de ésta matriz no son idénticos a los de la matriz P-1, sí guardan una

relación importante con los elementos de la matriz P:

12122121111 )PPPP(F

1 −−

= 22211112 FPPF1−

−=

Page 19: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

69

11211212222 )PPPP(F

1 −−

= 11212212 FPPF1−

−=

ii) Cuando la matriz X esta conformada por dos vectores, el procedimiento para calcular la matriz inversa de (X’X) es igual al de una matriz cualquiera de orden (2x2). Dada la digresión anterior, trabajemos con las ecuaciones normales del modelo y hallemos

los estimadores. Tomando el primer conjunto de ecuaciones normales tenemos:

YXXXXX 1221111ˆˆ ′=β′+β′ (3.21)

Despejando 1β , obtenemos la siguiente expresión:

( ) ( ) 2211

1111

111ˆˆ β′′−′′=β −− XXXXYXXX

Factorizando llegamos a:

( ) )ˆ(ˆ221

1111 β−′′=β − XYXXX (3.22)

Del segundo conjunto de ecuaciones normales tenemos:

( ) YXXXXX 2222112ˆˆ ′=β′+β′ (3.23)

reemplazando (3.22) en (3.23):

( )[ ] YXˆXX)ˆXY(XXXXX 22222211

1112 ′=β′+β−′′′ −

( ) ( ) YXXXXXXXXXYXXXXX 22222211

111211

1112ˆˆ ′=β′+β′′′−′′′ −−

( )[ ] ( )[ ]YXXXXIXˆXXXXXIX 11

11122211

1112 ′′−′=β′′−′ −− (3.24) La expresión entre corchetes es similar a la matriz Mx definida anteriormente, salvo que en

lugar de X encontramos a una parte de ella que es X1. Recordemos que ella fue definida como la matriz de proyección ortogonal de la variable explicada en el espacio definido por los errores12. Si recordamos los resultados de la sección 3.6, específicamente los resultados contenidos en (3.14), veremos que si aplicamos la matriz Mx al vector de observaciones de la variable dependiente Y, obtenemos el vector de errores mínimos cuadráticos. Intuitivamente ello significa que los errores son los valores resultantes cuando limpiamos o filtramos la variable dependiente de todo efecto que tienen sobre ella las variables independientes. Las propiedades de M1 son similares a las de la matriz Mx. Manipulando la expresión (3.24) obtenemos:

YMXXMX 122212ˆ ′=β′

Aplicando las propiedades de M1, llegamos a:

12 La razón del nombre quedara más clara en la sección 3.10.

Page 20: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

70

)()'(ˆ)()'( 12122121 YMXMXMXM =β

)()(ˆ12

12122 YMXXMX ′′=β − (3.25)

La expresión precedente, muestra que los efectos que tienen las variables explicativas

incluidas en la sub-matriz X1 han sido eliminados o filtrados tanto de X2 como de Y. Es decir,

2β mide sólo el efecto que tienen las variables X2 sobre la variable dependiente exclusivamente sin tomar en cuenta el efecto de las otras variables del modelo. Es decir, cada parámetro sólo mide el efecto marginal que tiene sobre la variable explicada la variable explicativa que la multiplica de manera independiente del efecto de las otras variables. Esto nos permite escribir el modelo de manera lineal donde los efectos son aditivos e independientes unos de otros.

33..99 EELL MMOODDEELLOO LLIINNEEAALL EENN FFOORRMMAA DDEE DDEESSVVIIAACCIIOONNEESS CCOONN RREESSPPEECCTTOO AA LLAA MMEEDDIIAA

Recordemos que en el Capítulo 2 uno de los resultados que estudiamos fue que el modelo de

regresión de dos variables podía ser expresado en forma de desviaciones. Este enfoque mostraba que los parámetros podían ser estimados en dos pasos: el primero consiste en calcular la pendiente de X )ˆ( 1β y el segundo es reemplazar dicho valor en la ecuación de la línea de regresión muestral para hallar el intercepto. Un procedimiento similar puede aplicarse al modelo lineal general. Partamos de un modelo especificado incluyendo un término independiente o intercepto:

eXXY kikii +β++β+β= ˆ...ˆˆ 221 (3.26)

Recordemos que podemos expresar al modelo en términos de los valores medios de las

variables:

kk221 Xˆ...XˆˆY β++β+β= (3.27)

ahora, restando (3.27) de (3.26) obtenemos:

( ) ( ) ( ) ikkikii eXXXXYY +−β++−β=− ˆ...ˆ 222 (3.28) Nótese que, esta expresión muestra una reparametrización del modelo. En ésta no se incluye

un intercepto, cada variable está expresada en diferencias con respecto a su promedio muestral y tanto las pendientes como los residuos son iguales a los del modelo original.

Consideremos al modelo en su forma matricial y planteemos una partición de nuestra matriz

X de tal forma que X1 sólo incluya la columna de unos que corresponden al intercepto y X2

contiene a las variables explicativas del modelo distintas del intercepto. El modelo se plantea de la siguiente forma:

eXY +β= ˆ

donde X y β representan matrices particionadas de la forma:

[ ]2;1 XX n= (3.29)

Page 21: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

71

ββ

=β2

ˆˆ (3.30)

Nótese que, en la ecuación (3.29) X2 es una matriz de orden nx(k-1) y está formada por las

columnas de observaciones de las variables exógenas del modelo, exceptuando el intercepto. Por otro lado, la expresión (3.30) muestra que el vector β tiene como elementos al intercepto

( 1β ) y al resto de coeficientes estimados (desde 2β hasta kβ ). De esta manera, el nuevo modelo particionado resulta:

eXXY +β+β= 2211 ˆˆ (3.31)

Si recordamos los pasos anteriores realizados en el caso del modelo particionado, podemos

utilizar la expresión (3.24):

( )[ ] ( )[ ]YXXXXIXˆXXXXXIX 11

11122211

1112 ′′−′=β′′−′ −− En este caso particular, X1 sería un vector de unos, por lo que la expresión entre corchetes

quedaría de la siguiente manera:

[ ])11)(/1( nnn nI ′− (nxn) (3.32) Esta matriz será denotada desde ahora por M0 y tiene la particularidad de transformar los

datos originales a datos en desviaciones con respecto a la media. El lector puede desarrollar la expresión anterior y comprobar esta afirmación.. Si tomamos el vector de observaciones de la variable dependiente y lo premultiplicamos por M0 obtenemos lo siguiente:

−−

=

YY

YY

YY

YM

n

..

..2

1

0

La matriz M0 , al igual que las matrices similares a ella, es simétrica e idempotente. Cabe

mencionar que esta matriz cumple con otras propiedades importantes, las cuales nos serán de mucha utilidad para las estimaciones que desarrollaremos posteriormente:

( ) nnM 010 = (3.33)

eeM =0 (3.34)

Nótese que la última propiedad se cumple porque el valor medio de los errores estimados es igual a cero y, por tanto el vector e ya se encuentra en forma de desviaciones.

Ahora, premultipiquemos la expresión (3.31) por la matriz M0 y utilicemos las propiedades

definidas en (3.33) y (3.34). Así, obtenemos:

eXMYM +β= 2200 ˆ (3.35)

Nótese que este modelo muestra la notación matricial del modelo definido en (3.27).

Page 22: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

72

Premultipicando por 2X ′ obtenemos13:

220202 β′=′ XMXYMX (3.36)

Por último, recordemos que la matriz M0 es idempotente por tanto, podemos reexpresar a

(3.36) como:

( ) ( ) ( ) 22020020ˆ'' β= XMXMYMXM (3.37)

Analicemos ahora la expresión anterior. Ésta se interpreta como un sistema de (k-1)

ecuaciones normales en términos de desviaciones. Así, definimos las siguientes variables:

220 xXM =

yYM =0

donde, x2 es una matriz de dimensión n x (k-1) que muestra al conjunto de las variables explicativas en forma de desviaciones. A su vez, y representa al vector de desviaciones de la variable endógena y es de dimensión (n x 1). Por lo tanto, el sistema (3.37) es equivalente a:

( ) ( ) 2222 βxxyx ′=′ (3.38)

De esta manera, la expresión (3.38) muestra que cuando transformamos las variables del modelo original en un sistema de (k-1) ecuaciones normales podemos resolverlo de la misma forma que el propuesto en (3.4). Puesto que, el modelo en desviaciones solamente nos permite obtener los estimadores de las pendientes y no del intercepto, éste se obtendrá premultipicando el modelo particionado definido en (3.31), por (1/n)1'n :

)eˆX(1n

1Y1

n

1 'n

'n +β

=

21 ˆXˆˆXY β+β=β=

[ ]

β

ββ

=

k

2

1

k32 ..X...XX1Y

kk221 Xˆ...XˆYˆ β−−β−=β (3.39)

Ahora tratemos de expresar tanto la SCT como la SEC en términos del modelo en diferencias. Premultipliquemos la ecuación (3.35) por Y' :

13 Recuérdese que 02 =′ eX por el supuesto de ortogonalidad entre las variables independientes y el error. Véase la

expresión (3.7).

Page 23: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

73

eYˆXMYYMY 2200 ′+β′=′

e)'eˆX(ˆXM)'eˆX(YMY 2200 +β+β+β=′

e'eˆXM'eeXˆˆXMXˆYMY 2202200 +β+′β′+β′β′=′

e'eˆXMXˆYMY 220220 +β′β′=′ (3.40)

donde hemos utilizado: ( )β=β ˆXXMˆXM 2100

( ) 220220n ˆXMˆXMO β=β=

0Me 0 =′ La última expresión se cumple por la condición de ortogonalidad dada anteriormente. Así,

podemos expresar la ecuación (3.40) como:

STC = YMY 0′

SEC = 22022 ˆXMXˆ β′β′ SRC = e'e De esta manera, podemos calcular el coeficiente de determinación (R2) para este modelo y

notar sus diferencias con el modelo original:

YM'Y

e'e1

STC

SECR

0

2 −==

YM'Y

ˆXMXˆ

0

22022 β′β′=

YM'Y

YMXˆ

0

022 ′β′= (3.41)

donde la expresión anterior se cumple por el resultado obtenido en (3.36).

33..1100 IINNTTEERRPPRREETTAACCIIÓÓNN GGEEOOMMÉÉTTRRIICCAA DDEE MMCCOO

Introducción Recordemos que el método de estimación más comúnmente usado y uno de los más

estudiados en el análisis econométrico es el de Mínimos Cuadrados Ordinarios. Cabe distinguir entre dos variantes de tal método: Mínimos Cuadrados Ordinarios (MCO) y Mínimos Cuadrados no lineales. Por el Capítulo 1 sabemos que, la línea de regresión MCO tiene como supuesto la linealidad en todos los parámetros. Mientras que en la segunda variante, y tal como su nombre lo indica, no se cumple tal supuesto. Para fines de este capítulo, sólo nos interesa discutir la estimación MCO de un modelo lineal, ya que la comprensión de la regresión lineal y del método MCO como método de estimación de ella es esencial para entender el resto de Capítulos de este libro.

Nótese que existe una distinción importante entre las propiedades numéricas y las

estadísticas de los estimadores obtenidos usando MCO. Las propiedades numéricas son aquellas

Page 24: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

74

que se mantienen como consecuencia del uso de MCO, sin importar la generación de los datos. Recordemos que estas propiedades fueron verificadas por reemplazos y cálculos directos14. Por otro lado, las propiedades estadísticas se mantienen sólo bajo ciertos supuestos acerca de la generación de los datos15.

A continuación discutiremos la interpretación geométrica de las propiedades numéricas de

MCO, pues todas estas propiedades pueden interpretarse en términos de la geometría Euclideana.16

La Geometría de Mínimos Cuadrados Recordemos el modelo de regresión lineal general:

ikikiiii XXXXY µ+β++β+β+β= ...332211

µβ += XY

donde, la variable dependiente representa a un vector de dimensión n y donde los regresores forman una matriz de dimensión (nxk). Cada columna de X que contienen a las observaciones correspondientes a cada regresor y la variable dependiente pueden ser concebidos como puntos en el espacio n-dimensional Euclidiano. Por otro lado, las variables explicativas son linealmente independientes y conforman el sub-espacio k-dimensional de En, al cual denotaremos formalmente como S(X).

Estrictamente hablando, nosotros podemos definir S(X) como el sub-espacio conformado por

todas las columnas de X. Aunque, lo podemos definir simplemente como el espacio de las X. Por otro lado, la dimensión de S(X) es igual al rango de la matriz X17 ))(( kX =ρ . De esta

manera, asumimos que k es estrictamente menor que n (k < n). El complemento ortogonal de S(X) en En , el cual es denotado por S⊥ (X), esta formado por

todos los puntos en el espacio n dimensional de X que son ortogonales a S(X). Una vez definidos estos conceptos estamos listos para entender la interpretación geométrica del estimador MCO. La idea de este estimador es descomponer el espacio definido por la variable dependiente, Y, que es de dimensión n en dos sub-espacios que sean ortogonales entre sí. Intuitivamente ello implica que queremos descomponer a la variable dependiente en una parte que sea explicada por las variables independientes y que esta parte explicada sea construida de tal manera que implique que se extrae toda la información contenida en estas variables. Una forma de asegurar esto es que esta parte explicada sea ortogonal a la parte no explicada. Esto porque la ortogonalidad entre dos espacios implica que no existe relación alguna entre ellos. En otras palabras, no existiría forma de explicar aquella parte no explicada a partir de información contenida en las variables explicativas. Adicionalmente, podemos decir que si se cumple esta condición el modelo puede escribirse de manera aditiva, es decir, como la suma de dos partes: una predecible y una no predecible.

Teniendo en cuenta lo anterior, pensemos en nuestra descomposición. Uno de los objetivos

es lograr que la parte explicada por el modelo sea la mayor posible. Para entender esto usemos

14 Véase las 4 primeras propiedades de la sección (2.3). 15 Una de las propiedades estadísticas más importante es el insesgamiento, al verificar esta propiedad suponemos que la distribución de los errores es normal. 16 Se define un espacio Euclidiano como aquél que cumple con las propiedades de cerradura interna y cerradura externa. 17 El rango de una matriz es igual al número de columnas linealmente independientes.

Page 25: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

75

un gráfico que nos permita ilustrar lo que está en juego. Para simplificar el análisis supongamos que n=2 y k=1

Figura 3.3

El vector que parte del origen representa a la variable dependiente Y. En los ejes tenemos los espacios ortogonales (cada uno de dimensión 1). Aquel definido por la variable explicativa es S(X) y está representado por el eje horizontal y su complemento ortogonal está representado en el eje vertical. Si queremos que la parte explicada sea la mayor posible, gráficamente debemos encontrar el punto en S(X) que esté lo más cerca posible a Y. Existen diversas opciones para ello. Sin embargo, sabemos que la distancia más corta estará representada por una línea que sea perpendicular a S(X). El punto que representa esta distancia más corta será denotado por βX . Existen otras alternativas como puntos tiene S(X). Por ejemplo, β~X

representa a uno de estos puntos, pero se puede apreciar que βX implica una distancia menor y

es posible demostrar que la menor distancia es reflejada por este punto. Entonces βX puede interpretarse como la proyección ortogonal de la variable dependiente en el espacio definido por las X (S(X)).

Por otro lado, sabemos que todos los puntos del espacio S⊥ (X) son ortogonales a los puntos

de S(X) lo que significa que representa aquella parte no explicada por el modelo, es decir los errores )ˆ( eXY =− β . Dado que βX representa al punto donde la línea que parte de Y es perpendicular a S(X), en dicho punto el espacio definido por X deberá ser perpendicular al otro espacio que representa a los errores. Formalmente ello implica que deberá cumplirse la siguiente condición 0)ˆ(' =− βXYX . Recordemos que esta es la condición de ortogonalidad de donde se obtienen los estimadores MCO. Por tanto el vector de parámetros β es aquel que descompone al espacio en el cual está definido la variable dependiente en dos ub-espacios que son ortogonales entre sí.

Otra forma de abordar el problema y obtener un estimador para β es el siguiente. Si nosotros

queremos hallar el punto en S(X) que es más cercano al vector Y, el problema se cifra en la solución de una minimización (con respecto a la elección de β ) de la distancia entre Y y S(X).

El punto en S(X) que representa esto es βX . La distancia entre estos puntos está dada por el error del modelo. Minimizar la distancia es equivalente a minimizar el cuadrado de esta distancia, es decir minimizar la norma del vector de errores18. Formalmente podemos plantear el problema de la siguiente manera:

18 Debemos recordar que en el caso que se utilizó como ejemplo anteriormente se supuso que el número de observaciones era 2. En este caso se pierde un grado de libertad por la existencia de un parámetro así que sólo se

Page 26: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

76

Min β− ˆXY 2

β

Min( Y - X β )’ ( Y - X β )

β Entonces podemos observar que la minimización de la distancia entre Y y S(X) nos lleva al

planteamiento del estimador de mínimos cuadrados ordinarios. De esta manera comprobamos que nuestro estimador MCO resuelve un problema de hallar dos espacios ortogonales en los cuales se puede descomponer la variable dependiente.

Ahora, reemplacemos el estimador obtenido por el proceso de minimización de MCO (3.6)

en el vector de la variable endógena estimada:

YPYXXXXXY x==β= − ')'(ˆˆ 1 (3.42)

La ecuación anterior define una matriz ')'( 1 XXXXPx−= , de dimensión (nxn), dicha

matriz proyecta al vector Y ortogonalmente en S(X). Es decir, Px es un ejemplo de una matriz de “proyección ortogonal”.

Por otro lado, asociada a Px existe una matriz que proyecta a Y en el complemento ortogonal

de S(X), es decir en S⊥ (X):

[ ] YMYXXXXIYXXXXYXY x=′′−=−=− −− 11 )(')'(β (3.43)

La matriz Mx es por tanto la matriz de proyección ortogonal de la variable Y en el espacio definido por los errores del modelo. Recordemos que esta matriz ya ha sido definida y sus propiedades han sido estudiadas. Nótese, que las matrices definidas líneas arriba son simétricas, idempotentes y además cumplen con las siguientes propiedades:

nxx IPM =+ (3.44)

0=xx MP (3.45)

Por la ecuación anterior, se verifica que cualquier punto en En, como βX o Y es igual a:

β+β=β ˆˆˆ XPXMX xx

YPYMY xx += (3.46) En función a los anteriores resultados y lo estudiado hasta ahora podemos interpretar cada

uno de los componentes de las expresiones anteriores como:

YM x = vector de residuos de la regresión.

PxY = vector de valores estimados de Y.

toma en cuenta un error. Sin embargo el análisis se puede generalizar para un número mayor de observaciones. Recue´rdese que el objetivo del estimador MCO es minimizar la suma de errores elevados al cuadrado que es similar a la minimización de la norma de un vector.

Page 27: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

77

Ahora, utilizaremos la interpretación geométrica de MCO para establecer algunas

propiedades importantes del modelo de regresión lineal. De esta manera, por la la ecuacióon (3.43) y por la descripción anterior de PxY y MxY, tenemos que:

0)()'( =YMYP xx (3.47)

por lo que, se verifica que el residuo es ortogonal al valor estimado de Y. Gráficamente, podemos observar la descomposición ortogonal de la variable explicada (Y): S⊥ (X)

S(X)

YPx

φ YM x

Figura 3.4

Dado que las matrices ortogonales definidas, son idempotentes. Resulta sencilla la estimación de MCO. Así, podemos reexpresar el problema de minimización descrito anteriormente:

( Y - X β )’ ( Y - X β ) = )()'( YMYM xx

= )()'( YMYM xx YMYYMMY xxx '' == (3.48)

= 2YM x

Asismismo, la suma explicada de cuadrados (SEC) resulta:

)()'()ˆ()'ˆ( YPYPXX xx=ββ

2'' YPYPYYPPY xxxx === (3.49)

La expresiones (3.46) y (3.47) indican que la suma de residuos al cuadrado y la suma

explicada de cuadrados son simplemente la norma de ciertos vectores denominados las proyecciones de Y (Mx y Px) sobre los subespacios de S⊥ (X) y S(X), respectivamente. Esto se puede mostrar gráficamente en la figura (3.4).

Ahora, notemos que la distancia entre Y y PxY es YM x , la distancia entre el origen y PxY

es YPx , y la distancia entre el origen e Y es Y . Así, resulta útil aplicar el teorema de

Pitágoras:

222 MxYPxYY += (3.50)

Page 28: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

78

Esta expresión muestra que la suma total de cuadrados o STC, de la variable dependiente es

igual a la suma explicada de cuadrados (SEC) más la suma de residual de cuadrados (SRC). Recordemos que, el coeficiente de determinación (R2) lo definimos como:

2

2

2

22 11

Y

MxY

Y

PxY

STC

SRC

STC

SECR −==−== (3.51)

o en términos trigonométricos19:

2

2

2

22 1cos

Y

MxY

Y

PxYR −==φ=

Como conclusión de esta sección podemos decir que nuestro estimador MCO responde a una

necesidad de descomponer en dos conjuntos ortogonales entre sí el conjunto en donde está definida la variable dependiente. Adicionalmente todos los resultados estudiados anteriormente así como el coeficiente de determinación tienen también una interpretación geométrica. Será importante retener estos conceptos porque serán utilizados a lo largo del libro.

33..1111 EESSTTIIMMAACCIIÓÓNN MMCCOO DDEE LLAA VVAARRIIAANNZZAA DDEELL TTÉÉRRMMIINNOO DDEE EERRRROORR Cuando se estudió la eficiencia del estimador MCO un término que forma parte de la

varianza del estimador es 2µσ la cual es la varianza del término de error. Si bien hemos

analizado el impacto que tiene esta expresión en la varianza del estimador hemos estado hablando siempre del término teórico y por tanto desconocido. Por tanto, debemos hallar una forma de estimar esta magnitud a fin de que podamos también construir un estimado de la varianza de los estimadores hallados.

El camino frecuentemente utilizado es construir un estimador ad-hoc de tal forma que

cumpla con algunas de las propiedades deseadas como es la de insesgamiento. Dado que hasta el momento no hemos trabajado con otro tipo de estimador, es importante obtener dicho estimador insesgado. Una estrategia utilizada frecuentemente –y que aquí vamos a utilizar- es partir analizando la suma de errores al cuadrado (SRC). De esta forma obtendremos la esperanza matemática de esta expresión y veremos que transformación debemos hacer a la expresión resultante para obtener un estimador insesgado. Si recordamos la SRC viene dada por:

[ ]µµµµ XXXXIMeeSRC x ′′−′=′=′= −1)( (3.52) Es importante expresar la SRC en términos del error teórico porque cuando apliquemos el

operador de esperanza utilizaremos las propiedades del error teórico que ya han sido definidas en el capítulo I. Sin embargo, antes de continuar con el análisis debemos definir algunas propiedades que serán de mucha utilidad:

19 Recuérdese que el coseno de un ángulo de un triángulo rectángulo, en nuestro caso (φ), es igual al cateto opuesto

entre la hipotenusa.

Page 29: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

79

1. Si queremos analizar la traza de un producto de matrices, las trazas serán las mismas si alteramos el orden de las matrices siempre y cuando estas sean conformables. Esto es lo que se llama la propiedad de las permutaciones cíclicas. Formalmente:

Tr(ABC) = Tr(CBA) = Tr(BCA) 2. La traza20 de la esperanza de una matriz es igual a la esperanza de a traza. Formalmente: E[Tr (ABC)] = Tr [ E (ABC)]

Ahora pongamos en acción estas dos propiedades para calcular la esperanza de la SRC:

[ ] [ ])()()( µµµµ ′=′= xx MTrEMTrESRCE (3.53) Aquí, en la última transformación hemos hecho uso de la propiedades de las permutaciones

cíclicas. Si hacemos el intercambio cambio de esperanza y traza y recordamos que la matriz Mx contiene elementos fijos por lo que la esperanza se aplica a la expresión del términos de error, obtenemos:

[ ] [ ] [ ] [ ]xnxxx MTrIMTrEMTrMETr 22)()( µµ σσµµµµ ==′=′ (3.54)

Estos resultados se obtienen a partir de la segunda propiedad del modelo presentada en el

capítulo I que supone que el error no presenta autocorrelación ni heterocedasticidad. Como la varianza del error es una constante puede salir fuera de la traza. Ahora lo que nos queda analizar es la traza de Mx:

[ ] [ ] [ ] [ ][ ]

[ ] [ ] [ ] kITrXXXXTrXXXXTr

nITr

XXXXTrITrXXXXITrMTr

k

n

nnx

==′′=′′

=′′−=′′−=

−−

−−

11

11

)()(

)()(

(3.55)

Para estos resultados hemos hecho uso nuevamente de la propiedad de permutaciones

cíclicas y del hecho de que la traza de una matriz identidad de orden n es igual a n y la traza de una matriz identidad de orden k es igual a k. Combinando todos los resultados obtenemos lo siguiente:

)()( 2 knSRCE −= µσ (3.56)

Si queremos obtener un estimador de la varianza que sea insesgado, la transformación obvia

que tendríamos que hacer a la expresión anterior es dividirla por (n-k). Por lo tanto el estimador MCO de la varianza del error que se deriva de toda nuestra exposición sería el siguiente:

kn

ee

−′

=2ˆµσ (3.57)

Queda para el lector la comprobación de que este estimador es insesgado. La mayor parte de

los pasos a realizar ya se han hecho así que no deberá haber mucha dificultad en comprobar este resultado. Algo que debemos notar es que para la obtención de este estimador no se ha utilizado ningún criterio de optimización como puede ser la minimización de la suma de errores al

20 Por si no lo recuerdan la traza de una matriz es la suma de los elementos de los elementos de la diagonal principal de esta matriz, siempre y cuando ésta sea cuadrada.

Page 30: Libro cap 3

Econometría Moderna MCO: El Modelo Lineal General

80

cuadrado o la maximización de la probabilidad de ocurrencia de una muestra21 ni nada parecido. El estimador ha sido construido de manera ad-hoc para cumplir con la propiedad de insesgamiento. La razón para ello es que, como veremos más adelante, no existe ningún estimador insesgado de la varianza del error que se pueda obtener a través de un criterio que busque optimizar alguna expresión. Esto no quiere decir que no se pueda utilizar sino que habrá que analizar sus propiedades asintóticas como ya fueron definidas anteriormente. El análisis de este tipo de propiedades se verá más adelante en el capítulo 10 del presente libro.

En función a las resultados obtenidos podemos ahora definir algunas expresiones que serán

de mucha utilidad y que se utilizan bastante en el análisis que efectúan la mayoría de paquetes econométricos. La primera de ellas es el error estándar de la regresión (standard error of regresión) que no es otra cosa que la raíz cuadrada de la varianza estimada del error 8 es decir la desviación estándar).

2ˆˆregresión la deestándar error µµ σσ == (3.58)

Adicionalmente estamos en condición ahora de presentar la varianza estimada de los

parámetros estimados por MCO:

12 )(ˆ )ˆ( −′′= XXestimadaVar µσβ (3.59)

Esta expresión es la que se utilizará en todos los cálculos a realizarse por los paquetes

estadísticos especializados en la estimación de modelos econométricos.

33..1122 AA MMAANNEERRAA DDEE CCOONNCCLLUUSSIIÓÓNN En este capítulo hemos presentado el estimador MCO multivariado para el cual se han

utilizado herramientas matriciales. Se han definido y comprobado las principales propiedades del estimador MCO que es recomendable que sean ya incorporados en la mente del lector. Esto porque los resultados aquí presentados –que son los fundamentos del estimador MCO y del modelo lineal general- serán la base para entender la lógica y resultados de otro tipos de modelos y estimadores. Adicionalmente cuando se empiece a analizar las anomalías del modelo lineal general más adelante se hará uso de las propiedades y resultados presentados aquí. Es importante entender la intuición y significado del estimador MCO porque los principios estudiados hasta aquí marcan la pauta para lo que será analizado más adelante.

21 Como veremos más adelante, este último criterio es el que guía al estimador de máxima verosimilitud.