econometria puc

Upload: francisco-silva-loyola

Post on 17-Jul-2015

451 views

Category:

Documents


4 download

TRANSCRIPT

PONTIFICIA UNIVERSIDAD CATOLICA DE CHILE ESCUELA DE INGENIERA DEPARTAMENTO DE INGENIERA DE TRANSPORTE ICT-2950 Tpicos de Econometra Profesor: Louis de Grange C. APUNTES DE CLASES ICT-2950 TPICOS DE ECONOMETRA (VERSIN 1erSEMESTRE 2005) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile iiNDICE Pg. 1REPASO DE MATRICES Y ANLISIS DE DATOS .................... 1-1 1.1Operaciones con Matrices.................................................... 1-1 1.1.1Matrices Especiales................................................................... 1-11.1.2Suma ......................................................................................... 1-2 1.1.3Multiplicacin............................................................................ 1-21.1.4Operador de Kronecker ........................................................... 1-2 1.1.5Matrices Particionadas ............................................................. 1-3 1.1.6Matriz Inversa ........................................................................... 1-3 1.1.7Matriz Traspuesta ..................................................................... 1-3 1.1.8Traza de una Matriz................................................................. 1-4 1.1.9Matrices Ortogonales............................................................... 1-4 1.1.10 Vectores Caractersticos y Valores Propios .............................. 1-5 1.1.11 Rango de una Matriz................................................................ 1-7 1.1.12 Formas Cuadrticas de una Matriz.......................................... 1-7 1.1.13 Diferenciacin de Matrices....................................................... 1-8 1.1.14 Series de Taylor ........................................................................ 1-9 1.2Anlisis de Datos..................................................................... 1-9 1.2.1Tipos de Variables .................................................................... 1-9 1.2.2Media, Varianza, Covarianza y Correlacin....................... 1-10 1.2.3Medidas de Dependencia Lineal de los Datos..................... 1-12 1.2.4Datos Atpicos (Outliers)........................................................ 1-12 2REGRESIN LINEAL MLTIPLE......................................... 2-15 2.1Supuestos del Modelo ......................................................... 2-16 2.1.1Hiptesis Sobre la Perturbacin ............................................ 2-16 2.1.2Hiptesis sobre las Variables Explicativas ............................ 2-17 2.1.3Hiptesis sobre los Parmetros del Modelo ......................... 2-17 2.2Estimacin por Mnimos Cuadrados Ordinarios (MCO)2-18 2.2.1Vector de Parmetros............................................................. 2-18 2.2.2Aspectos Algebraicos y Propiedades de los Estimadores (Muestras Finitas y Muestras Grandes)................................. 2-20 2.2.3Teorema Central del Lmite.................................................... 2-22 ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile iii2.2.4Indicadores de Bondad de Ajuste......................................... 2-23 2.2.5MCO vs Mxima Verosimilitud............................................. 2-25 2.2.6Interpretacin Econmica...................................................... 2-28 3INFERENCIA Y PRECICCIN............................................. 3-29 3.1Contraste de Restricciones................................................... 3-29 3.1.1Contraste de una Restriccin Lineal....................................... 3-293.1.2Contraste de Restricciones Lineales Conjuntas ..................... 3-30 3.1.3Contraste Basado en una Regin de Confianza.................. 3-31 3.1.4Mnimos Cuadrados Restringidos.......................................... 3-323.1.5Contraste de Restricciones No Lineales ................................ 3-33 3.2Prediccin............................................................................... 3-34 3.3Estimacin por Mnimos Cuadrados Generales (MCG) 3-37 4ESPECIFICACIN........................................................... 4-404.1Variables Ficticias ................................................................. 4-40 4.1.1Cambio Estructural en el Intercepto....................................... 4-42 4.1.2Cambio Estructural en la Pendiente....................................... 4-42 4.1.3Cambio Estructural en el Intercepto y la Pendiente .............. 4-43 4.2Variables No Lineales .......................................................... 4-43 4.2.1Transformaciones Generales ................................................. 4-44 4.2.2Transformacin Box - Tidwell................................................. 4-45 4.2.3Transformacin Box - Cox ..................................................... 4-46 4.2.4Otras Transformaciones de Variables ................................... 4-48 4.3Modelos No Lineales ........................................................... 4-49 4.3.1Modelo de Regresin Linealizado en Parmetros................ 4-50 4.3.2Modelo de Regresin Linealizado en Variables................... 4-51 4.4Especificacin de Variables ................................................ 4-52 4.4.1Seleccin de Variables .......................................................... 4-52 4.4.2Variables Omitidas ................................................................ 4-53 4.4.3Variables Superfluas .............................................................. 4-55 5TEMAS ESPECFICOS...................................................... 5-56 5.1Ortogonalidad....................................................................... 5-56 5.2Multicolinealidad .................................................................. 5-58 5.2.1Definicin de Multicolinealidad ............................................ 5-58 (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile iv5.2.2Causas de la Multicolinealidad ............................................ 5-59 5.2.3Efectos de la Multicolinealidad............................................. 5-59 5.2.4Deteccin de la Multicolinealidad y su Magnitud ............... 5-63 5.2.5Correccin de la Multicolinealidad ...................................... 5-66 5.2.6Mtodo de Componentes Principales ................................... 5-68 5.3Contrastes Multivariantes..................................................... 5-74 5.3.1Contraste de Razn de Verosimilitud.................................... 5-74 5.3.2Contraste Para Matriz de Varianzas y Covarianzas Igual a la Identidad................................................................................ 5-75 5.3.3Contraste Para Matriz de Varianzas y Covarianzas Escalar (Esfrica)................................................................................. 5-76 5.3.4Contraste Para Matriz de Varianzas y Covarianzas Diagonal (No Esfrica) .......................................................................... 5-76 5.4Heterocedasticidad .............................................................. 5-77 5.4.1Definicin de Heterocedasticidad......................................... 5-77 5.4.2Causas de la Heterocedasticidad......................................... 5-78 5.4.3Efectos de la Heterocedasticidad.......................................... 5-80 5.4.4Deteccin de la Heterocedasticidad..................................... 5-83 5.4.5Correccin de la Heterocedasticidad ................................... 5-90 5.5Autocorrelacin..................................................................... 5-93 5.5.1Definicin de Autocorrelacin............................................... 5-93 5.5.2Causas de la Autocorrelacin............................................... 5-94 5.5.3Efectos de la Autocorrelacin................................................ 5-95 5.5.4Deteccin de la Autocorrelacin........................................... 5-96 5.5.5Estimacin bajo Autocorrelacin......................................... 5-100 5.6Asimetra, Curtosis y Normalidad.................................... 5-102 5.6.1Asimetra............................................................................... 5-102 5.6.2Curtosis................................................................................. 5-103 5.6.3Estadstico Jarque-Bera de Normalidad.............................. 5-104 5.7Contrastes de Datos Atpicos ........................................... 5-104 6EXTRAPOLACIN Y SUAVIZAMIENTO............................. 6-106 6.1Extrapolacin de Series de Tiempo ................................ 6-106 6.1.1Modelos de Extrapolacin Simple...................................... 6-106 6.1.2Modelos de Promedio Mvil............................................... 6-107 ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile v6.2Suavizamiento de Series de Tiempo............................... 6-108 6.3Estimacin y Pronstico de Modelos de Tendencia..... 6-109 7SERIES DE TIEMPO....................................................... 7-110 7.1Procesos Estocsticos ........................................................ 7-110 7.2Estacionariedad.................................................................. 7-111 7.2.1Estacionariedad Estricta....................................................... 7-111 7.2.2Estacionariedad Dbil.......................................................... 7-1117.2.3Funcin de Autocorrelacin Simple (FAS) .......................... 7-113 7.2.4Funcin de Autocorrelacin Parcial (FAP)........................... 7-115 7.2.5Proceso Ruido Blanco.......................................................... 7-116 7.3Ergodicidad ........................................................................ 7-119 7.4Teorema de Wold.............................................................. 7-120 7.5Retardos y Diferencias ...................................................... 7-121 7.5.1Operador de Retardos......................................................... 7-1217.5.2Operador de Diferencias..................................................... 7-121 7.6Ecuaciones de Diferencias................................................ 7-122 7.6.1Definicin ............................................................................. 7-122 7.6.2Solucin Recursiva............................................................... 7-123 7.6.3Solucin Analtica................................................................ 7-123 7.7Crculo Unitario .................................................................. 7-130 8PROCESOS MEDIA MVIL ............................................ 8-133 8.1Procesos MA(1) ................................................................. 8-133 8.2Procesos MA(2) ................................................................. 8-136 8.3Procesos MA(q) ................................................................. 8-137 8.4Invertibilidad de los Procesos MA(q).............................. 8-138 8.5Estimacin de Procesos MA(q) ........................................ 8-139 8.6Pronsticos con Procesos MA(q)..................................... 8-142 9PROCESOS AUTORREGRESIVOS..................................... 9-146 9.1Procesos AR(1)................................................................... 9-146 9.1.1Media................................................................................... 9-146 9.1.2Varianza............................................................................... 9-147 9.1.3Autocovarianza.................................................................... 9-147 9.1.4Autocorrelacin.................................................................... 9-148 (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile vi9.2Procesos AR(2)................................................................... 9-151 9.2.1Media................................................................................... 9-151 9.2.2Varianza............................................................................... 9-151 9.2.3Autocovarianza.................................................................... 9-152 9.2.4Autocorrelacin.................................................................... 9-152 9.3Procesos AR(p) ................................................................... 9-154 9.4Estimacin de Procesos AR(p).......................................... 9-157 9.5Pronsticos con Procesos AR(p) ...................................... 9-157 9.6Regla de la Cadena Para Pronosticar AR(p)................. 9-159 9.7Dualidad entre Procesos AR y MA ................................. 9-160 9.8Procesos ARMA(p,q)......................................................... 9-161 9.9Pronsticos de Modelos ARMA(p,q) .............................. 9-163 9.10Procesos ARIMA(p,i,q) ..................................................... 9-165 9.11Procesos Estacionales........................................................ 9-166 9.11.1 Estacionalidad Mediante Variables Dicotmicas ............... 9-167 9.11.2 Procesos Autorregresivos Estacionales................................ 9-168 9.11.3 Estacionariedad del AR(p) Estacional ................................. 9-168 9.11.4 Procesos Medias Mviles Estacionales............................... 9-169 9.11.5 Identificacin de s................................................................ 9-170 10VECTORES AUTORREGRESIVOS.................................... 10-171 10.1Estructura Bsica..............................................................10-171 10.2Estacionariedad del VAR................................................10-172 10.3Resagos ptimos VAR(p) ...............................................10-174 10.4Estimacin e Identificacin de Parmetros VAR(p) .....10-175 10.5Funcin Impulso Respuesta.............................................10-176 10.6Pronsticos en el VAR(p).................................................10-177 11PROCESOS ESTOCSTICOS NO ESTACIONARIOS ............ 11-178 11.1Paseo Aleatorio................................................................11-178 11.2Procesos ARIMA..............................................................11-182 11.2.1 Identificacin de Procesos ARIMA....................................11-183 11.2.2 Estimacin de Procesos ARIMA.........................................11-187 11.2.3 Inicializacin de la Serie ...................................................11-188 ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile vii11.2.4 Validacin de Procesos ARIMA ........................................11-190 11.2.5 Prediccin con Procesos ARIMA .......................................11-196 11.3Orden de Integracin de una Serie: Mtodos No Paramtricos .....................................................................11-200 11.3.1 Anlisis de la Funcin de Autocorrelacin .......................11-200 11.3.2 Sobrediferenciacin...........................................................11-202 11.3.3 Anlisis de la Varianza......................................................11-203 12RACES UNITARIAS Y COINTEGRACIN................ 12-204 12.1Tendencias Determinsticas y Estocsticas ...................12-205 12.1.1 Tendencia Determinstica...................................................12-205 12.1.2 Tendencia Estocstica........................................................12-206 12.2Regresin Espuria.............................................................12-209 12.3Deteccin de Races Unitarias .......................................12-211 12.3.1 Anlisis Grfico de la Serie...............................................12-211 12.3.2 Anlisis del Correlograma Simple de la Serie..................12-212 12.3.3 Utilizacin del Estadstico de Durbin - Watson.................12-214 12.4Contraste de Estacionariedad y de Raz Unitaria.......12-215 12.4.1 Contraste de Dickey Fuller (DF) .....................................12-215 12.4.2 Contraste de Dickey Fuller Aumentado (DFA)...............12-221 12.4.3 Contraste de Phillips Perron (PP) ....................................12-222 12.5Cointegracin...................................................................12-223 12.6Deteccin de Cointegracin...........................................12-225 12.6.1 Engle y Granger.................................................................12-225 12.6.2 Durbin y Watson................................................................12-226 12.6.3 Modelo de Correccin de Errores (MCE).........................12-226 12.7Causalidad........................................................................12-228 13ANLISIS FACTORIAL ................................................ 13-229 13.1Comparacin Entre FA y MCP ......................................13-233 13.2El Modelo de Anlisis Factorial .....................................13-233 13.2.1 Hiptesis del FA.................................................................13-233 13.2.2 Forma Matricial del FA......................................................13-234 13.3Ecuaciones del FA............................................................13-235 13.3.1 No Unicidad de los Factores.............................................13-236 (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile viii13.3.2 Normalizacin del Modelo Factorial................................13-236 13.4Resolucin de las Ecuaciones del FA............................13-237 13.4.1 Nmero de Factores ..........................................................13-237 13.4.2 Mtodo del Factor Principal ..............................................13-238 13.5Determinacin de la Cantidad Apropiada de Factores...... 13-244 13.5.1 Criterios Subjetivos.............................................................13-24413.5.2 Criterios Objetivos .............................................................13-245 13.6Rotacin de Factores.......................................................13-245 13.6.1 Rotacin VARIMAX............................................................13-247 13.6.2 Rotacin Oblicua...............................................................13-248 13.7Cuantificacin de Factores .............................................13-249 13.7.1 Mtodo de Barlett ..............................................................13-250 13.7.2 Mtodo de Thompson .......................................................13-250 13.7.3 Otros Mtodos...................................................................13-251 14ANLISIS DE CONGLOMERADOS (CLUSTER) ................. 14-252 14.1Medidas de Semejanza y Desemejanza.....................14-252 14.1.1 Distancia Mtrica...............................................................14-252 14.1.2 Distancia de Mahalanobis ................................................14-252 14.2Anlisis Grficos ..............................................................14-253 14.2.1 Grficos de Dispersin (Bidimensionales) ........................14-253 14.2.2 Grficos de Dispersin (Tridimensionales)........................14-254 14.2.3 Grficos de Andrews.........................................................14-255 14.2.4 Grficos de Estrellas ..........................................................14-257 14.2.5 Grficos de Caras de Chernoff .........................................14-260 14.3Mtodos de Agrupacin.................................................14-261 14.3.1 Mtodo del Vecino Ms Cercano.....................................14-261 14.3.2 Diagrama de rbol............................................................14-264 14.3.3 Estadstico F de Beale .......................................................14-267 14.4Reduccin de la Escala Multidimensional ....................14-268 ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 1-11REPASO DE MATRICES Y ANLISIS DE DATOS 1.1Operaciones con Matrices Sea la matriz11 12 121 22 21 2........ ........nnm m mna a aa a aAa a a 1 1 1 1 1 1 ]O donde 11 21 112 22 21 2........ ........mm Tn n mna a aa a aAa a a 1 1 1 1 1 1 ]O. 1.1.1Matrices Especiales D = diag(A) es la diagonal de la matriz A de dimensin n x n: 11220 .... 00 0.... ....0 0 ....TnnaaD Da 1 1 1 1 1 1 ]O(1.1) T se denomina triangular superior de la matriz A: 11 12 122 2....0.... ....0 0 ....nnmna a aa aTa 1 1 1 1 1 1 ]O(1.2) In se denomina matriz identidad de dimensin n x n: 1 0 .... 00 1 0.... ....0 0 .... 1I 1 1 1 1 1 ]O(1.3) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 1-21.1.2Suma C A B t esdefinidocomo ij ij ijc a b t dadoqueAyBtienenelmismo nmerodefilasydecolumnas.Esfcildemostrarque:( ) ( ) A B C A B C t t t t y tambin queA B B A + + . 1.1.3Multiplicacin C AB esdefinidocomo ( )1nij ik kjkc a b dadoqueAyBsonmatrices conformables, es decir, A es de r x n y B e de n x p. Debe notarse que: AB yBA no son necesariamente iguales. Se cumple que( ) A B C AB AC t t En general,AB BA Dos vectoresa A yb B son ortogonales( ) a b si ( )10nTi iia b a b ( )1 221nTiia aa a SiAA A se dice que A es idempotente, y en general( ) , 1pA A p > . 1.1.4Operador de Kronecker SiAesdemxnyBedesxt,eloperadordeKroneckerdeAyB, denotado porA B , es una matriz de ms x nt dada por: 11 12 121 22 21 2........ ........nnn n mnaB a B a Ba B a B a BA Ba B a B a B 1 1 1 1 1 1 ]O(1.4) Se cumplen las siguientes propiedades: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 1-3( )( ) ( ) A B C D AC BD ( ) ( ) ( ) ( ) ( ) ( ) A B C D A C A D B C B D + + + + + ( ) ( ) A B C A B C 1.1.5Matrices Particionadas La matrizA de m x n puede ser particionada en 4 sub-matrices de la forma: 11 1221 22A AAA A 11 ] (1.5) Luego, si B es tambin particionada se puede obtener la siguiente expresin: 11 12 11 12 11 11 12 21 11 12 12 2221 22 21 22 21 11 22 21 21 12 22 22A A B B AB AB AB ABABA A B B AB AB AB AB+ +111 111+ + ] ] ](1.6) 1.1.6Matriz Inversa Dada la matrizA de n x n, si existe una matriz B que satisface AB = BA = In, estamatrizBsedenominainversadeA,ysedenota 1B A .Secumplenlassiguientes propiedades: ( )11 1AB B A ( ) ( )111 1 1 1A B A A B B + +1.1.7Matriz Traspuesta Se cumplen las siguientes propiedades: ( )TTA A ( )TT TA B A B t t( )TT TAB BA (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 1-4 ( ) ( )11TTA ASi TA A se dice que A es simtrica TAA y TA A son simtricas ( ) ( )TT TA B A B 1.1.8Traza de una Matriz Latrazadeunamatrizcuadradaconformable Adenxnsedefine como la suma de los elementos de su diagonal:( )1niiitr A a. Debe notarse que: ( ) ( )Ttr A tr A ( ) ( ) ( ) tr A B tr A tr B t t( ) ( ) tr AB tr BA ( ) ( ) tr k A k tr A ( ) ( ) ( ) tr A B tr A tr B Debenotarsequeparaunproductodematricescuyoresultado esunescalar,dichovalortambincorrespondealatrazadelproducto original de las matrices. Es decir, el valor de un escalar es igual a su traza. 1.1.9Matrices Ortogonales Lasmatricesortogonalessonmatricescuadradasquepuedenrepresentarun giroenelespaciorespectoaunplano(ohiperplano).Paracaracterizarestasmatrices, supongamosque,dadounvectorX,loponderamosporunamatriznosingularC,y obtenemos un nuevo vector Y: Y CX (1.7) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 1-5Silaoperacinrealizadaessloungiro,entonceselmduloonormade Y debe ser idntica a la de X, y por lo tanto se cumple: T T T TYY XCCX X X (1.8) Por lo tanto, debe cumplirse que: TCC I (1.9) Lacondicindeortogonalidadeslaqueseobtienede(1.9),dedondese deduce que la matriza traspuesta debe ser igual a su inversa: 1 TC C (1.10) Luego,unamatrizortogonaldebetenerfilas(ocolumnas)que son ortogonales entre s, y de longitud igual a la unidad. 1.1.10Vectores Caractersticos y Valores Propios Dadaunamatrizcuadrada,existendeterminadaspropiedadesdedicha matriz que son invariantes ante transformaciones lineales de dicha matriz de tal forma que se mantiene la informacin existente en la matriz. Algunos ejemplos pueden ser trasponer la matriz o girarla. Los valores propios son las medidas bsicas de tamao de una matriz. Dichas medidasbsicas,comolatrazaoeldeterminante,sonfuncindelosvalorespropios,y sernporlotantoinvariantesantetransformacioneslinealesquepreservenlosvalores propios. Llamaremosvectorespropiosdeunamatrizcuadradadeorden n a aquellos vectores cuya direccin no se modifica al aplicar una transformacin lineal a la matriz. Sea A una matriz de n x n. Existe entonces un vector propiocr que satisface: Ac c r r(1.11) paradeterminadosvaloresconstantesde ,queesunescalar,yquesedenominavalor propio.(CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 1-6Sicr es un vector propio de A, y si multiplicamos (1.11) por cualquier0 , entoncesc rtambinserunvectorpropiodeA.Paraevitarestaindeterminacin, supondremos que1 c r. Luego, existe una solucin no nula (para0 c r) que verifica: det 0 A I (1.12) Laexpresin (1.12) es un sistema de ecuaciones lineal homogneo que tiene una solucin no nula slo si la matriz( ) A I es no singular. El polinomio que se obtiene de (1.12) en funcin de se denomina ecuacin caracterstica. Las soluciones de (1.11) son los vectores caractersticos, y los distintos valores deen(1.12)sonlasracescaractersticas,quesonnmerorealessilamatrizes simtrica.Engeneral,unamatriztieneh n valorespropios.Acadavalorpropiodela matriz podemos asignarle un nico vector propio que satisface (1.11). Debe destacarse que: Sies un valor propio de A, entonces res un valor propio de rALos valores propios de una matriz y su traspuesta son los mismos ( )1niitr A ( )1nr riitr A ( )1 11niitr A 1niiA Los vectores caractersticos de una matriz simtrica son ortogonales Las matrices A y (A + I) tienen los mismos vectores propios, y si es un valor propio de A, + 1 es un valor propio de (A + I) Las matrices ABC, ACB y CAB tienen los mismos valores propios no nulos ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 1-7Si A es triangular, los valores propios son los elementos de la diagonal Enunamatrizsimtrica,losvalorespropiossonnmerosrealesylosvectoresson ortogonales 1.1.11Rango de una Matriz Supongamos una matriz A de m x n con m filas( )1 2, ,....,ma a a . El rango de la matrizAcorrespondealnmerodefilaslinealmenteindependientes.Sielrangoes m,se dice que la matriz es de rango completo. ( ) ( ) ( )T Trango A rango A rango AA ( ) ( ) ( ) { }min ; rango AB rango A rango B El rango tambin corresponde al nmero de races caractersticas distintas de cero en ( )TAA . Si la matriz es simtrica, corresponde al nmero de races caractersticas distintas de cero en A. 1.1.12Formas Cuadrticas de una Matriz Sea una matriz A de n x n simtrica, y ( )1 2, ,....,nx x x x un vector. Entonces laexpresin ( )1 1n nTi j iji jq x Ax x x a sedenominaformacuadrtica,queesun polinomio de segundo grado en x. Si0Tx Ax >entonces A es definida positiva. Si0Tx Ax (1.27) MEDA (xk) es la mediana de las desviaciones absolutas( )ki kx mediana x , que es una medida robusta de las dispersin. Porotraparte,sielnmerodedatosnoesmuygrande,losdiagramasde dispersin pueden ayudar a detectar datos atpicos. Otraalternativacorrespondeaescogerelintervaloquealbergueaun 88,88% de las observaciones. El intervalo ser el siguiente: ( ) ( )( ); 1, 2,....,k k k kx V x x V xk p + (1.28) Sesueleconsiderar=3.Estaexpresinprovienedeladesigualdadde Chebychev,yaqueenelintervalodefinidoseencuentraunaproporcin 211 delas observaciones. Si = 4, se albergan el 93,5% de las observaciones. ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-152REGRESIN LINEAL MLTIPLE Laeconometraeslaaplicacindemtodosestadsticosymatemticosal anlisis de datos, generalmente econmicos, a fin de otorgar un contenido emprico sobre las teoras y verificarlas o refutarlas. El modelo de regresin lineal es el nico escenario en econometra en el que esfactiblecontrastarfehacientementelacapacidaddeprediccindelosmodelos ajustados, mediante la aplicacin de diversos test especficos. Mediante un modelo de regresin lineal mltiple (RLM) tratamos de explicar el comportamientodeunadeterminadavariablequedenominaremosvariableaexplicar, variableendgenaovariabledependiente,(yrepresentaremosconlaletra Y)enfuncin deunconjuntodekvariablesexplicativas 1 2, ,....,kx x x medianteunarelacinde dependencia. ( ) ; Y f X + (2.1) En el caso del modelo de RLM, la forma funcional es la siguiente: Y X + (2.2) 12....nyyYy _ ,, 01....k _ ,, 11 12 121 22 21 21 ....1 ........1 ....kkn n nkx x xx x xXx x x 1 1 1 1 1 1 ],12....n _ , Y es el vector de variables dependientes (n x 1) es el vector de parmetros o coeficientes de calibracin (k + 1 x 1) Xeslamatrizdevariablesindependientesoexplicativas;observacionesconocidas que incluye una columna con unos (n xk +1). Tambin se les denomina regresores. eselvectorde errores o residuos no observados (n x 1); tambin se le denomina perturbacin. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-16Losparmetros midenlaintensidadmediadelosefectosdelasvariables explicativas sobre la variable a explicar y se obtienen al tomar las derivadas parciales de la variable a explicar respecto a cada una de as variables explicativas: jjYx.Elerror,porsuparte,apareceporvariasrazones.Laprimerayms importanteesquenosepuedepretendercaptartodalainfluenciadecadavariabledel modelo,pormuyelaboradoquestesea.Porotraparte,existenengeneralerroresde medicin de las variables explicativas . En sntesis, todo modelo lleva asociado un error. 2.1Supuestos del Modelo Trataremosdeestimarelmodelodemaneraque,losvaloresajustados de la variableendgena,resultentanprximosalosvaloresrealmenteobservadoscomosea posible. Debe notarse que el modelo corresponde a una esperanza condicionada: ( ) / EY X X (2.3) Afindepoderdeterminarlaspropiedadesdelosestimadoresobtenidosal aplicardistintosmtodosdeestimacinyrealizardiferentescontrastes,hemosde especificar un conjunto de hiptesis sobre la RLM que hemos formulado. Existen tres grupos dehiptesis:lashiptesissobreeltrminodeperturbacin,lashiptesissobrelas variables explicativas, y las hiptesis sobre los parmetros del modelo. 2.1.1Hiptesis Sobre la Perturbacin Valor esperado de la perturbacin es cero: ( )0jE, j . Homocedasticidad:todoslostrminosdeperturbacintienenlamismavarianza (varianzaconstante):( ) ( )2i jV V =, i j .Portanto,todoslostrminosde la diagonal principal de la matriz de varianzas y covarianzas sern iguales. ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-17NoAutocorrelacin:loserroressonindependientesunosdeotros,porloquela matrizdevarianzasycovarianzasesunamatrizdiagonal(fueradeladiagonal principaltodosonceros): ( ), 0i jE, i j .Luego,considerandolashiptesis dehomocedasticidadyausenciadeautocorrelacin,lamatrizdevarianzasy covarianzas tiene la siguiente estructura: ( )22220 0 0 ....0 0 0 ........ ....0 0 0 ....V I 1 1 1 1 1 1 ](2.4) La perturbacin o error presenta una distribucin normal: ( )0;2N I : .En sntesis, en un modelo bueno el error es impronosticable. 2.1.2Hiptesis sobre las Variables Explicativas Las variables explicativas son fijas o determinsticas. Lasvariablesexplicativasnoestncorrelacionadasconeltrminodeerroro perturbacin:( ) , 0i iE x, i . Lasvariablesexplicativasnopresentanrelacinlinealexactaentresi(noexiste multicolinelidad). Las variables explicativas son medidas sin error. Enelmodelonoseexcluyenlasvariablesrelevantesytampocoseincluyenlas variablesirrelevantes,alahoradeexplicarelcomportamientodelavariable endgena. 2.1.3Hiptesis sobre los Parmetros del Modelo La nica hiptesis que haremos acerca de los parmetros del modelo es la hiptesis de permanencia estructural, lo que significa que los parmetros poblacionales jse mantienen constantes a lo largo de toda la muestra. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-182.2Estimacin por Mnimos Cuadrados Ordinarios (MCO) 2.2.1Vector de Parmetros LaestimacindeMCOserealizaconelcriteriodeminimizarloscuadrados deloserroresinducidosporelmodelopoblacional.Luego,deberesolverseelsiguiente problema de optimizacin: { }( ) ( ) minTT Q=Y X Y X 144424443(2.5) { }min 0T T T T T T Q YY XY Y X X X + (2.6) y dado que( )TT TX X se obtiene: { }min 2T T T T T Q YY XY X X + (2.7) 2 2 0T T T TQXY X X XY X X + (2.8) SiXtienerango(k+1)delaecuacinnormal(2.8)seobtieneentoncesla siguiente solucin nica: ( )1T TX X XY (2.9) Debenotarsequelaexpresin(2.9)correspondealaraznentrela covarianzadeXeYylavarianzadeX.SiXtienerangomenorque(k+1),esdecir, existedependencialinealenlasobservaciones,delaecuacinnormal(2.8)dejade obtenerse una nica solucin. Porotraparte,laestimacindelavarianzade seobtienede la siguiente manera: ( ) ( )( ) TV E 1 1 ](2.10) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-19( )( ) ( ) ( ) ( ) ( )1 1 TTT T T TE E X X X X X X 1 11 ' ; 111 ] ] ] (2.11) ( ) ( ) ( )( )1 1T T T TV E X X X X X X 1 1 ](2.12) ( ) ( ) ( )1 1T T T TV X X E X X X X 1 ](2.13) ( ) ( ) ( )1 1T T T TV X X X E X X X 1 ] (2.14) ( ) ( ) ( ) ( )1 12T T TV X X X I X X X (2.15) ( ) ( )12TV X X (2.16) Sin embargo, es necesario un estimador de 2 . Es directo demostrar a partir de (2.9)y (2.2) que: ( ) MY MX MX M M + + (2.17) donde ( )( )1T TM I X X X X esunamatrizdenxnsimtrica ( )TM M e idempotente ( )TM MM . Luego, de (2.17) se obtiene: T TM (2.18) ( ) ( ) / /T TE X E M X (2.19) ( ) ( ) / /T TEtr X Etr M X 11 ] ] (2.20) ( ) ( )2 2/Ttr ME X tr M I tr M 11 ] ](2.21) ( ) ( )( )( ) ( )( )1 12 2 2 T T T Tntr M tr I X X X X tr I tr X X X X 1 1 ](2.22) ( ) ( ) ( )2 2n ktr I tr I n k 1 ] (2.23) Por lo tanto se obtiene: (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-20( ) ( )2 /TE X n k (2.24) ( )2 Tn k (2.25) Finalmente, de (2.16) y de (2.25) resulta: ( )( )( )1 TTV X Xn k (2.26) 2.2.2AspectosAlgebraicosyPropiedadesdelosEstimadores(MuestrasFinitasy Muestras Grandes) El estimador MCO es insesgado y eficiente: ( ) ( ) ( )1T TX X X X + (2.27) ( ) ( ) ( ) ( )1 1T T T TX X X X X X X + (2.28) ( ) ( ) ( ) ( ) ( )1 1 T T T TX X X X X X + (2.29) ( ) ( ) ( )1T TE E X X X 1 + 1 ](2.30) ( ) ( ) ( ) ( ) ( )1 1T T T TE E X X X X X E X 1 + + 1 ] (2.31) ( ) ( ) ( ) ( )1T TE X X E X E + (2.32) ( )E (2.33) Para demostrar que presenta la mnima varianza: ( )( )1T Tb X X X CY CY + + (2.34) ( ) ( )( )( )1T TEb X X X C X I CX + + (2.35) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-21( ) ( )( )( )( )1 1TT T T T TV b E X X X C X X X C + +' ; (2.36) ( ) ( )( )( ) ( )( )1 1TT T T T TV b X X X CE X X X C + + (2.37) ( ) ( )( )( )( )1 12TT T T TV b X X X C I X X X C + + (2.38) ( ) ( )( )( ) ( ) ( )12 2 T T TV b X X CC V CC V + + >(2.39) ( )12;TN X X 1 1 ]:(2.40) La primera propiedad tiene que ver con que el valor medio de los residuos es nulo, lo cual implica que la suma de los residuos es igual a cero. Esta caracterstica esbastantetrivialpuessededucedelamismametodologadelosmnimos cuadrados,lacualimponeatravsdesuprimeraecuacinnormalqueestasuma sea cero (columna de unos en matriz X). Si el modelo de regresin posee una constante entonces la primera derivada parcial dellagrangeano(ver(2.8)),oprimeraexpresindeecuacinnormal,indicarque la suma de los residuos muestrales es cero. Sin embargo, si el modelo no posee una constante en su formulacin, esta condicin nonecesariamentesecumplirpuesnuncasurgecomocondicinnecesariade primer orden al no tener nunca que derivar con respecto a este parmetro. Puedesinembargodarseelcasoquelarepresentacindeladatahagaqueeste parmetroseaefectivamentecero,porejemplosilasseriesY,Xseentreganen formadedesviacinde sus propias medias, lo cual implicara que la suma de estos residuos tambin lo ser. De (2.8) se obtiene: ( ) 2 2 0 0T T T TXY X X X Y X X + (2.41) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-22Lasseriesactualesyestimadastienenigualmedia.Estacaractersticase deducedelanocinqueelvaloractualdelavariabledependientesepuede descomponerenloqueestimaelmodeloyelresiduo.Unaimplicanciadeesta condicinesquelametodologadelosmnimoscuadradoshacequelacurvade regresinquepasaatravsdelanubedepuntospasejustoporelpuntoque representa a la media de X y la media de Y . Elhiperplanodelaregresinpasaporelpuntodelasmediasdelosdatos,puesto que la primera ecuacin normal implica Y X . La media de los valores estimados por la regresin es igual a la media de los valores actuales; ello se deduce de (2.8) ya que Y X . Los residuos no se correlacionan con la variable independiente. Los residuos no se correlacionan con la variable dependiente estimada. Todoslosresultadosanterioresrequierenquelaregresintengauntrmino constante. 2.2.3Teorema Central del Lmite Caso univariante: una sola muestra de tamao n con media y varianza 2 . ( )20;dnn x N 1 ](2.42) Caso univariante con desigualdad de varianzas: varias muestra con medias i. y varianzas 2i . ( )20;dn nn x N 1 ](2.43) donde: ( )2 2 2 21 21....nn + + +y( )1 21....n nn + + +ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-23Caso multivariante: un vector de muestras de tamao n con mediar y matriz de varianzas y covarianzas Q. ( ) [ ] 0;dnn X N Q r(2.44) Casomultivariantecondesigualdaddevarianzas:variasmuestracon media ir y matriz de varianzas y covarianzas iQ . ( ) [ ] 0;dn nn X N Q r(2.45) donde:( )1 21lim ....nnQ Q Q Qn + + +y( )1 21....n nn + + +rr r r. Distribucin de una funcin( )ng x : ( ) ( ) ( )( )220;dngn g x g Nx 11 1 1 1 ] ](2.46) Lo anterior se obtiene de estimar la media y la varianza de las extensiones en Series de Taylor de la funcin( )ng x : ( ) ( )( )( )n ngg x g xx + (2.47) Para un conjunto de funciones, el resultados es: ( ) ( ) ( )0;dTnn g x g N g Q g 1 ]r r r r(2.48) 2.2.4Indicadores de Bondad de Ajuste Lo qu se intenta es determinar objetivamente cun bueno es el modelo que se ha ajustado: porcion no explicadaporcion explicadaY X +14424431442443 (2.49) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-24( ) ( ) TTYY X X + + (2.50) T T T TYY X X + (2.51) 1 1T T T T T TT T T TX X X XYY YY YY YY + (2.52) 2 1TTRYY (2.53) Una expresin anloga para 2Res la siguiente: ( )( )( ) ( )2222i iii ii iY Y Y YRY Y Y Y _ , (2.54) Laexpresin(2.54)eslacorrelacinalcuadradoentrelosvalores observadosde Yylasprediccionescalculadasporlaecuacin de regresin estimada. El valor de 2Rindica el porcentaje de la varianza de Y que es explicada por las variables X. Dicho de otra forma, 2Rmide el xito de la ecuacin de regresin, dentro de la muestra, para predecir Y. Sinembargo,lautilizacinde(2.54)comoindicadorgeneraldebondadde ajuste,sibienestericamenterobusta,presentaalgunosproblemas.Elprincipaldeellos hacereferenciaalnmerodegradosdelibertadutilizadosenlaestimacindelos parmetros.Dehecho, 2R nuncadecrecersiseaadennuevasvariablesala ecuacinderegresin.Esrelativamentetrivialdemostrarquealagregarunavariable adicional(ysurespectivoparmetro)almodeloderegresin,seobtieneunnuevo 2Rmayoroalmenosigualqueeloriginal,inclusosilavariableadicionalessuperflua(no aporta informacin). Noobstante,adicionarvariablestieneuncostoentrminosdegradosde libertad,loquesetraduceenunareduccinenlasignificanciadelosparmetrosdelas variables originales. Es por ello que se considera un valor ajustado como el siguiente: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-25( ) ( )( )( )( )( )( )( )( )22 22111 1 1 1 11iiiin n k V R Rn k VYY Yn %%(2.55) Laexpresin (2.55) tiene la ventaja de que podra reducirse si se aade una variablepocoimportantedentrodelconjuntodevariablesexplicativas.Incluso, este valor ajustado podra ser negativo en algunos casos extremos, particularmente cuando el ajuste es deficiente. En el lmite, si Y y X tienen un ajuste cercano a cero ( )20 R , se tendra un valor de 21 kRn k +. Por otra parte, si hay ms de una variable explicativa, 2 2R R < . Finalmente,uncontrastedesignificanciadelaregresincomountodo, correspondeaanalizarsilatotalidaddeloscoeficientes,aexcepcindel intercepto, son distintos de cero. Si todas las pendientes son cero, el coeficiente de correlacin mltiple 2Rtambin lo ser; luego, es posible basarse en el valor de 2Rpara contrastar esta hiptesis. El contraste es el siguiente: ( )( )( )( )21;21 1k n kn k R Fk R (2.56) Valoresgrandesparalaexpresin(2.56)danevidenciaencontradela hiptesis nula (parmetros iguales a cero). 2.2.5MCO vs Mxima Verosimilitud El mtodo de estimacin por MCO consiste en asignar valores numricos a los parmetros desconocidos de manera que la suma cuadrtica de errores sea mnima y slo requierequelamatriz TX X seainvertible.Acontinuacinveremosunmtodode estimacin alternativo, el mtodo de mxima verosimilitud. Debe considerarse que cualquier muestra que presente la misma mediaymismavarianza,presentarporlotantolosmismosvalores estimados para los parmetros. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-26El mtodo de mxima verosimilitud (MV), un mtodo de estimacin alternativo, propone en cambio como un estimador el valor que maximiza la probabilidad de obtener lamuestrayadisponible.ElmtodoMVsebasa,principalmente,enladistribucinque sigueeltrminodeerror.Atalesefectos,sesuelesuponerquelasperturbaciones aleatoriassedistribuyenconunadistribucinNormalque,ademsdecumplirlas propiedades de una muestra grande, es una aproximacin cmoda y fcil de tratar. Suponiendo que el trmino de error sigue una distribucin normal, y dado que la media del error cero, se tiene que: ( )221exp2 2iif _ ,,1,...., i n (2.57) Maximizarlaprobabilidaddeobtenerlamuestrayadisponibleequivale maximizarlafuncindedensidadconjuntadelvectoraleatorio.Paraello,hemosde suponerhomoscedasticidadyausenciadeautocorrelacin.Luego,laexpresindela funcin de densidad conjunta es la siguiente: ( )( )2211exp2 2ni niiif _ _ , ,(2.58) DadoquesigueunadistribucinNormalMultivariantedeordenk,la variableY,alserunacombinacinlinealdelasperturbacionesaleatorias,tambinse distribuir con una distribucin Normal Multivariante. As, para que la funcin de densidad conjunta sea una funcin de verosimilitud, el vector aleatorio ha de expresarse en funcin del vector Y, es decir: ( )( ) ( )221; , exp2 2T nY X Y XLY _ _ , ,(2.59) Maximizarlafuncindeverosimilitud(2.59)equivaleamaximizarla probabilidadquelosdatos(X)provengandeladistribucinconsiderada.Luego,el estimador de mxima verosimilitud maximiza por lo tanto dicha probabilidad.ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 2-27Dadoque(2.59)esunafuncinestrictacrecienteymontona,maximizarla equivale a maximizar una transformacin montona, como por ejemplo logaritmo natural: ( ) ( ) ( ) ( )221ln ln 2 ln 22 2 2T n nL Y X Y X (2.60) Derivando (2.60) respecto a y a 2 , se obtienen los siguientes resultados: ( )1 T TMV MCOX X XY (2.61) ( ) ( )2 2 T TMV MCOn n k < (2.62) Observamos que el estimador de MV de coincide con el MCO, con lo que tendrlasmismaspropiedades:serlineal,insesgado,ptimoyconsistente.Esfcilver que el estimador de MV de 2 , en cambio, resulta diferente del MCO y es sesgado a la baja aunque asintticamente insesgado (cuandon ). ElestimadordeMVesconsistente,asintticamentenormal,asintticamente eficiente e invariante. La matriz de varianzas y covarianzas asinttica del estimador de MV corresponde al negativo de la inversa de la matriz informacional( ) I : ( )2lnTLI E 1 1 ](2.63) ( )121 lnTLI E _1 1 1 ] ] ,(2.64) Notar que en el caso de la distribucin normal, ( )2, . (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 2-282.2.6Interpretacin Econmica Lainterpretacineconmicanospermitecomprobarsilasestimaciones obtenidas son coherentes con la teora econmica. Segn la especificacin del modelo, la interpretacinysignificacindelosparmetrospuedevariar.Sielmodeloest especificadoenniveles,elparmetroreflejaelefectomedioquetieneunavariacin unitaria de la variable explicativa sobre la variable endgena: jjYx(2.65) Encambio,sielmodeloestespecificadoenlogaritmos,losparmetros puedeninterpretarsecomounaelasticidad,comoeselcasodelafuncindeproduccin de Cobb-Douglas: lnlnjjYx(2.66) Recordar que la elasticidad precio-demanda es lnlnQ P QP Q P . ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-293INFERENCIA Y PRECICCIN 3.1Contraste de Restricciones 3.1.1Contraste de una Restriccin Lineal Dadoqueladistribucindeloscoeficientesderegresinpuedenser caracterizadosapartirde ( )12;TN X X 1 1 ]: ,ydadoquesehasupuesto independenciaestadsticaentrelosparmetrosyelvectorderesiduos,entoncesel estadstico: ( )( )( )i in kitse : (3.1) sigueunadistribucintcon(n-k)gradosdelibertad.Notarquealserunanlisis asinttico(ngrande),ladistribucintconvergeaunadistribucinnormal.Notaradems queeltrmino ( )2iiise S ,donde iiS eseli-simoelementodeladiagonalde ( )1TX X. Para llevar a cabo hiptesis sobre el valor de un coeficiente puede emplearse unestadsticodelattradicional.Sielvalordelparmetrocalibrado difiere significativamente del verdadero valor de +deducimos entonces que los datos muestrales no son consistentes con la hiptesis nula. Uncontrastecomnconsisteensiunparmetro essignificativamente distinto de cero. En tal caso, el estadstico es: ( )iitse (3.2) Engeneral,si ( ) / 2 i i ise t > ,donde2 defineelgradode confiabilidadexigidodeladistribucintcon(n-k)gradosdelibertad,entoncesla (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 3-30hiptesis se rechaza y se dice que el coeficiente es estadsticamente significativo; es decir, la variable asociada a dicho componente ayuda a describir el fenmeno estudiado.En otras palabras, t es una medida de la diferencia entre la funcin hipottica delosverdaderoscoeficientesylamismafuncindelasestimacionesdedichos coeficientes.Silahiptesisesverdadera,lasestimacionesdeberanreflejarloalmenos dentrodelosrangosdevariabilidadmuestral.Elvalort=1,96(correspondienteaun grado de significatividad del 95% en muestras grandes) normalmente es el utilizado como valor de referencia. Un intervalo de confianza para iestara dado por: ( ) ( ) ( ) 2 2 1i i i i it se t se < < + (3.3) 3.1.2Contraste de Restricciones Lineales Conjuntas Consideremos las siguientes restricciones lineales del modelo de RLM: 11 1 12 2 1 121 1 22 2 2 21 1 2 2................k kk kp p pk k pR R R qR R R qR qR R R q + + + + + + ;+ + + (3.4) La matriz R tiene k columnas y p filas (restricciones); con las restricciones hay por lo tanto slo k - p parmetros libres. LahiptesisnulacorrespondeenestecasoaR q .Apartirdelvalor numricoquetomeelestadsticodecontrasteesposibledeterminarsiladiferenciaentre Ry q es estadsticamente significativa o no lo es. La regla de decisin es la siguiente: ( ) ( ) ( )( )[ ]11; TT Tp n k TR q RX X R R q pFn k 1 1 ]: (3.5) donde( )2 2 TTn kn k .ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-31Si [ ] ; p n kF F elestadsticodecontrasteseencuentrafueradelareginde aceptacin, lo cual nos lleva a rechazar la hiptesis nula. Por tanto, las restricciones lineales no son ciertas en el mbito de la poblacin. Si [ ] ; p n kF F< elestadsticodecontrastecaedentrodelaregindeaceptacin, conlocualnopodemosrechazarlahiptesisnula.Enconsecuencia,podemos afirmar que las restricciones son ciertas en el mbito de la poblacin. Enelcasoparticularquesedeseetestearquetodoslos kparmetrosdela regresin,exceptolaconstanteointercepto,sonsignificativamentedistintosdecero,se tendr que R = Ik-1 y( ) 0, 0,...., 0 q . Luego, de (3.5) se obtiene: ( ) ( )( )[ ] 1; 1 T Tk n k TX X kFn k :(3.6) y dado que ( )1T TX X XY se obtiene finalmente: ( )( )( )[ ]21;21 1k n kn k RFk R : (3.7) Estaltimaexpresin(3.7)nosindicaqueaquellasregresionesquetienen bajo coeficiente de ajuste, es decir un bajo 2R , tienen a su vez un test F tambin muy bajo, lo cual permitira decir que la probabilidad de rechazar la hiptesis es muy baja. 3.1.3Contraste Basado en una Regin de Confianza EnelmodelodeRLM,unaregindeconfianzaparaunconjuntode coeficientes sera el conjunto de valores para los cuales la hiptesis de que el conjunto de coeficientesverdaderosigualaaestosvaloresnoserarechazada.Elcontrasteeneste caso es: ( ) ( ) ( )[ ]11; 1 2TTT Tp n k- R X X R - Fn k 1 _ 1 , ]:(3.8) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 3-32Enelcasode2parmetros ( ) 1 2 , ,cuyosestimadorespresentendistintas varianzas, la regin de confianza est dada por una elipse en el plano ( ) 1 2 , . 3.1.4Mnimos Cuadrados Restringidos De manera anloga al estimador de MCO, en el caso restringido se resuelve el siguiente problema de optimizacin: { }( ) ( ) minTT Q=Y X Y X 144424443(3.9) s.a.: R =q (2)(3.10) Sin prdida de generalidad, el lagrangeano del problema anterior es: ( ) ( ) ( ) ( ) , 2TL =Y X Y X R q + (3.11) ( )2 2 0T TRLX Y X R + (3.12) ( )2 0TRLR q (3.13) Dividiendo por 2 y desarrollando se obtiene la siguiente matriz particionada: 0T T TRX X R XYR q 111 111 ] ] ] (3.14) Si TX Xes no singular, se obtiene entonces: ( ) ( ) ( )1 1 T T T TRX X R RX X R R q 1 + 1 ](3.15) ( ) ( )11T TRX X R R q 1 1 ](3.16) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-33Delaexpresin(2.9)seobservaque,silarestriccinescorrecta,esdecir, efectivamente ( )R q ,elestimadorrestringidocorrespondealestimadordeMCO ( ) R . Del mismo modo, el parmetro valdra cero. Adicionalmente, se tiene que: ( ) ( ) ( ) ( ) ( )1 1 1 12 2T T T T T TRMatrizPositiva DefinidaV X X X X R RX X R RX X 1 1 ]1444444442444444443(3.17) Luego,elestimadorrestringidopresentamenorvarianzaqueelestimador MCO.Ello se explica por el valor de la informacin contenida en las restricciones, lo que reduce la incertidumbre en la estimacin (ms grados de libertad). 3.1.5Contraste de Restricciones No LinealesElproblemageneralconsisteenelcontrastedelahiptesisqueimplicauna funcin no lineal de los coeficiente de la regresin: ( ) g q (3.18) Analizando el caso de una nica restriccin resulta: ( )( ) ( )( )n kg qtse g: (3.19) La aproximacin lineal en series de Taylor para ( )ig implica lo siguiente: ( )( )( )( ) Tgg g 1 + 1 ](3.20) ( )( )( )( ) Tg gV g V 11 1 11 ] ] ](3.21) ( )( )( )( ) 1 TTTg gV g X Xn k 111 1 111 ] ] ] ](3.22) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 3-34De la expresin ' 2-10( se obtiene el valor requerido: ( ) ( )( )1 2 se g V g 11 ] ](3.23) 3.2Prediccin Juntocon la estimacin de parmetros y la inferencia, el uso ms habitual de la regresin es la prediccin. La prediccin del conjunto de regresores 0Xes la siguiente: 0 0 0Y X + (3.24) Sin embargo, usando el modelo estimado tendramos: 0 0 Y X (3.25) quecorresponde al estimador de ( )0EY . Luego, el error de prediccin en este caso est dado por: ( )0 0 0 0 0 e Y Y X + (3.26) La varianza de este error es: ( ) ( ) ( )0 2 0 2 0 0 TV e V X X V X 11 + + ] ](3.27) ( ) ( )10 2 0 2 0 T TV e X X X X 1 + 1 ](3.28) ( ) ( )( )10 2 0 01T TV e X X X X + (3.29) La expresin (3.29) representa la distancia de los elementos de 0Xrespecto alamediadelosdatos.Estoimplicaquemientrasmslejosestnlosdatos 0X dela media, mayor ser el grado de incertidumbre. El intervalo de confianza para la prediccin es por lo tanto: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-35( )( )1 210 2 0 021T TY t X X X X 1t + 1 ](3.30) Es interesante determinar cul es el valor de 0Xque minimiza la varianza de la prediccin. Para ello, se puede resolver el siguiente problema de minimizacin: { }( )10 0minT TXX X X X(3.31) 01. . : 1 s a X ()(3.32) La restriccin 011 X se refiere al hecho de que el primer elemento de 0Xes el intercepto de la ecuacin de regresin. El lagrangeano y condiciones de primer orden son: ( ) ( )10 0 011T TL X X X X X (3.33) ( )100102 0....0TLX X XX _ ,(3.34) ( )010.... 20TX X X _ ,(3.35) La expresin (3.35) indica que 0Xes proporcional a la primera columna de TX X , por lo que se obtiene: 21 01.... 2niinikinxXx _ ,(3.36) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 3-36Delaprimerafilade(3.36)sededuceque 212 nn .En consecuencia, podemos escribir (3.36) como: 21 011....niinikix nXx n _

,(3.37) Elladoderechode(3.37)correspondealvectordemediasdelas observaciones. En consecuencia, la varianza del error de pronstico es minimizada cuando todaslasnuevasobservacionesdelasvariablesindependientessonigualesasusvalores medios. A partir de (3.37), para luego sustituir en (3.29), se obtiene: 0101....0TX X Xn _ ,(3.38) ( )0 211 V en _ + ,(3.39) Enconsecuencia,elintervalodeconfianzasermenorenlosvalores medios de las variables de X. Finalmente,laprediccinsepuedemedirdeacuerdo a diversos criterios. Sin embargo,todosestoscriteriossebasanenevaluacionesex-post,esdecir,predicciones paralasquelasvariablesexgenasnotienenqueserpredichasenlos 0n perodos siguientes. Dos de estos criterios son la raz del error cuadrtico medio (RECM) y el error absoluto medio (EAM): ( )201i iiRECM Y Yn (3.40) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-3701i iiEAM Y Yn (3.41) Losdoscriteriosanteriorespresentanevidentementeunproblemadeescala. Criterios alternativos son: ( )( )202011i iiiiY YnUYn(3.42) ( )( )202011i iiiiY YnUYn (3.43) donde( )1 i i iY Y Y y ( ) 1 i i iY Y Y . Este ltimo es vlido slo en series de tiempo. 3.3Estimacin por Mnimos Cuadrados Generales (MCG) Enestecasoasumimosque( )2V I ,porloquepodemosexpresarla matrizdevarianzasycovarianzasdelaperturbacincomo( )2V ,donde es una matriz de n x n positiva definida: ( )2 2 2 211 12 13 12 2 2 22 21 22 23 22 2 2 21 2 3............ ........nnn n n nnV 1 1 1 1 1 1 ](3.44) Esta matrizla podemos descomponer de la siguiente manera: ( )( )1 1 1TTPP P P (3.45) con lo que se obtiene el siguiente modelo: 1 1 1 * * *PY P X P Y X + + (3.46) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 3-38Por tanto, se ha conseguido una transformacin del modelo de forma que las perturbaciones cumplen las hiptesis habituales. Al estimador de por MCO en el modelo transformado se le denomina estimador de Mnimos Cuadrados Generalizados (MCG): ( ) ( )1 1* * * * 1 1T T T TMCGX X X Y X X X Y (3.47) ( ) ( ) ( )1 12 * * 2 1T TMCGV X X X X (3.48) siendo el siguiente un estimador insesgado de la varianza de las perturbaciones: ( ) ( )( )12 TTMCG MCGY X Y Xn k 64474486447448(3.49) Esdecir,elestimadorMCGminimizalasumadecuadradosderesiduos ponderada por la inversa de su matriz de covarianzas. No hay una contrapartida precisa del 2Rdel modelo ordinario con el 2Rdel modelogeneralizado.Unaeleccinserausarel 2R delmodelotransformado * * *Y X + , pero esta regresin no tiene por qu tener trmino constante el coeficiente de determinacin no estara acotado entre cero y uno. Pero incluso si existe trmino constante, el modelo transformado no es ms que uninstrumentocomputacional,noelmodelodeinters.Elhechodequeseobtengauna mejoraounempeoramientoenelajustedelmodelotransformadopuede no tener ningn inters, ya que la variable dependiente *Yes diferente de la original. Por otra parte, el estimador de MCG es en presencia de autocorrelacin y/o heterocedasticidadmseficientequeeldeMCO,aunqueambossoninsesgados, consistentes y asintticamente normales. Para usar MCG es necesario sin embargo obtener un estimador consistente de . Debido a quees una matriz de n x n con ( ) 12nn + elementos, es imposible con las n observaciones estimar todos los elementos. Considerando como estimador de , se obtendra: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 3-39( )11 1 T TMCGX X X Y (3.50) ( ) ( )111 TTMCGV X Xn k (3.51) En el caso de heterocedasticidad, se tendr que: 1210 .... 010 .... 0.... ....10 0 ....nP 1 1 1 1 1 1 1 1 1 1 ](3.52) Por su parte, en el caso de correlacin serial (autocorrelacin), se tendr que: ( )21 221 0 .... 01 .... 01.... .... ....0 .... 1P 1 1 1 1 11 ](3.53) Unamaneraalternativadeexpresarlamatrizgeneraldevarianzasy covarianzas es la siguiente:( ) V (3.54) donde: 120 .... 00 .... 0.... ....0 0 ....n 1 1 1 1 1 ] ; 12 13 121 23 21 2 31 ....1 ........ ........ 1nnn n n 1 1 1 1 1 1 ](3.55) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-404ESPECIFICACIN Enestecaptuloestudiaremostcnicasquenospermitendefinirlaforma funcional de un modelo de regresin lineal, a fin de obtener mejores resultados. 4.1Variables Ficticias Siesposibledefinirconcertezaelmomentodeleventualquiebreestructural yaseaenunparmetrocomoenunacombinacindeparmetrosentoncespodemos aplicar lo que se conoce como variables mudas. Lasvariables ficticias recogen los efectos diferenciales que se producen en el comportamientodelosagenteseconmicosdebidoadiferentescausascomolas siguientes: De tipo temporal: Para recoger efectos diferentes en funcin del tiempo en que se producenlasobservacionesde las variables (por ejemplo, consumo en periodos de guerra o paz). De carcter espacial: Para tener en cuenta la pertenencia o no de la observacin a una determinada zona (por ejemplo, consumo en zonas rurales o urbanas). Detipocualitativo:Pararecogerlosefectosdevariablescualitativascomoel gnero, el estado civil, tener o no cargas familiares, nivel de educacin, etc. sobre el comportamiento de los agentes econmicos en decisiones de consumo, de oferta de trabajo, etc. Otras causas: Para conocer los efectos que las variables cuantitativas tienen sobre lavariableendgena,distinguiendoporsubmuestras(porejemplo,lapropensin marginal al consumo de individuos de rentas altas o bajas). Una variable muda o ficticia generalmente se asocia a una funcin indicadora deuneventodeterminado.Estanuevavariableartificialtomarvalorunitariosielevento estpresenteycerosinoesas.Ejemplosdeestetipodefuncionessonmuchos,por ejemplo: Guerra - Paz Hombre - Mujer ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-41Profesional - Tcnico Gobierno A - Gobierno B Crisis Bancaria - Normalidad Tipo de Cambio Fijo - Tipo de Cambio Flexible Siestasvariablesnosondirectamentecuantificablesentoncessurgela alternativadeutilizarvariablesdicotmicasmudas.Volvamosalmodeloderegresin simpleparaentendercmocontrastarcambiosestructuralesenalgnoalgunos parmetros utilizando esta variable. Supongamos que el modelo a estimar es: 0 1 1i i iY x + + (4.1) Sinembargo,sehaidentificadoqueparaciertogrupodeobservaciones existen cambios estructurales. Para incorporar este hecho economtricamente, creamos una nuevaserieartificial(muda) iD quetomarvaloresdeceroyuno.LasiguienteTabla ayuda a comprender esta representacin: Tabla 4.1 Variables Ficticias Observacin (i)YiXiDi 1 Y1X1 0 2 Y2X2 0 ...... ............ ...... j - 1 Yj-1Xj-1 0 j YjXj 1 j + 1 Yj+1Xj+1 1 ...... ............ ...... n YnXn 1 Conestanuevavariablepodemoscontrastarcambiostantoenelcoeficiente de intercepto 0como en el de la pendiente1 . (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-424.1.1Cambio Estructural en el Intercepto La especificacin del modelo es en este caso la siguiente: 0 1 10 1 1 21, 2,..., 1, 1,...,i i ii i i iY x i jY x D i j j n + + + + + +(4.2) La hiptesis est representada por : 0 21 2: 0: 0HH (4.3) Elcontrasteconsisteenevaluarsielparmetro 2 essignificativamente distinto de cero o no. Para esto generamos un test t: ( ) ( )2 2 22 2 ctV V (4.4) Si ct(en valor absoluto) es menor al valor tabulado de n kt para cierto nivel de precisin, no rechazamos la hiptesis de que el parmetro es cero, no habiendo por lo tanto indicios de quiebre estructural en el parmetro del intercepto. 4.1.2Cambio Estructural en la Pendiente La especificacin del modelo es en este caso la siguiente: ( )0 1 10 1 2 11, 2,..., 1, 1,...,i i ii j i iY x i jY D x i j j n + + + + + +(4.5) La hiptesis est representada por : 0 21 2: 0: 0HH (4.6) El contraste es anlogo al caso anterior: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-43( ) ( )2 2 22 2 ctV V (4.7) 4.1.3Cambio Estructural en el Intercepto y la Pendiente La especificacin del modelo es en este tercer caso la siguiente: ( )0 1 10 1 2 1 31, 2,..., 1, 1,...,i i ii j i j iY x i jY D x D i j j n + + + + + + + (4.8) La hiptesis est representada por : 0 2 3: 0 H (4.9) El contraste es el siguiente: ( ) ( ) ( )( )[ ]11; TT Tc p n k TR q RX X R R q pF =Fn k 1 1 ]: (4.10) dondepeselnmeroderestriccionesqueestamosimponiendoenlahiptesisnula.En nuestro caso se tendra que buscar el valor tabulado de [ ] 2; 4 nF. Si cF esmenoralvalortabuladode [ ] ; p n kF,norechazamoslahiptesisde queambosparmetrossoncero,nohabiendoindiciosdequiebreestructuralenlos parmetros de la pendiente y el intercepto. 4.2Variables No Lineales Un tpico error de especificacin ocurre cuando se utiliza un modelo lineal en variables explicativas cuando realmente no lo es. SupongamosqueunotieneunavariablederespuestaYyvariasvariables predictorasXydeseahacertransformaciones en las variables de respuesta para mejorar la medida de ajuste del modelo. Lo primero que uno intenta es hacer un grfico matricial y de ste extraer las relaciones de X con cada una de las variables predictoras. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-44Peroestastransformacionessepuedenverafectadasporlacolinealidad (dependencia lineal) existente entre las variables predictoras. 4.2.1Transformaciones Generales Consideremosporahorasolomodelosconunavariableindependiente.La ideaestratardeaumentarlamedidadeajuste 2R delmodelo,sinincluirvariables adicionales.Loprimeroquehayquehaceresungrficoparaobservareltipode tendencia. La siguiente tabla muestra las transformaciones de las variables dependiente e independiente que se requieren para linealizar varios modelos: Tabla 4.2 Transformacin de Variables Nombre del ModeloEcuacin OriginalTransformacinModelo Linealizado Exponencial( ) exp Y X ln ; Z YX X ln Z X +Logartmico( ) ln Y X + ; ln Y Y W X Y W +Potencial Y X ln ; ln Z Y W X ln Z W +HiperblicoYX +1; Y YWX Y W +Doblemente Inverso 1YX + 1; Z X XY Z X +El primer y tercer modelo son vlidos bajo la suposicin de que los errores son multiplicativosyhabraquecotejarhaciendoanlisisderesidualessiellogaritmodelos errorestiene una media de cero y varianza constante. Si los errores no son multiplicativos entoncesdeberanaplicarsetcnicasderegresinnolinealquesonexpuestasms adelante. ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-454.2.2Transformacin Box - Tidwell En 1962, Box y Tidwell, propusieron un mtodo para transformar las variables predictoras pero solo usando potencia de ellas. Ms especficamente, ellos consideraron el modelo: 01ki iiY w + +(4.11) donde( )ii iw x si0i y( ) lni iw x si0i .Elmtodoestbasadoenel desarrolloenseriesdeTaylordelmodeloanteriorconrespectoa( )1 2, ,....,k . Haciendo las derivaciones respectivas, el modelo (4.11) se reduce a: 01 1k ki i i ii iY x z + + + (4.12) donde( ) 1i i i y( ) lni i iz x x 1, 2,...., i k . El procedimiento para la estimacin de losise puede resumir como sigue: Hacerlaregresinlinealmltipleconsiderandolasvariablespredictorasoriginales ixy denotar los estimados de los coeficientes por i . HacerunaregresinlinealmltipledeYrespectoalasvariablespredictoras originales ix maslasvariables( ) lni i iz x x ydenotarlosestimadosdelos coeficientes de izpori . Estimar 1iii + . Elprocedimientosepuederepetirvariasvecesusandoencadaetapalas nuevas variables transformadas y la siguiente relacin de recurrencia: 1 1nn n ii ini + _ + ,(4.13) Elprocesoterminacuando 1 n ni i + < .Sinembargo,escomnquecon una iteracin sea suficiente. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-464.2.3Transformacin Box - Cox En1964,BoxyCoxintrodujeronunatransformacindelavariablede respuestaconelobjetivodesatisfacerlasuposicindenormalidaddelmodelode regresin.LatransformacinesdelaformaY(transformacinpotencia),donde es estimadaconlosdatostomados.Msespecficamente,latransformacinestdefinida, paratodoxmayorquecero,por( )( ) 1iixx si0 y( ) ( ) lni ix x si 0 .PorlaregladeLHopitalsepuededemostrarque ( )( )01lim lniixx .Notar quesi1 seobtieneelmodelolineal,ysi0 seobtieneunmodelologartmico. Luego, el modelo Box-Cox es una especificacin no lineal generalizada. Elparmetro seestimausandoelmtododeMximaverosimilitud, conjuntamente con los coeficientes del modelo de regresin lineal mltiple: ( ) ( ) ( )01kTi iiY x X + + +(4.14) Escribiendo la funcin de verosimilitud se tiene que: ( ) ( )221 1; , exp2 2nTLY _ _ , ,(4.15) Luego se puede establecer que el logaritmo de la funcin de verosimilitud est dado por: ( ) ( ) ( )221ln ln 2 ln2 2 2Tn nL (4.16) Debe recordarse que si una variable z distribuye f(z), y existe otra variable u talqueu=(z)(z=(u)),setienequeudistribuyedelaforma ( ) ( ) ( ) ( ) 'zf z f u uu .Dadoque( ) ( ) ( )TY X Y seobtieneque ( ) ( )1 iiii iyyy y yporlotanto ( ) ln 1iiiyy _ ,.Finalmente,ellogaritmodela funcin de verosimilitud en este caso es el siguiente: ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-47( ) ( ) ( )( ) ( ) ( ) ( ) ( ) ( )( )212ln ln 2 ln 2 1 ln2 212niiTT Tn nL yY X Y X + (4.17) Eltrmino( )11 lnniiy aparecedebido justamente al cambio de variables almoversedelafuncindedistribucindealafuncindedistribucindeY.Una comparacinde(4.17)entrelosvaloresde1 y0 nospermiteelegirentreun modelo lineal y uno logartmico. Sinembargo,sisedeseaaplicartcnicasdeMCOenlugardeMV,es factible normalizar las observaciones por su media geomtrica: 11lnln exp lnni nig g iiyy y y nn _ , (4.18) Lasvariablesnormalizadassonahora * iigyyy .Luego,podemoscalcularel ajustedelossiguientesmodeloslinealylog-linealenformadirecta(suponiendoquelas perturbaciones son normal): * *Y X +%% (4.19) * *ln ln Y X + (4.20) Notarqueen(4.19)tantolaendgenacomolasexgenashansido normalizadas por su media geomtrica. La comparacin directa (MV vs MCO) es posible debido a que: *ln ln lni i gy y y (4.21) 1 11 1ln lnlnn ni i n ni igi iy yy nn n _ _ , , (4.22) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-481ln*1 1 1ln ln ln 0niin n n y ni ii i iy y e (4.23) Deestemodo,eltrmino( )*11 lnniiy delaexpresin(4.17)esiguala cero para la versin log-lineal del modelo, pero tambin es cero para la versin lineal, ya que1 .Enconsecuencia,laestimacinMVyMCOprodujeronlosmismosresultados cuando los datos son normalizados. En el caso de MCO, se escoger elque entregue un mayor valor de 2R . 4.2.4Otras Transformaciones de Variables Algunasveceselcomportamientodelavarianzadelaperturbacinvara segnlavariableindependiente.Unadelasmedidasremedialesparahacerconstantela varianzaestransformarlavariableindependiente.Lasiguientetablamuestralas transformacionesdelavariableindependientequehayquehacerparahacerquela varianza sea constante: Tabla 4.3 Transformacin de Variables TransformacinSituacin y ( ) ( )i iV E y 1 y y + + ( ) ( )i iV E y ( ) ln y ( ) ( )2i iV E y 1 ] ( ) ln 1 y + ( ) ( )2i iV E y 1 ] 1y ( ) ( )4i iV E y 1 ] 11 y + ( ) ( )4i iV E y 1 ] ( )1sen y ( ) ( ) ( ) ( )1i i iV E y E y ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-494.3Modelos No Lineales Lo que caracteriza a un modelo de regresin no lineal es el mtodo utilizado para estimar sus parmetros. La forma general del modelo de regresin es: ( ) ; Y f X + (4.24) Considerando el mismo argumento que MCO se obtiene: { }( ) ( )2211min ;2ini ii Q= Y f X1442443 (4.25) ( ) ( )( )1;; 0nii iif X QY f X (4.26) ( ) ( )( ) ( )( )2 21; ; ;2 ;ni i ii i T T Tif X f X f X QY f X 1 1 ](4.27) Lamatriz(4.27)debeserpositivadefinida.Porotraparte,ladistribucin asinttica del estimador de mnimos cuadrados no lineal viene dada por: ( ) ( )2 10;dNLn N (4.28) donde: ( ) ( )22 211 ;n pi iiY f Xn (4.29) ( ) ( )1 ; ;1T ni iTif X f XX Xn n _ ,(4.30) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-504.3.1Modelo de Regresin Linealizado en Parmetros LosresultadosenestecasosebasanenaproximacionesdeseriesdeTaylor en torno a un determinado vector de parmetros 0 : ( ) ( )( )( )00 001;; ;Kk kk kf Xf X f X + (4.31) Haciendo ( )00;kkf XZ y reagrupando trminos se obtiene: ( ) ( )0 01 1; ;K Kk k k kk kf X f X Z Z + (4.32) Reemplazando luego en ' 3-13(: ( )0 01 1;K Kk k k kk kY f X Z Z + + (4.33) ( )0 01 1;K Kk k k kk kYY f X Z Z + + %14444244443(4.34) 1Kk kkY Z +%(4.35) Porlotanto,paraundeterminadovalorde 0 seestimanY%y kZ ,para luegodeterminarlosparmetros k de(4.35)utilizandoMCO.Estosparmetros kdebenserutilizadoscomonuevovalorde 0 ,yrepetirelprocesohastaqueconverja 0k < .Sinembargo,sibienesposibleaplicarloscontrastesdehiptesisy procedimientos de inferencia de los MCO, no est garantizado que el 2Rest entre 0 y 1. ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-514.3.2Modelo de Regresin Linealizado en Variables Uncasomsgeneralseobtienesiseconsideranunamayorcantidadde trminos en la expansin en series de Taylor en torno a X: ( ) ( )( )( )( )( )( )00 012 00 01 1;; ;;1....2Ki ii iK Ki i j ji j i jf Xf X f X x xxf X x x x xx x + + + (4.36) En el caso de que exista slo una variable explicativa, se obtendra: ( ) ( )( )( )( )( )( )( )00 02 0 3 02 30 02 3;; ;; ;1 1.....2 3!f xf x f x x xxf X f X x x x xx x + + + + (4.37) y reagrupando trminos: ( )2 30 1 2 3; .... f x x x x + + + + (4.38) Luego, se debe calibrar el siguiente modelo lineal: 2 30 1 2 3.... Y x x x + + + + + (4.39) Laeleccindelnmerodeparmetrossepuedeobtenerapartirdela significanciaestadsticadesusrespectivosparmetros.Sinembargo,estosparmetrosino tienen una interpretacin econmica clara. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-524.4Especificacin de Variables Existennumerososerroresquepuedencometerseproductodeunamala especificacindelaecuacinestimada,ya sea por omisin de variables relevantes o por inclusin de variables irrelevantes o superfluas. 4.4.1Seleccin de Variables Como se vio anteriormente, el valor del 2Rnunca decrecer si se aaden nuevas variables a la ecuacin de regresin, aun cuando dichas variables no aporten a la explicacin del fenmeno estudiado. Para evitar ello, se considera el 2Rajustado: ( ) ( )( )2 211 1j jn R Rn k (4.40) Dado que el 2Rincorpora penalizacin por los grados de libertad, y a la vez revela un incremento en el ajuste, una alternativa es elegir la especificacin que maximiza elvalordel 2R .Puededemostrarsequeestoltimoequivaleaminimizarelestimadorde varianza ( )2 Tn k . Sinembargo,sehasugeridoqueel 2R nopenalizasuficientementela prdidadegradosdelibertad.Tresalternativasquesehanpropuestoparala comparacin de modelos son las siguientes: ( )( )( )2 21jj jjn k R Rn k+ (4.41) ln 2Tjjk AICn n _ _ + , ,(4.42) ( ) ln lnTjjk n SICn n _ _ + , ,(4.43) Enelcasodelaexpresin(4.41),obtenidodeAmemiya(1985),elcriterio consiste escoger el modelo con las variables que presenten el mayor 2jR . ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-53Anlogamente,enelcasodelaexpresin(4.42),elcriterioesescogerel modelo que presente el mnimo valor de jAIC . Lo mismo con jSICen (4.43). Esinteresantenotarquelasexpresionespara jAIC y jSIC provienende ponderar el error cuadrtico medio Tn _ , del modelo calibrado. De hecho,el valor del 2Rse puede rescribir como: ( ) ( )( )( )( )( )( )22 22111 1 111iijj jiin kn R Rn kY Yn (4.44) Luego,enestecasoelerrorcuadrticomediosecorrigeporlosgradosde libertad: Tn k _ ,.Sinembargo,enlosotros2criterios,elerrorcuadrticomediose corrige de la siguiente manera: ( )2 jTk njpenalizacin AIC en 123(4.45) ( ){ jTk njpenalizacin SIC nn (4.46) Alaplicarlogaritmonaturalalasexpresiones(4.45)y(4.46)seobtienen directamente las expresiones (4.42) y (4.43), respectivamente. 4.4.2Variables Omitidas Supongamos que el modelo especificado correctamente es el siguiente: 1 1 2 2Y X X + + (4.47) Si realizamos una regresin de Y sobre 1X , sin incluir 2X , el estimador es: ( ) ( ) ( )1 11 1 1 1 1 1 1 1 1 2 2T T T TYX X XY X X X X X + +144424443(4.48) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 4-54( ) ( )1 11 1 1 1 1 2 2 1 1 1T T T TX X X X X X X + +(4.49) ( ) ( )11 1 1 1 1 2 2 1T TE X X X X + (4.50) Si existe una nica variable incluida y una nica variable omitida, el signo del sesgo en el estimador es evidente. Sin embargo, si existen varias variables, no es posible. La varianza de 1es: ( ) ( )121 1 1TV X X (4.51) Sin embargo, si hubiramos especificado correctamente el modelo, incluyendo las variables 2X se tendra: ( ) ( )( )1121,2 1 1 1 2 2 2 1 1T T T TV X X X X X X X X (4.52) Luego, a partir de (4.51) y (4.52), se deduce:( ) ( ) ( )1 111 1,2 1 2 2 2 2 1 21 T T TV V X X X X X X 1 1 ](4.53) Laexpresin(4.53)essiemprepositiva.Enconsecuencia,sibien 1 es sesgado, tiene menor varianza que 1,2 . Es interesante tambin notar que mientras mayor sea la correlacin entre 1Xy 2X , ms grande ser la varianza de 1,2respecto a la de 1 . Esto ltimo equivale a resolver el problema con una restriccin del tipo 20 . Estesesgonodesaparecersiaumentaeltamaomuestral,porloqueel estimador es tambin inconsistente (excepto si 1 20TX X ). Al mismo tiempo, una varianza muy alta en la variable 2Xreducir el sesgo, aunque no lo eliminar. Por otra parte, se puede demostrar tambin que el estimador 2 est sesgado haciaarriba(ancuando 1X y 2X seanortogonales);sinembargo,paraestimarese sesgodebiramosestimar 2 .Estoltimoimplicaqueexistirnproblemasalcontrastar hiptesis sobre 1 . ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 4-554.4.3Variables Superfluas Supongamos que el modelo especificado correctamente es el siguiente: 1 1Y X + (4.54) Sin embargo, la estimacin se realiza a partir del siguiente modelo: 1 1 2 2Y X X + + (4.55) En este caso, se puede demostrar que tanto 1como 2 son insesgados. Sin embargo,lavarianzadelestimador 1 sermayor.Estoseexplicaporlaprdidade gradosdelibertadproductodelapresenciademsparmetrosenlaestimacin.Luego, losestimadoressibiensoninsesgadosyconsistentes,sonineficientes.Estaprdidade eficiencia hace ms difcil rechazar la hiptesis nula de que un determinado parmetro vale cero. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-565TEMAS ESPECFICOS 5.1Ortogonalidad LaOrtogonalidadentrelosregresoresdeunmodeloeconomtricoimplica incorrelacinentredichosregresores,mientrasquelaMulticolinealidadimplica dependencia o correlacin entre esas variables. Sedicequedosregresoressonortogonalescuandoestnlinealmente incorrelacionados,esdecir,sucoeficientedecorrelacinlinealosucovarianzaescero. As, xi y xj son ortogonales si rij = 0. Dosgruposderegresoressonortogonalessi ( )1 20TX X ,loquesignifica que cada regresor del primer bloque est incorrelacionado con cada regresor del segundo bloque. Sea el modelo particionado: 1 1 2 2Y X X + + (5.1) Los estimadores MCO de los vectores de parmetros 1y 2de este modelo coincidenconlosqueobtendramosefectuandolaregresinindividualdeYsobrecada uno de los bloques: 11 1 1 1 2 12 1 2 2 22T T TT T TX X X X XYX X X X XY _ _ _ , , ,(5.2) ( )( )111 1 11 1 1 112 2 222 2 200T TT TT TT TX X XYX X XYX X XYX X XY _ _ _ _ , , , ,(5.3) Lasvarianzasdelosestimadorestambincoincidenconlascalculadasal hacer las regresiones individuales pero no as con los estimadores de las varianzas: ( )( )( )12 11 12 1 1122 22 200TTTTX XX XVX XX X _ _ , ,(5.4) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-57( )( )( )12 11 12 1 1122 22 20 0TTTTX XX XVX XX X _ _ , ,(5.5) siendo 2 Tn k . Sin embargo, en las regresiones individuales se tendra: ( ) ( )12 21 1 1 1 11 TTuuV X Xn k (5.6) ( ) ( )12 22 2 2 2 22 TTvvV X Xn k (5.7) Por otra parte, si no existe ortogonalidad, se tendra que: ( ) ( )( ) ( )1 11 1 1 1 1 1 2 211 122 2 2 2 2 2 1 1T T T TT T T TX X XY X X X XX X XY X X X X _ _ , ,(5.8) La solucin (5.8) indica que 1es el conjunto de coeficientes o parmetros de laregresindeYsobreX1menosunvectordecorreccin.Dehecho,manipulando (5.8) resulta: ( ) ( )( ) ( )11 1 1 2 21122 2 2 1 1T TT TX X X Y XX X X Y X _ _ , ,(5.9) ElteoremadeFrisch-Waughestablecequeelvector 2 eselconjuntode parmetrosquese obtiene de realizar una regresin de los residuos de la regresin de Y sobre X1 , sobre el conjunto de residuos obtenidos de la regresin de X2 sobre X1. Esto es lo que normalmente se conoce como extraer el efecto de X1. Suponiendo una regresin de Y sobre( )1 2, W X X , el coeficiente 2de 2Xse calcula como: (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-58( ) ( )12 2 2 2T TXMX X MY (5.10) donde ( )( )11 1 1 1T TM I X X X X esunamatrizdenxnsimtrica ( )TM M e idempotente ( )TM MM . EstamatrizMgeneraelvectorderesiduosdelaregresindemnimos cuadrados de Y sobre 1Xcuando pre-multiplica al vector Y, por lo que: 1 0 MY MX (5.11) Una manera de interpretar el resultado MX1 = 0 es que la realizacin de una regresin de X1 en X1 se obtendr un ajuste perfecto, por lo que los residuos sern cero. Finalmente, dado que en general Y X + , se obtiene: ( ) Y Y I MY PY (5.12) LamatrizP,simtricaeidempotente,sedenomina matrizde proyeccin. Estamatrizsegeneraapartirde Xtalquecuandoelvector Y se pre-multiplica por P, se obtiene como resultados los valores calculados de la regresin por MCO de Y sobre X. 5.2Multicolinealidad 5.2.1Definicin de Multicolinealidad Eltrminomulticolinealidad(ocolinealidad)enEconometraserefiereauna situacin en la que dos o ms variables explicativas estn fuertemente interrelacionadas y, portanto,resultadifcilcuantificarsusefectosindividualessobrelavariable explicada. Esteproblemareside,portanto,enlamuestrautilizaday/odela especificacin del modelo, y no tiene causas interpretables. S existen, en cambio, una serie de situaciones en que la multicolinealidad resulta habitual. ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-59En principio, cabe distinguir dos casos: a) MulticolinealidadPerfecta,quesepresentacuando ( )det 0TX X .En este caso existen infinitas soluciones para el sistema ( )T TX X XY . b) MulticolinealidadFuerte,cuandolarelacinentrelasvariablesesmuy fuerte pero no perfecta; es decir, los coeficientes de correlacin lineal no sern prximos a 1 pero se le aproximarn bastante. En este caso ( )det 0TX X y por lo tanto no existen razones a priori para no poder estimar el modelo. 5.2.2Causas de la Multicolinealidad Existenciadealgunarelacincausalentre2variablesexplicativas(o ms). Eneconoma,lamayoradelasvariablesexplicativasestn,dealguna manera,correlacionadas.Cuandotrabajamosconseriestemporales,la mayoradelasvariableseconmicastienenunatendenciacreciente; Granger y Newold demostraron que basta con introducir una tendencia linealendosseriestemporalesindependientesparaquesucorrelacin aumenteconsiderablemente,yporlotanto,laexistenciadeesa tendencia puede ser la causa de un problema de multicolinealidad. Existenciadeunavariableexplicativaconescasavariabilidadensu serie. 5.2.3Efectos de la Multicolinealidad Enelcasodemulticolinealidadextremaoperfecta,resultaclaroqueel problemafundamentalesqueesimposibleresolverdeformanicaelsistemade ecuaciones normales: ( )T TX X XY . (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-60Lamulticolinealidaddegradoofuertedalugaradistintosefectos,que veremos en ms detalle a continuacin: Lasestimacionesindividualesdelosparmetrosestnmalidentificadas, esto es, el valor estimado de un parmetro puede depender crucialmente del(los) valor(es) estimado(s) de otro(s). Segeneraunainflacinartificialdelavarianzadelosparmetros estimados. Las estimaciones resultan sensibles con respecto a la muestra utilizada lo quesuponequesi,porejemplo,seamplalamuestraconunanueva observacin, las estimaciones obtenidas pueden variar sustancialmente. i)Problemas de Identificacin Nosepuedeaislarelefectoindividualdeunregresorsobreel regresandoyaquenosepuedemantenerlaclusuladelceteris paribus. EnEconometratradicional,eltrminoidentificacinaludeala posibilidad de obtener estimaciones independientes para los parmetros de un modelo. Sedicequeunmodeloestmalidentificadocuandoelvalorestimado deun(os)parmetro(s)dependecrucialmentedel(los)valor(es)de otro(s). En este sentido, puede decirse que la colinealidad da lugar a un problema de identificacin paramtrica. Paraaclararestaidea,utilizaremosunejemplocorrespondiente al caso de multicolinealidad extrema. Sea el modelo: 1 1 2 2Y X X + + (5.13) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-61Supongamosquelasegundavariableexplicativapuedegenerarsea partirdeunatransformacinlinealdelaprimera,estoes: 2 1 2 1X X + .Sisustituimosestaigualdadenlaecuacin(2.9)se obtiene,trasrealizaralgunasoperacionesalgebraicaselementales,la siguiente expresin: {( )012 1 1 1 2 2Y X + + +14243(5.14) En(5.14)quedaclaralaimposibilidaddeobtenerestimaciones independientes de 1y 2sin ms que aplicar MCO. Esteproblematambinseproduceenelcasodemulticolinealidadde grado.Paraverlo,bastasuponerquelarelacinentrelasvariables explicativas fuera 2 1 2 1X X u + + , entonces el modelo (5.14) podra expresarse como: ( )2 1 1 1 2 2 2Y X u + + + + (5.15) ii)Inflacin de las Estimaciones Sieldeterminantede ( )TX X esaproximadamenteigualacero (columnasLD),tantolasestimacionesdeparmetros,comolasdesus correspondientesvarianzas,tendernaestardistorsionadasy,en general,sernmayoresquelasqueseobtendransinoexistiera multicolinealidad.Porestarazn,se dice que la multicolinealidad causa unproblemade"inflacindelosparmetrosestimadosydesus varianzas". En general, esta inflacin distorsionar los resultados de los procesos de inferenciaestadsticaquesedesarrollenapartirdelosresultadosdela estimacin.Concretamente,puestoquelasvarianzasdelosparmetros estimadosestndistorsionadasalalza,elestadsticotdesignificacin individual de los parmetros: ( )iin kt t : (5.16) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-62tenderanorechazar la hiptesis nula0ims frecuentemente que sinoexistiesemulticolinealidad.Esdecir,elestadsticottendrun menor valor. Porotraparte,dadoquelamulticolinealidadnohacevariarlabondad delajuste,sicontrastamoslasignificanciaconjuntadelosparmetrosa travsdel 2R delmodelo,podemosconcluirquelosparmetros conjuntamentesonsignificativoseindividualmenteno.Estehecho puede sugerir la existencia de multicolinealidad de grado. En sntesis: Intervalos de confianza grandes Valoresmuestrales de los estadsticos t pequeos, lo que implica que es muydifcilrechazarcualquiercontrastedenosingnificacindelas variables Los2puntosanterioresnospuedenllevararechazarlasignificacin individualdetodoslosregresoresysinembargonorechazarla significacin conjunta de todos ellos. Noafectaal 2R yaquestemideelefectoconjuntodetodoslos regresores sobre el regresando y la multicolinealidad afecta a los valores individualesdelosregresores.Porlotanto,laregresinpodrser significativa a pesar de la existencia de multicolinealidad. No afecta a las predicciones. iii)SensibilidaddelasEstimacionesconRespectoalos Datos Cuandoexisteunproblemademulticolinealidad,ligeroscambiosenla matrizXyelvectorY(porejemplo,siaadimososuprimimosalgn dato)puedenllevaragrandescambiosenloscoeficientesestimados. Estehechopuedellevarerrneamenteaconsiderarlaposibilidadde ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-63cambioestructural,cuandoenrealidadsetratadeunproblemade multicolinealidad. 5.2.4Deteccin de la Multicolinealidad y su Magnitud Resulta frecuente que exista un problema de multicolinealidad en los siguientes casos: a) Cuando se emplean variables explicativas no estacionarias en media. Es decir, sidosvariablesexplicativastienenunatendenciacomn,estopuedecausar multicolinealidad. Como veremos ms adelante, transformar las variables para queseanestacionarias,puederesolverelproblema,salvocuandola multicolinealidadseaestricta.Estacausaesmuycomnenlaprctica economtrica. b) Cuandoseconsideranmuchasvariablesexplicativas.Lgicamente,amedida queaumentaelnmerodevariablesexplicativas,esmsfcilqueaparezca una pauta de relacin entre ellas que de lugar a un problema de colinealidad. c) Cuando la mtrica de las variables da lugar a datos de un orden de magnitud muydiferente.Puestoqueelvalornumricodeldeterminantede ( )TX XdependedelasunidadesdemedidadelasvariablescontenidasenX,si dichasvariablesestnmedidasenunidadesdeunordendemagnitudmuy diferente(porejemplokilmetrosycentmetros)estopuededarlugarauna aparentemulticolinealidad,debidaalaacumulacinde errores de redondeo. Esteproblemaseresolveratransformandoadecuadamentelamtricadelos datos. d) Cuandoseincluyencomovariablesexplicativasretardossucesivosdela variableendgenaodealgunadelasvariablesexplicativas.Estopuede provocarmulticolinealidadporquelosvaloresdeunavariableeconmicaen distintos instantes de tiempo suelen estar correlacionados entre s. (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-64Paradecidirsilacolinealidaddegradosuponeunproblemaparanuestro anlisis concreto, en primer lugar tendremos que definir claramente cules son los objetivos ltimosdelmismo.Porejemplo,sinuestrafinalidadespredecirla evolucin futura de una variable,laposiblemulticolinealidadnonoscausaningnproblema.Sinembargo,siel nfasisestenobtenerestimacionesdelosparmetroslomsprecisasposibles,la colinealidadseraunproblemamuygraveyaque,comohemosvisto,dalugaraunalto grado de imprecisin en las estimaciones individuales. Evidentemente,caracterizarelproblemadecolinealidaddegradocomo ( )det 0TX X noessuficienteparalaprcticaeconomtricayaque:1)elvalorde ( )detTX X dependedelasunidadesdemediday2)nosabemosenqugradode proximidadacerocomienzanahacerserelevanteslosproblemasqueacabamosde sealar. Para detectar el posible problema de multicolinealidad estudiaremos dos tipos demtodos:mtodosbasadosenlacorrelacinentrevariablesexplicativasymtodos basados en el tamao de la matriz ( )TX X . i)Mtodos Basados en la Correlacin Entre Variables Explicativas. Paradetectarlamulticolinealidadsepodracalcularlacorrelacinsimple existente entre pares de las variables exgenas (X). Denotaremos como rij al coeficiente de correlacinsimpleentrelavariablexiyxj ( ),ij jir r i j .Alcalcularestoscoeficientes simples de correlacin para todos los pares de variables, se tendra una matriz Rx definida como: 12 121 21 21 ....1 ........ ........ 1kkxk kr rr rRr r _ ,(5.17) ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-65Sirijescercanoalaunidad,detectaramosmulticolinealidadporlaalta correlacin muestral entre xi y xj. El problema de este mtodo es que slo puede detectar correlacinentreparesdevariablesexplicativasdelaforma i jx x .Sinembargo,es posiblequeexistanrelacionesdedependencialinealmscomplejascomo,porejemplo i j kx x x + ,quenodetectaramoscalculandosloloscoeficientesdecorrelacin muestralentreparesdevariables.Enestecaso,loque se puede hacer es un conjunto de regresiones de cada variable exgena con respecto a las k - 1 restantes. ii)Mtodos Basados en el Tamao de la Matriz. Comosabemos,lamulticolinealidadesunproblemanumricoyaqueel determinantedelamatriz ( )TX X esmuy pequeo. Entonces, podemos pensar que sera til medir el "tamao" de ( )TX X . Unaprimerasolucinseracalcularelvalornumricodeldeterminantede ( )TX X .Elproblemaesqueeldeterminantedeestamatrizdependedelas unidades de medida de las variables explicativas. Otraposibilidadsebasaenelhechodequeeldeterminantede ( )TX X es igual al producto de sus valores propios. Entonces, podemos calcular los valores propios y comprobar si alguno es muy cercano a cero ya que, en este caso, el determinante tambin tendraunvalorprximoacero.Elproblemaesqueeltamaodelosvalorespropios tambin depende de las unidades de medida de las variables explicativas. Elltimomtodoconsisteenmedireltamaorelativodelosvalorespropios de la matriz ( )TX X . De este modo, eliminamos el problema de las unidades de medida. Es decir, calculamos los valores propios, los ordenamos de menor a mayor, y obtenemos el ratio entre el valor propio mximo y el mnimo. Si este cociente es muy grande, existira un problema de multicolinealidad porque el valor propio mnimo es muy pequeo en relacin conelmsgrande.Alarazcuadrada de este cociente se le llama nmero de condicin de la matriz X: nmero de condicin maxmin (5.18) (CT-2950 Tpicos de EconometraPontificia Universidad Catlica de Chile 5-665.2.5Correccin de la Multicolinealidad Existen diversas soluciones, aunque ninguna resulta plenamente satisfactoria. Suprimir Variables. La idea consiste en que, si se suprimen variables que estn altamente correlacionadas con otras, la prdida de capacidad explicativadelmodeloserpequea,mientrasquelamulticolinealidad sereducir.Existe,sinembargo,elriesgodeeliminarvariablesque debieranmantenerseenelmodeloyaque,comohemosvisto,en situacionesdemulticolinealidadlasvarianzasdelosparmetrosestn infladas y muchos parmetros sern formalmente no significativos. UtilizacindeEstimacionesExternas.Porejemplo,seauna funcindedemandadondeelconsumodeunpas(Ct)depende,alo largo del tiempo, de las variables renta (Yt) y precios (Pt): 0 1 2 t t t tC Y P + + + (5.19) ysesabequelasvariablesderentaypreciosestnaltamente correlacionadas.Enestecaso,unaposiblesolucinalproblemade multicolinealidadseraestimarelparmetro 1 enunafuncinde consumo con datos de seccin cruzada definida como: 1 t t tC Y v + (5.20) Deestaforma,sepuedeplantearelnuevomodeloderegresincon datos temporales: ( ) 1 0 2t t t tC Y P + + (5.21) endondelavariableaexplicarhacambiadoconrespectoalmodelo original.Sinembargo,estasolucinalamulticolinealidadtienevarios problemas: a) Paraquelasolucinfuesecorrectatendramosquetenercomo nuevavariabledependiente ( ) 1t tC Y ,peronodisponemosdel valor del verdadero parmetro 1sino slo de una estimacin 1 . ICT-2950 Tpicos de Econometra Pontificia Universidad Catlica de Chile 5-67b) Elparmetro 1 enunaregresincondatosdeseccincruzada tiene una interpretacin distinta que cuando se estima con datos de series temporales (Largo Plazo vs Corto Plazo). IncorporarNuevasObservaciones.Algunasveces,aumentando el tamao muestral con el que trabajamos podemos reducir el problema demulticolinealidad;estapodraserunasolucinsiemprequela multi