econometria aula 2 – 20/9/2013 1. exemplo da técnica mqo 2. hipóteses do modelo de rlm 3. ajuste...

EconometriaAula 2 – 20/9/2013

1. Exemplo da técnica MQO

2. Hipóteses do Modelo de RLM

3. Ajuste do Modelo

4. Modelo Restrito

Econometria


Danielle Carusi Machado - UFF - Econometria 2/2009

MQO


Resíduos


Resíduos MQO


MQO

M = I- X(X’X)-1X’


MQO

Econometria


Modelo de Regressão Linear Múltipla


O Modelo

Utilizado para estudar a relação entre uma variável dependente e uma ou mais variáveis independentes.

Forma genérica do modelo de regressão linear: y = f(x1,x2,…,xK,1,2,…K) + ε = x11 + x22 + … + xKK + ε f(x1,x2,…,xK,1,2,…K) é a equação de regressão

populacional de y em x1,x2,…,xK . Y é o regressando x1,x2,…,xK regressores ou controles ε é o distúrbio aleatório


Exemplo

Função de consumo keynesiana Não existe uma relação determinística entre

consumo e renda. C = f(X, ε)

Onde ε é o elemento estocástico Como incorporar este elemento estocástico ao

modelo? De forma aditiva: C = α + βX + ε Contrapartida empírica do modelo teórico de

Keynes.


Exemplo


Exemplo

A reta do gráfico anterior é distorcida pelo racionamento do período de guerra.

Especificação mais apropriada: acomodar a natureza estocástica do dado e as circunstâncias especiais dos anos 1942-1945.

Dummy que identifica este período anoguerrawdXC


Estimando o modelo de consumoVariável dependente Consumo (1) (2)

mqo1 mqo2

Renda 0.685** 0.858***

(0.249) (0.0853)

Dummy anos de Guerra -50.69***

(5.932)

Constant 51.90 14.50

(80.84) (27.30)

Observations 11 11

R-squared 0.457 0.946

Standard errors in parentheses*** p<0.01, ** p<0.05, * p<0.1


Hipóteses do modelo

A.1. Linearidade significa ser linear nos parâmetros.

A.2. Identificação: Só existe um único conjunto de parâmetros que produz E[y|x].

A.3. Média condicional zeroA.4. Forma da matriz de variância covariânciaA.5. Geração dos dadosA.6. Hipóteses sobre a distribuição de

probabilidade.


Linearidade do Modelo

f(x1,x2,…,xK,1,2,…K) = x11 + x22 + … + xKK

Notação: x11 + x22 + … + xKK = x.

E[y|x] = 1*1 + 2*x2 + … + K*xK. (1*1 = intercepto).


Linearidade

Modelo linear simples, E[y|x]=x’β Modelo Quadrático: E[y|x]= α + β1x +

β2x2

Modelo Loglinear, E[lny|lnx]= α + Σk lnxkβk

Modelo Semilog, E[y|x]= α + Σk lnxkβk

Modelo Translog: E[lny|lnx]= α + Σk lnxkβk

+ (1/2) Σk Σl δkl lnxk lnxl

Todos modelos são lineares e existe um infinito número de variações de modelos lineares.


Linearidade Linearidade significa ser linear nos

parâmetros, não nas variáveis

E[y|x] = 1 f1(…) + 2 f2(…) + … + K fK(…).

fk() pode ser qq função dos dados.

Exemplos: Logs Variáveis Dummy Funções quadráticas, interações, etc.


Unicidade da média condicional

A relação da média condicional pode ser válida para qualquer conjunto de n observações, i = 1,…,n.

Se n K E[y1|x] = x1 E[y2|x] = x2 … E[yn|x] = xn

Para todas n observações temos que : E[y|X] = X = E.


Unicidade de E[y|X]Suponha que exista um que produz o mesmo

valor esperado,

E[y|X] = X = E.Se = - . Temos que: X = X - X = E - E = 0.

Isto é possível? X é uma matriz nK.

O que significa X = 0? Por hipótese, isto não é possível.

Hipótese de ‘posto cheio’ – hipótese de ‘identificação’.

Podemos ‘estimar’ com n K .


Dependência Linear Exemplo: x = [i , renda não trabalho, renda do trabalho, renda

total]

Não existe dependência linear: Nenhuma variável pode ser escrita como uma função linear de outras variáveis do modelo.

Condição de identificação. A teoria não necessariamente elimina a possibilidade de dependência linear, contudo, é importante para fazer a estimação possível.y = 1 + 2N + 3S + 4T + , onde T = N+S. y = 1 + (2+a)N + (3+a)S + (4-a)T + para qualquer a,

= 1 + 2N + 3S + 4T + . O que está sendo estimado…? Não eliminamos a possibilidade de dependência não

linear. Ex: x e x2.


Média condicional zero O y observado é igual a E[y|x] + variável

aleatória. y = E[y|x] + (distúrbio)

Existe alguma informação sobre em x? Ou seja, algum movimento em x dá informação sobre ? Caso sim, não especificamos corretamente a média condicional, a função ‘E[y|x]’ não é a média condicional (não é a regressão populacional)

Existe informação sobre em outras variáveis. Se E[|x] 0 segue que Cov[,x] 0.

Violação da hipótese de ‘independência’


Média condicional zero

E[|todos dados em X] = 0 E[|X] = 0 é mais forte que E[i | xi] = 0

O segundo diz que o conhecimento de xi não dá nenhuma informação sobre a média de i.

O primeiro diz que nenhum xj dá informação sobre o valor esperado de I.

“nenhuma informação” é similar a nenhuma correlação.


Homocedasticidade e não Autocorrelação

Var[|X] = 2I.

Var[] = 2I? Prova: Var[] = E[Var[|X]] + Var[E[|X]].


Distribuição Normal de ε

Usada para facilitar as derivações de estatísticas de testes em amostras finitas.

Derivação das distribuições exatas das estatísticas t, F.


O Modelo Linear

y = X+ε, N observações, K colunas em X, incluindo a coluna de um. Hipóteses sobre X Hipóteses sobre ε|X E[ε|X]=0, E[ε]=0 and Cov[ε,x]=0

Regressão? Se E[y|X] = X Aproximação: projeção linear.


Ajuste da Regressão

“Variação:” No contexto do “modelo” , significa a variação de uma variável como resultado do movimento de outra variável

Variação total = yM0y =

M0 = I – i(i’i)-1i’ = transforma uma matriz em desvios com relação a média.

n

2i

i=1

(y - y)


Decomposição da Variação de y

Decomposição: y = Xb + e M0y = M0Xb + M0e = M0Xb + e. (Desvios com relação à média. M0e = e ) yM0y = b(X’ M0)(M0X)b + ee = bXM0Xb + ee. (e’ M0X = e’X = 0.)Uma das colunas de X é i. Soma quadrado total = Soma quadrado da

regressão (SSR)+Soma quadrado dos resíduos (SSE)


Medida de ajuste

R2 = bXM0Xb/yM0y =

R2 é limitado a zero e um sss:(a) Existe um termo constante em X e(b) O método utilizado é o MQO.

N 2

ii 1

Regression Variation1

Total Variation(y y)

e'e


Adicionando variáveis

R2 nunca é reduzido quando uma variável z é adicionada na regressão:


Adicionando variáveis ao modeloModelo 1: Mínimos Quadrados (OLS), usando as observações 1-3010 (n = 2220)

Observações omissas ou incompletas foram ignoradas: 790 Variável dependente: wage

Coeficiente Erro Padrão razão-t p-valor

const -598,93 53,2452 -11,2485 <0,00001 *** educ 19,3177 2,27429 8,4940 <0,00001 *** age 28,835 1,65546 17,4181 <0,00001 *** fatheduc 5,96486 1,84208 3,2381 0,00122 *** motheduc 5,68477 2,19016 2,5956 0,00950 ***

Média var. dependente 589,8140 D.P. var. dependente 265,1151 Soma resíd. quadrados 1,26e+08 E.P. da regressão 238,5742 R-quadrado 0,191659 R-quadrado ajustado 0,190199 F(4, 2215) 131,2951 P-valor(F) 9,8e-101 Log da verossimilhança -15301,33 Critério de Akaike 30612,66 Critério de Schwarz 30641,19 Critério Hannan-Quinn 30623,08


Adicionando variáveis ao modeloModelo 2: Mínimos Quadrados (OLS), usando as observações 1-3010 (n = 2220)

Observações omissas ou incompletas foram ignoradas: 790 Variável dependente: wage

Coeficiente Erro Padrão razão-t p-valor

const -523,135 54,2643 -9,6405 <0,00001 *** educ 18,9735 2,2567 8,4076 <0,00001 *** age 28,0532 1,64716 17,0312 <0,00001 *** fatheduc 3,97919 1,85614 2,1438 0,03216 ** motheduc 4,25957 2,18512 1,9494 0,05138 * black -89,2008 14,6514 -6,0882 <0,00001 ***

Média var. dependente 589,8140 D.P. var. dependente 265,1151 Soma resíd. quadrados 1,24e+08 E.P. da regressão 236,6553 R-quadrado 0,204969 R-quadrado ajustado 0,203174 F(5, 2214) 114,1597 P-valor(F) 1,4e-107 Log da verossimilhança -15282,90 Critério de Akaike 30577,80 Critério de Schwarz 30612,04 Critério Hannan-Quinn 30590,31


R2 ajustado

= 1 - [(n-1)/(n-K)](1 - R2)

inclui uma penalidade para variáveis que não acrescentam muito ao ajuste do modelo. Pode cair quando uma variável é incluída no modelo.

2R

2R


R2 ajustado

O que está sendo ajustado?Penalidade por estar inserindo mais variáveis

explicativas.

= 1 - [ee/(n – K)]/[yM0y/(n-1)]

= 1 – [(n-1)/(n-K)(1 – R2)]

2R

2R


Transformações lineares dos dados Como uma transformação linear pode afetar os

resultados derivados do MQO? Com base em X, b = (XX)-1X’y. Os coeficientes de y regredido em Z são c = P -1

b “Valor predito” é Zc = XPP-1b = Xb. O

mesmo!! Resíduos: y - Zc = y - Xb . Os mesmos!! Soma quadrado dos resíduos – idêntica y-Xb = e = y-Zc. R2 será igual pois R2 = 1 - ee/y’M0y (!!).


Transformação Linear Xb é a projeção de y no espaço coluna de X. Zc é a

projeção de y no espaço coluna de Z. Mas, como as colunas de Z são simplesmente combinações linearers das de X, o espaço coluna de Z deve ser idêntico ao de X. Consequentemente, a projeção de y em Z será igual a em X.

Quais implicações práticas deste resultado? Transformação não afeta o ajuste do modelo. Transformação afeta as “estimativas.” Se b é uma

estimativa de , c não pode ser a estimativa de - será a estimativa de P-1.

econometria aula 2 – 20/9/2013 1. exemplo da técnica mqo 2. hipóteses do modelo de rlm 3. ajuste...

Documents