econometria 21mar2012

83
Econometria Prof. Adriano M. R. Figueiredo 1 UNIVERSIDADE FEDERAL DE MATO GROSSO FACULDADE DE ECONOMIA Econometria Básica Prof. Adriano Marcos Rodrigues Figueiredo Versão de 21/03/2012 1 http://br.groups.yahoo.com/group/econometria_ufmt/ CUIABÁ MT 2012 1 Os direitos de reprodução pertencem ao autor e requer citação apropriada.

Upload: afonso-vilas-novas

Post on 04-Aug-2015

102 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

1

UNIVERSIDADE FEDERAL DE MATO GROSSO FACULDADE DE ECONOMIA

Econometria Básica Prof. Adriano Marcos Rodrigues Figueiredo

Versão de 21/03/20121

http://br.groups.yahoo.com/group/econometria_ufmt/

CUIABÁ – MT

2012

1 Os direitos de reprodução pertencem ao autor e requer citação apropriada.

Page 2: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

2

Not everything that can be counted

counts, and not everything that

counts can be counted.

Albert Einstein, (atribuído)

Cientista, Físico Alemão (1879 -

1955)

Page 3: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

3

SUMÁRIO

1. Introdução.......................................................................................................................... 4 2. Pressuposições do Modelo de Regressão Linear Clássico .............................................. 12

2.1. Pressuposição 1: a relação entre Y e X é linear ........................................................ 12 2.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 15

2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de

homocedasticidade) ............................................................................................................. 18 2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não

autocorrelacionados) ............................................................................................................ 18 2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas) ............... 21 2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância

constante: ............................................................................................................................. 22

2.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis

explicativas (não multicolinearidade) .................................................................................. 22 2.8. Resumo das pressuposições ...................................................................................... 24

3 Estimação ........................................................................................................................ 26

Anexo 1: Estimação utilizando matrizes no Excel: ............................................................. 31 Anexo 2: Exercícios: ............................................................................................................ 33

4 Violações nas Pressuposições Clássicas do Modelo de Regressão Linear ..................... 36

4.1. Pressuposição 1: A relação entre Y e X é linear....................................................... 36

4.2. Pressuposição 2: O erro aleatório tem média zero ................................................... 43 4.3. Pressuposição 3: O erro aleatório tem variância constante (presença de

homocedasticidade) ............................................................................................................. 49

4.4. Pressuposição 4: Os erros aleatórios são independentes (ou não

autocorrelacionados) ............................................................................................................ 64

4.5. Pressuposição 6: O erro tem distribuição normal, com média zero e variância

constante: ............................................................................................................................. 74 4.6. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas) ............... 78

4.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis

explicativas (não multicolinearidade) .................................................................................. 78

4.8. Resumo ..................................................................................................................... 82 5 Referências Bibliográficas .............................................................................................. 83

7. Programas Recomendados .............................................................................................. 83

Page 4: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

4

1. Introdução

A Econometria é um ramo da ciência econômica que trata da quantificação das

relações econômicas. Combina a teoria econômica, a matemática e a estatística para a análise

de problemas econômicos como a oferta e demanda de moeda, oferta e demanda de produtos,

a função investimento, o emprego e a renda entre outros.

O objetivo básico da econometria é Analisar conjuntos de dados econômicos de modo

a poder verificar e dar sustentação às teorias econômicas. Da teoria econômica elaboram-se

hipóteses, traduzidas em linguagem pelas ferramentas da matemática [ex.: uma função

y=f(x1, x2, x3,..., xn)] e faz-se a inferência ou dedução pelo raciocínio, tirando por conclusão

com técnicas da estatística.

Tem como instrumento fundamental a análise de regressão, que consiste na obtenção

dos parâmetros para uma dada relação existente entre as variáveis dependentes e

independentes. Muitas vezes trabalha-se com uma amostra de dados obtidos de uma

população. Assim, têm-se alguns conceitos importantes aqui detalhados.

A população, ou também chamada de universo, é o conjunto de indivíduos com

características comuns para um determinado fenômeno. O fenômeno é definido pela variável,

no presente caso, um fenômeno econômico definido por uma ou mais variáveis econômicas.

Estas variáveis são as características medidas, podendo ser quantitativas como a produção e a

renda, ou qualitativas como o gênero e a religião.

A amostra é um subconjunto da população, uma parte do todo. Normalmente se utiliza

a amostra quando existe algum empecilho (financeiro, prático ou outro) para o uso da

população. Neste caso, espera-se que a amostra tenha características tais que representem

adequadamente o todo, e de preferência que seja ao acaso. Para tanto, utilizam-se técnicas

estatísticas para garantir maior representatividade da amostra. Muitas vezes a amostra é

estratificada ou separada em estratos, de acordo com a necessidade de se detalhar os

diferentes grupos.

Page 5: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

5

As variáveis podem ser chamadas de aleatórias quando seus valores estiverem

relacionados com uma probabilidade de ocorrência. A probabilidade é a relação entre os casos

favoráveis entre todos os possíveis. Serão variáveis discretas quando não houver

probabilidade de ocorrência.

Uma técnica para analisar a relação entre variáveis econômicas é por meio da

regressão. Na regressão linear simples (RLS), estima-se a relação existente entre apenas duas

(2) variáveis: uma dependente (ou também chamada de endógena ou explicada), Y; e uma

independente (ou também chamada de exógena ou explicativa ou explicadora), X. Com o uso

da matemática, a relação se expressa como uma função f qualquer: Y = f (X).

No caso mais geral, com mais de duas variáveis, tem-se a regressão linear múltipla

(RLM), estimando-se a relação Y = f (X1, X2, ..., Xn). Neste caso, portanto, tem-se n variáveis

explicativas X para uma variável explicada Y, sendo que existem situações em que se pode ter

mais de uma variável explicada assim como mais de uma equação dentro do modelo analítico

em estudo.

Para melhor compreensão da econometria, convém explicar a estrutura do método de

análise empírica.

Page 6: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

6

A estrutura da análise empírica do método é composta inicialmente por um problema –

uma questão a ser investigada. Com base na teoria econômica referendada em artigos, livros e

observação, elaboram-se hipóteses teóricas (que poderão ou não ser aceitas) compondo o

modelo teórico.

A validação e verificação do modelo e confirmação ou não das hipóteses requer o uso

de dados e técnicas estatísticas e matemáticas as quais compõem o que aqui chamamos de

estimação do modelo, além de critérios econômicos e estatísticos. A validação do modelo

também pode ser realizada com economia política e uso de argumentos não quantitativos,

normalmente associados aos enfoques da sociologia, do direito, das ciências políticas as quais

se relacionarão com a econometria na fase de análise e interpretação dos resultados. Assim, na

análise dos resultados pode-se ter um detalhamento da consistência do modelo teórico

adotado, refutação ou indicação de modelos teóricos, e principalmente a sugestão de políticas

econômicas para tratar o fenômeno econômico estudado.

Portanto, o método implica na origem numa teoria e numa linguagem teórica

econômica, passando por uma tradução desta para a linguagem matemática, muitas vezes com

o uso de estatística descritiva e emprego de tabelas, gráficos, cartogramas ou outros objetos

que melhoram a visualização dos resultados. É importante frisar que a base teórica deve ser a

Page 7: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

7

origem da investigação do problema. Os dados serão associados às variáveis detectadas nesta

teoria. Ao passar para a linguagem matemática, compõe-se o que chamamos de modelo

analítico ou modelo operacional ou ainda modelo econométrico.

O modelo econométrico será uma representação simplificada de um processo real, ou

ainda, o conjunto de equações comportamentais derivadas do modelo econômico,

(VASCONCELOS, 2000: p.14)2. É a operacionalização do modelo em linguagem

matemática.

O modelo a ser estimado normalmente possui componente aleatório, requerendo a

inclusão de um erro que captará os efeitos das variáveis importantes para explicar Y, mas que

não estão no modelo. Representa-se então, o efeito das demais variáveis explicativas por um

termo aditivo ui, denominado resíduo ou erro. O modelo torna-se:

cuja expressão geral matricial é

Y = Xβ + ε

em que é uma matriz de parâmetros a serem estimados (incluindo o intercepto e os

coeficientes angulares) e ε é um vetor de resíduos ou erros aleatórios. Os parâmetros são

constantes às quais cabem papéis particulares em termos de efeitos de uma variável sobre

outra.

O formato matricial linear aberto será:

1 11 1 0 1

2 21 2 1 2

1

1

1

1

k

k

n n nk k n

Y X X

Y X X

Y X X

Portanto, têm-se as matrizes assim nomeadas:

1 11 1 0 1

2 21 2 1 2

1 x 1 x 1 1 x 1 x 1

1

1

1

k

k

n n nk k nn n ( k ) ( k ) n

Y X X

Y X XY ; X ; ;

Y X X

Neste cenário, tem-se uma relação entre variáveis X e a Y, podendo-se ilustrar

graficamente como uma dispersão de pontos em dois eixos. A dispersão dos pontos em torno

de uma reta de tendência é o resultado de um grande número de pequenas causas, cada uma

delas produzindo um desvio positivo (+) ou negativo (–). O desvio será a diferença entre o

2 VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo: Atlas, 2000.

Page 8: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

8

valor observado e o valor estimado da variável dependente do modelo. Portanto, tem-se ui

devido a:

omissão de variáveis

problemas de especificação

erros de medida da variável dependente

Pode-se dizer que Y nunca pode ser previsto exatamente. Portanto, para cada valor de

X, existe uma distribuição de probabilidade dos valores de Y, com média E(Yi) = Y = X e

variância constante 2.

O objetivo da análise de regressão é estimar uma curva através da nuvem de pontos,

relacionando uma variável dependente como função de outras variáveis ditas independentes,

sendo que a forma funcional deve ser pressuposta pelo pesquisador. Neste caso, a teoria a

respeito da relação estudada, a análise da dispersão dos pontos e os estudos anteriores acerca

desta relação ajudarão nesta definição.

Por exemplo, pode-se observar a relação entre o PIB dos municípios de Mato Grosso e

sua componente da agropecuária para o ano de 2005. A mera descrição gráfica destes valores

indica uma dispersão mais concentrada entre os valores de PIB inferiores a R$1.000.000 e de

agropecuária inferior a R$100.000, mesmo havendo valores atípicos maiores que os

mencionados, mas para poucos municípios. A mesma observação poderia ser conduzida com

cartogramas, ou com tabelas, mas que talvez não permitissem ao leitor a mesma impressão

que o gráfico de dispersão.

0

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

0 100,000 300,000 500,000 700,000

AGRO05

PIB

05

Page 9: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

9

Uma inspeção visual nos dados, como nos gráficos ou com uso de medidas estatísticas

descritivas como média, mediana, moda, máximos e mínimos, é importante para o

investigador ter maior conhecimento do comportamento das variáveis, o que permitirá melhor

especificação do modelo analítico. A ocorrência de valores atípicos é uma preocupação que o

investigador deve tentar “tratar” adequadamente e melhorando as estimações.

As variáveis como mencionadas anteriormente, podem ser quantitativas ou

qualitativas. Os dados a ela associados, portanto, poderão ter diferentes características,

diferenciando-se entre séries temporais, de seção cruzada, ou combinação entre estes dois

tipos.

Podem-se ter dados de uma variável acompanhada no tempo, ou seja, o que se chama

de série temporal como no gráfico do índice do PIB brasileiro no período de 1994 a 2003,

com dados trimestrais. Por exemplo, o preço de uma ação ou a renda de um indivíduo pode

ser acompanhada semanalmente, ou mensalmente ou anualmente, e neste caso procura-se

avaliar as alterações desta no tempo, ou a dinâmica da série. Neste caso, não se trata de uma

amostra aleatória, embora o pesquisador deva ter argumentos para a escolha do período

analisado.

As investigações das relações entre séries temporais têm ocupado vasto espaço na

literatura econométrica recente, preocupando-se principalmente com a possibilidade de

relações espúrias, quando a relação decorre do comportamento temporal (tendência e

sazonalidade) e não precisamente do efeito entre as variáveis, dando origem aos modelos

autoregressivos, médias móveis e outros a serem desenvolvidos mais a frente.

Figura. Valor do índice do PIB trimestral brasileiro de 1994 a 2003.

96

100

104

108

112

116

120

124

1994 1995 1996 1997 1998 1999 2000 2001 2002 2003

PIB

Page 10: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

10

Alguns dados podem estar relacionados ao mesmo período de tempo, para diferentes

indivíduos, empresas, regiões. Neste caso, dá-se o nome de séries de secção cruzada. Quando

se tratam de indivíduos ou empresas e são amostras, chamamos de amostra aleatória. Cada

observação é um novo indivíduo, firma ou município com informação em um ponto no

tempo. São típicos os casos de dados municipais, como o PIB dos municípios de Mato Grosso

para um dado ano. Nestes dados, em geral se preocupa com a variabilidade entre as unidades

da série, ou seja, entre os municípios. Os dados neste caso ficam mais bem expressos em

cartogramas, ou em gráficos de barras ou colunas, pois não é possível “unir pontos” como

num gráfico no tempo.

Figura. Valor do PIB dos municípios de Mato Grosso em 2005.

Mapa. Arrecadação de ICMS de combustíveis em Mato Grosso em 2008.

0

1,000,000

2,000,000

3,000,000

4,000,000

5,000,000

6,000,000

7,000,000

25 50 75 100 125

PIB05

Page 11: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

11

Os dados podem ainda relacionar os dois tipos anteriores, ou seja, dados de diferentes

unidades ou indivíduos acompanhados para diferentes períodos de tempo, originando o que se

chama de combinação de séries temporais e seção cruzada (STSC), ou dados longitudinais.

Como exemplo, pode-se ter uma amostra de consumidores de Mato Grosso como no caso da

Pesquisa Nacional de Amostragem por Domicílio (PNAD) conduzida pelo IBGE, cujos

detalhes do consumo são investigados anualmente. Neste caso, a preocupação é tanto na

variabilidade entre indivíduos como na dinâmica ou no comportamento temporal de cada

individuo. No caso de se ter os mesmos indivíduos nos mesmos períodos de tempo, tem-se a

especificidade de uma combinação STSC chamada “painel”.

A forma de relacionar as variáveis no modelo econométrico observará aspectos

matemáticos e estatísticos, sempre com base na teoria. As previsões a serem obtidas devem

ser olhadas com cautela, pois o uso de funções matemáticas ou escolhas de variáveis

inadequadas poderá resultar em má especificação do modelo e outros problemas estatísticos

que invalidarão as estimativas. Por este motivo, é fundamental ter uma boa revisão de

literatura investigando o que outros pesquisadores realizaram, de que modo trabalharam, e

quais os principais resultados, tudo isto previamente ao desenvolvimento do modelo

econométrico. Este modelo ainda estará sujeito a verificações estatísticas de pressupostos

importantes, detalhados a seguir.

Page 12: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

12

2. Pressuposições do Modelo de Regressão Linear Clássico

O modelo clássico de análise de regressão é construído com base numa série de

pressuposições referentes ao comportamento da população. Conhecidas essas pressuposições,

será possível estimar os parâmetros do modelo, assim como a matriz de variância e

covariância dos mesmos e a respectiva matriz para os resíduos.

A seguir faz-se a descrição rápida das pressuposições do modelo clássico de regressão.

2.1. Pressuposição 1: a relação entre Y e X é linear

Forma funcional

Esta pressuposição em princípio implica na consideração de uma reta estimada, ou seja,

uma função linear nas variáveis do tipo

0 1 1 2 2i i i k ki iY X X X

ou pela forma matricial:

Y = X + ε

em que Y é o vetor de variáveis explicadas, X é uma matriz de variáveis explicativas

(incluindo uma coluna de uns para o intercepto) e ε é um vetor de resíduos aleatórios.

Entretanto, deve-se atentar para outros tipos de linearidades implícitas na

pressuposição. Têm-se os seguintes tipos de linearidades: linearidade das variáveis

explicativas (X) e linearidade dos parâmetros (). A não linearidade nas variáveis às vezes

pode ser contornada por transformações nas variáveis, mas a não linearidade dos parâmetros é

mais complicada e requer outros métodos de estimação não lineares.

É fácil imaginar que o comportamento de um fenômeno econômico não segue a

relação retilínea, como por exemplo, as tradicionais relações de oferta e demanda não

necessariamente serão retas que se cruzam. É muito mais fácil admitir que o comportamento

de variáveis econômicas seja curvilíneo. Na figura dos retornos das ações das Lojas

Americanas em função de uma variável Z qualquer, observa-se que as possibilidades de

ajustamentos em reta ou em parábola apresentam diferentes resultados em termos de melhor

representar a nuvem de pontos.

Quando as variáveis explicativas são elevadas a alguma potência diferente de um, a

função que relaciona o comportamento dessas variáveis com a variável explicada será

Page 13: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

13

diferente de uma reta e os estimadores tradicionais de Mínimos Quadrados Ordinários (MQO)

não mais serão válidos.

Existem modelos que são chamados de “intrinsecamente lineares”, ou que podem se

tornar lineares por transformação das variáveis. O caso mais comum na literatura econômica é

o de funções do tipo Cobb-Douglas, ou seja,

eXXAXY 3

3

2

2

1

1

em que os parâmetros podem assumir valores diferentes de um e, ainda, tem-se a

multiplicação de variáveis explicativas. A função acima pode ser linearizada transformando-

se as variáveis em logaritmos, obtendo:

ou, simbolizando o ln por *:

*

33

*

22

*

110

* XXXY

A função linearizada pode ser estimada da forma tradicional lembrando que os

parâmetros estimados serão agora da função transformada, que no caso log-log (Cobb-

Douglas), equivalem às elasticidades. A função transformada pode ser vista como linear nos

y = 0.0018x + 0.0048

y = 0.2541x2 - 0.0188x + 0.0016

0

0.01

0.02

0.03

0.04

0.05

0.06

0.07

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

RLAME x Z

Z Linear (Z) Polinômio (Z)

Page 14: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

14

parâmetros (os parâmetros β são todos em primeira potência) e nas variáveis transformadas

(X*=lnX).

Outros modelos não podem ser transformados e são os chamados intrinsecamente não

lineares. Por exemplo, é possível perceber que a função abaixo não pode ser linearizada:

eeeAY 2513 X

4

X

21

Esses modelos devem ser estimados por Mínimos Quadrados não lineares ou Máxima

Verossimilhança não linear. Algumas formas funcionais utilizadas em economia da produção

podem ser:

Cobb-Douglas logaritmizada:

n

1iii0 xlogaaylog

Elasticidade Constante de Substituição ou CES:

n

1iii0 xaay

Generalizada Leontief:

n

1i

n

1jjiij

n

1iii0 xxaxaay

Transcendental Logaritmica ou Translog:

n

1i

n

1jjiij

n

1iii0 xlogxlogaxlogaaylog

Quadrática:

n

1i

n

1jjiij

n

1iii0 xxaxaay

A utilização de uma forma mais complexa em detrimento de uma mais simples

dependerá da disposição dos dados e do rigor científico desejado. A função Cobb-Douglas de

modo geral oferece um ajustamento satisfatório e é fácil de executar. As funções elasticidade

de substituição constante (CES), Generalizada Leontief, Transcendental Logarítmica e

Quadrática são generalizações da função Cobb-Douglas para contornar pressuposições

econômicas de substitutibilidade dos fatores e produtos ou ainda de concorrência perfeita,

entre outras situações.

Juntamente ao problema da forma funcional (linearidade dos parâmetros e variáveis),

quando se especifica um modelo, automaticamente estão sendo cometidos outros dois tipos de

erros que poderão ou não comprometer a análise. Um está associado à “omissão de uma

variável relevante” e outro associado à “inclusão de variável irrelevante”.

Omissão de variável relevante

Imagine que a revisão de literatura, revisão teórica, indique que a quantidade

demandada (Q) de um produto seja função do preço do produto (P) e da renda (R), e que o

Page 15: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

15

comportamento da demanda do produto analisado na realidade está em conformidade com a

teoria. O modelo “correto” seria:

(A) Qt = β0 + β1.Pt + β2.Rt + εt*

em que os β são parâmetros estimados e ε é o resíduo aleatório.

Imagine agora que, por algum motivo, estimou-se a demanda em função apenas do

preço do produto, fazendo:

(B) Qt = α 0 + α 1.Pt + εt.

em que α são parâmetros e as demais variáveis como anteriormente citadas.

A questão é: quais as consequências sobre os estimadores de MQO (ou sobre os β

estimados)? Qual o efeito sobre α 0 e α 1 em razão da exclusão de R do modelo?

Se Pt for altamente correlacionado com Rt, a retirada de Rt trará um alto viés (alta

tendenciosidade) e os parâmetros estimados serão muito diferentes do valor esperado:

βestimado ≠ E(β)

ou seja, os parâmetros estimados serão inconsistentes e no limite E(β) ≠ β.

Os testes de hipóteses não serão válidos e as estimativas de variâncias também serão

tendenciosas.

Inclusão de variável irrelevante

Imagine agora a situação inversa: o modelo estimado contempla mais variáveis

explicativas do que as que deveriam estar no modelo “correto”. Imagine que o modelo deveria

ter apenas P e que foi estimado com P e Z, sendo Z uma variável irrelevante no modelo.

(A) Qt = β0 + β1.Pt + εt. modelo correto

(B) Qt = α 0 + α 1.Pt + α 2.Zt + εt* modelo estimado

e que Z não tem relevância teórica.

A questão é: quais as consequências de α, em razão da inclusão de Zt, sobre β?

As consequências da inclusão de uma variável irrelevante serão menos problemáticas

que no caso da omissão de uma variável relevante. Primeiro, a presença das variáveis

“irrelevantes” não viesa as outras estimativas. Segundo, aumentam-se a variância dos

parâmetros e o desvio-padrão. Tende, portanto, a fazer com que “α” seja não significativo,

mas aumenta o coeficiente R2.

2.2. Pressuposição 2: O erro aleatório tem média zero

Page 16: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

16

Significa que o erro tem uma distribuição de probabilidade centralizada em zero (com

média zero). O erro é o efeito das variáveis que não consigo explicar no modelo. A média

pode ser considerada como o valor esperado do erro, ou seja,

Ou na forma matricial,

Dado que

Portanto, E(Y) = Xβ e o modelo fornece soluções adequadas estatisticamente. Essa

pressuposição é importante para ter confiança na estimação por β = (X´X)-1

X´Y. Caso os

erros não tenham média zero, o estimador β = (X´X)-1

X´Y será tendencioso.

Observe na figura que traz as taxas de retorno observadas e estimadas para a ação das

Lojas Americanas S.A., verifique que existem momentos em que os pontos vermelhos (com

marcador quadrado) estão acima que os verdes (com marcador de x) e em outros momentos

estão abaixo. O gráfico dos resíduos obtidos fazendo resíduo igual a diferença entre o

observado e o estimado, tem-se valores positivos e negativos. A pressuposição prevê que

estes, na média, sejam nulos. Ainda, no gráfico de dispersão de RLAME x RREN, pode-se

observar que existem resíduos ui positivos e negativos e que a reta de regressão estimada

como a reta de tendência passa aproximadamente no meio da nuvem de pontos.

Page 17: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

17

-.3

-.2

-.1

.0

.1

.2

.3

-.4

-.2

.0

.2

.4

2005 2006 2007 2008 2009 2010 2011

Residual = observado menos estimadoActual - observado

Fitted - estimado

Resultados de RLAME = f(RREN, RBVSP) e resíduos

-0.4

-0.3

-0.2

-0.1

0

0.1

0.2

0.3

0.4

0.5

-0.4 -0.3 -0.2 -0.1 0 0.1 0.2 0.3 0.4 0.5

RLAME x RREN

RREN Linear (RREN)

ui>0

ui<0

Page 18: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

18

2.3. Pressuposição 3: O erro aleatório tem variância constante (presença de homocedasticidade)

A variância é calculada com base no valor esperado do quadrado da diferença entre a

média e o valor esperado da média. Ou seja, a definição estatística é

V(ei) = E [ei – E (ei)]2

V(ei) = E (ei2) =

2 (populacional) para todo i

ou seja, presença de Homocedasticidade nos resíduos. A presença da homocedasticidade

implica que a variância para todos os resíduos é a mesma.

O caso contrário será:

V(ei) = E (ei2) = i

2 presença de Heterocedasticidade

O problema de heterocedasticidade é típico de dados de seção cruzada. Pode

significar, por exemplo, uma heterogeneidade da amostra. A dispersão dos valores para cada

observação é diferente entre as observações. A amostra vem de uma população onde os erros

não são homogêneos. Na figura 3.2 de Pindyck e Rubinfeld (2004), observa-se que a nuvem

de pontos não tem uma dispersão constante em torno da reta estimada, o que caracteriza a

variabilidade distinta ao longo da amostra de X. A variância dos resíduos reduz com X no

caso (a) e aumenta no caso (b), caracterizando a presença de heterocedasticidade.

2.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)

Neste caso pressupõe-se que os erros de uma observação não afetam os erros do

período seguinte, e assim sucessivamente.

Page 19: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

19

COV(ei ,ej) = E { [ei – E(ei)] [ej – E(ej)] }

E (ei, ej) = 0, i j

esta pressuposição é denominada “ausência de autocorrelação”. A violação desta

pressuposição é um problema típico de séries temporais.

Quando se trabalha com ajustamentos de séries temporais, essa pressuposição em geral

não é obedecida, visto que nas séries temporais como, por exemplo, as séries de preços, de

salários e de produção têm no seu comportamento o reflexo de movimentos cíclicos e/ou

sazonais. Observa-se na figura 3.3. de Pindyck e Rubinfeld (2004) que existem relações entre

os resíduos das observações à medida que X aumenta – correlação negativa (caso a) e positiva

(caso b).

Algumas causas da autocorrelação nos resíduos estão relacionadas a variáveis não

especificadas no modelo, forma funcional inadequada e inércia temporal no fenômeno.

A principal consequência da violação desta pressuposição é a ineficiência dos

estimadores de MQO, mas continuam não tendenciosos. Nesta situação, da mesma forma que

para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados Generalizados

(MQG).

Uma forma usual é olhar os gráficos de dispersão entre os resíduos da regressão.

Padrões geométricos podem indicar o tipo de correlação, como na Figura de Gujarati (2006).

Page 20: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

20

2.4.1 Investigação acerca da Matriz de Variância e Covariância dos resíduos

A análise da Matriz de Variância e Covariância dos resíduos, doravante chamada de

Var-cov(εε´), permite interpretar as pressuposições de presença de homocedasticidade dos

resíduos e presença da não autocorrelação dos resíduos numa mesma matriz.

Seja o vetor de resíduos ε do tipo:

1

2

x 1n n

Então, sua transposta será: 1 2 1 x n n' . Assim, a matriz var-cov(εε´) será:

Page 21: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

21

1

2

2

1 2 1

2

2 1 2

2

1 2

2

2

2

2

0 0

0 0

0 0

n

n

n

n n

Var Cov E E

E I E

Assim, ao escrever que var-cov(εε´) = 2.I, ao mesmo tempo se diz que as variâncias são

homocedásticas iguais a 2 (diagonal principal tem todos os valores iguais a

2, i=j) e que as

autocorrelações entre resíduos de observações distintas são nulas (valores nulos fora da

diagonal principal, i≠j).

2.5. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)

Neste caso, pressupõem-se fixos os valores da variável explicativa e observa-se o que

ocorre com a variável dependente. Se o X é aleatório, mas independente do erro, pode-se

mostrar que os parâmetros estimados serão não tendenciosos. Assim, a confirmação esta

pressuposição significa dizer que as variáveis explicativas são distribuídas independentemente

dos resíduos.

Em linguagem matemática, pode-se dizer que a covariância entre os resíduos ui e Xi é

igual a zero ( . Formalmente,

Entretanto, se as variáveis explicativas e os termos aleatórios forem correlacionados,

haverá inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o

estimador de variáveis instrumentais. O método de Variáveis instrumentais prevê que

β = (Z´X)-1

Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.

Page 22: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

22

2.6. Pressuposição 6: O erro tem distribuição normal, com média zero e variância constante:

Esta pressuposição pode ser especificada da forma:

εi ∼ N (0, 2) , i = 1, 2, ..., n

As consequências associadas a não normalidade dos resíduos são parâmetros

estimados não normais e não será possível fazer os testes de hipóteses com distribuições

baseadas na normal, como os usuais testes “t” e “F” para avaliar a qualidade dos

ajustamentos, e para construir intervalos de confiança para os parâmetros conforme exposto

ao longo do curso. Em termos gráficos, pode-se plotar o histograma da série de resíduos e

comparar com a distribuição normal teórica como na figura.

Os estimadores continuam sendo os Melhores Estimadores Lineares Não-

Tendenciosos (MELNT).

2.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)

0

2

4

6

8

10

-.3 -.2 -.1 .0 .1 .2 .3

Histogram Normal

De

nsit

y

RESID01

Page 23: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

23

A multicolinearidade é um problema relacionado com fortes relações entre as variáveis

explicativas no modelo de regressão. Considere a matriz de variáveis explicativas como

composta por colunas das variáveis X1, X2, ... , Xn e ainda uma coluna de “1” para incluir o

intercepto.

A pressuposição prevê a não existência de qualquer relação linear entre as variáveis

explicativas X, como por exemplo,

X1 = 2.X2

X1 + 3.X2 = X5

No método de mínimos quadrados ordinários, a existência de uma relação linear entre

os X´s representa uma redução no oposto da matriz (X) e o determinante de X´X será próximo

de zero. No caso de uma relação linear exata, haverá uma singularidade perfeita na matriz

X´X e seu determinante será zero. Como o método de mínimos quadrados ordinários prevê a

inversão da matriz X´X, o determinante próximo de zero fará com que os parâmetros sejam

indeterminados. A matriz (X´X)-1

não existirá e não será possível estimar o modelo. No caso

exato, o sistema interrompe e acusará erro. Em muitos casos aplicados, o que se observa são

valores de determinantes muito próximo de zeros, e muitas vezes o sistema não interrompe,

requerendo a observância das estatísticas de teste.

O problema da correlação entre as variáveis explicativas pode ser visto da seguinte

maneira:

1) ausência de correlação ou ausência de multicolinearidade: a regressão múltipla dá o mesmo

resultado que as regressões simples quando as correlações parciais entre as variáveis

explicativas forem nulas;

2) correlação perfeita ou multicolinearidade perfeita: a relação linear perfeita entre os X´s

causa a indeterminação de β = (X´X)-1

X´Y pois (X´X)-1

é singular;

3) alto grau de correlação entre os X´s ou multicolinearidade imperfeita: multicolinearidade

O enfoque é diferente das outras pressuposições: é um problema da amostra, enquanto

as outras pressuposições se referiam mais ao erro e à população, enquanto esta se refere mais

à amostra. Não se trata, portanto, de testar a pressuposição, mas sim de pensar como lidar com

o problema.

Consequências da multicolinearidade:

Teóricas: consequências sobre as propriedades dos estimadores de M.Q.O.; a

multicolinearidade não afeta em nada as propriedades dos estimadores de M.Q.O.,

que continuam os melhores estimadores lineares não tendenciosos (MELNT);

Page 24: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

24

Práticas:

1. aumenta as variâncias dos parâmetros estimados:

aumenta V(β) = s2(X´X)

-1

(X´X)-1

= (1/|X´X|) . Adj(X´X)

como |X´X| → 0 => (X´X)-1

→ ∞ e V(β) → ∞

2. aumenta erro-padrão

3. reduz “t” => induz à não significância => estarei aceitando o fato de que a

variável não é importante no modelo em virtude da multicolinearidade, mas

que na realidade a variável poderá ser importante ao corrigir o modelo

4. Estimativas muito sensíveis: tirando uma ou duas observações, as estimativas

alteram muito => é melhor ter um modelo onde as alterações não alteram

muito as estimativas, uma certa estabilidade do modelo em termos de

magnitudes e sinais

2.8. Resumo das pressuposições

Apresentadas as pressuposições, o Quadro 1 tem um resumo com a expressão

matemática em forma escalar e matricial, assim como o problema que se tem caso as

pressuposições sejam violadas ou não atendidas. Em geral, pode-se dizer que se testará o

modelo e, em caso de violação, se “tratará” ou corrigirá adequadamente.

Page 25: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

25

Quadro 1. Pressuposições do Modelo de Regressão Linear Clássico Normal

Pressuposição

Expressão Matemática* Problema (o que acontece se as pressuposições

não forem atendidas) Notação Escalar Notação Matricial

1. Relação Linear Yi=β0 + β1 Xi1 + ... + βk Xik + εi

em que i =1, 2, 3,..., n Y = Xβ + ε

Não linearidade, Erro de especificação dos X´s

2 . Média do erro é zero E(εi) = 0 para todo i E(ε) = 0, onde ε e 0 são vetores nX1 Erro de especificação

3. Variância do erro é constante E(εi²) = δ², para todo i E(εε´) = δ² I

Heterocedasticidade

4. Erros independentes E(εiεj) = 0, i ≠ j Autocorrelação

5. Variáveis explicativas são não estocásticas ou fixas

X1, X2, ..., Xk são fixos Cov(Xij, εi) = 0

p/ j= 1, 2, 3, ..., n

A matriz X é não estocástica Cov(X, ε) = 0

Erros nas variáveis, Variável dependente defasada, Relações

simultâneas

6. Independência linear entre as variáveis explicativas

Ausência de relação linear entre os X´s

Posto de X igual ao seu número de colunas, isto é,

ρ(X) = p < n Multicolinearidade

7. Erro tem distribuição normal εi ~ N (0, δ²)

i = 1, 2, 3, ..., n ε ~ N (0, δ²I) Erros não normais

* Em que Y = [Yi] é um vetor (n x 1) das observações da variável dependente; X = [Xij] é uma matriz (n x p) das observações das variáveis independentes; ε = [εi] é um vetor (nx1) dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem (m x n); k é o número de variáveis independentes; p = (K + 1) é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.

Page 26: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

26

3 Estimação

A estimação dos parâmetros do modelo linear pressupõe a satisfação aos pressupostos

básicos anteriormente mencionados. O princípio que norteia os cálculos é “obter valores de

parâmetros que minimizem a Soma do Quadrado dos Resíduos - SQRes”, ou comumente

chamado de Mínimos Quadrados Ordinários - MQO.

Ou seja, para o modelo Y = Xβ + ε a estimação requer a minimização conforme a seguir:

FORMA ALGÉBRICA: Min Σ εi2 =

Σ (Yi – β0 – β1X1i – β2X2i)2

FORMA MATRICIAL: Min ε’ε ou Min SQRes

O problema matemático é de otimizar, ou seja, minimizar um produto de um vetor

linha por um vetor coluna. Portanto, deriva-se e iguala a zero obtendo a solução para o vetor

de parâmetros. Segue abaixo:

1

2 2 0

ˆ ˆ' Y X Y X

ˆ ˆ ˆ ˆ' Y Y Y X X Y X X

( ' ) ˆX Y X Xˆ

ˆX X X Y

ˆ X X X Y

Portanto, o estimador dos parâmetros pelo método de Mínimos Quadrados Ordinários

(MQO) é:

1

(k+1 x 1)ˆ X X X Y

Assim, com as matrizes X e Y posso obter os parâmetros estimados.

O estimador da variância dos resíduos será s2, para os (n-p) Graus de Liberdade (GL =

número de observações, n, menos o número de parâmetros, p):

2 SQRes SQRese es

n p n p G.L.

A matriz de variância-covariância dos parâmetros será:

Sistema de equações normais dos

mínimos quadrados

Válida para não multicolinearidade de X

Page 27: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

27

1

1 1 1

1

1

1 1

1 1

ˆ ˆ ˆVar Cov( ) E

mas

ˆ X X X Y

ˆ X X X X X X X X X X X

ˆ I . X X X

ˆ X X X

ˆVar Cov( ) E X X X X X X

ˆVar Cov( ) E X X X X X X

Mas como X são fixas, independentes dos resíduos, o valor esperado se reduz a:

1 1

1 12

ˆVar Cov( ) X X X E X X X

ˆVar Cov( ) X X X IX X X

Ou seja,

1 12

12

12

12

ˆVar Cov( ) X X X X X X

ˆVar Cov( ) I X X

ˆVar Cov( ) X X

ou

ˆVar Cov( ) s X X

Desta forma, têm-se as equações essenciais para a estimação. Segue quadro resumo

abaixo, com os estimadores de MQO.

Quadro 2. Estimadores de Mínimos Quadrados Ordinários.

1

2

12

SQRes SQRes

ˆ X X X Y

e es

n p n p G.L.

ˆVar Cov( ) s X X

Estimadores dos

parâmetros

Estimador da

variância-

covariância dos

resíduos

Estimador da

variância-

covariância dos

parâmetros

Page 28: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

28

O valor dos erros padrões dos parâmetros será obtido a partir da raiz da variância dos

parâmetros, ou seja, tirando-se a raiz da diagonal principal da var-cov(β).

Os parâmetros devem ter análise de significância, por meio de um teste de hipótese do

tipo t:

0

1

0

0

j

j

j

j

calculado n p

G.L.ˆ

H :

H : ( bilateral )

ˆt ~ t

s

Os softwares econométricos em geral disponibilizam o valor da probabilidade (p-

value) associado ao valor de t calculado. Desta forma, pode-se comparar com níveis

predeterminados de significância para rejeitar ou não a hipótese nula. Em geral, costuma-se

observar os valores das probabilidades comparando a 10%, 5% ou 1% para concluir a respeito

da hipótese nula. Espera-se, para que a variável X tenha efeito não nulo sobre Y, que se rejeite

a hipótese nula e que assim, os valores calculados dos parâmetros permitam uma interpretação

econômica deste efeito.

Para auxiliar o entendimento, é possível decompor a variação de Y como abaixo:

Variação total = variação explicada por X + variação não explicada

: variação devida à regressão

SQTot=SQReg + SQRes

Y

X

+ (reta estimada)

Page 29: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

29

Em que SQTot é a soma dos quadrados totais (relativa à variação total), SQRes é a

soma do quadrado dos resíduos (relativa à variação não explicada) e SQReg é a soma dos

quadrados da regressão (relativa à variação explicada por X).

22 2 2 2

2

22 2

SQTot 2

SQRes

SQReg

SQTot SQReg + SQRes

i i i i i i

i

i i

ˆ ˆ ˆ ˆy y y e e Y Y Y Y nY

ˆe e' e Y Y X Y

ˆ ˆ ˆy Y Y Y Y nY

O coeficiente de determinação (R2

– R-squared ou R quadrado) é utilizado para avaliar

quanto da variação total é explicada. Define-se como:

Seu intervalo de variação é de zero a um em condições normais: 0 < R2 < 1.

Se SQRes=SQT então R2=0.

Se SQRes ≈ 0 então R2=1.

Ou seja, mede quanto da Variação de Y está sendo explicada por Variações de X, ou

seja, mede a qualidade do ajustamento. Procura-se estimar um modelo com o maior R2

possível. Em geral, acredita-se ter um modelo bem ajustado para valores maiores que 0,8, mas

sempre se deve ter cautela quanto a esses indicadores usualmente aceitos.

Na forma matricial, o cálculo será;

22

2 21

ˆ ˆX Y nY Y Y X YR

Y Y nY Y Y nY

Outro indicador útil, principalmente para comparações entre modelos é o R2

ajustado

(adjusted R-squared). Ele recebe este nome, pois se faz um ajustamento de SQRes e de SQTot

quanto aos graus de liberdade da respectiva variação. Assim, tem-se:

2

SQRes

n-p1

SQTot

n-1

R

Em geral, quanto maior o número de variáveis X, maior é o valor de R2, mas para o R

2

ajustado esta regra não vale. Justamente para evitar a inclusão equivocada de variáveis

Page 30: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

30

explicativas é que se usa o R2

ajustado. Assim, a inclusão de uma variável irrelevante poderá

elevar o valor de R2, mas não necessariamente elevará o valor de R

2 ajustado.

Se n for grande e p pequeno em relação a n, a diferença entre 2R (R quadrado

ajustado) e R² será pequena. Se n for pequeno e p grande em relação a n, a diferença entre

ambos pode ser grande e o valor ajustado será mais importante.

Outro indicador é o Teste F da regressão (F-statistic). Procura-se saber se o modelo

tem suporte estatístico. É o Teste de significância global da regressão: os X’s em conjunto

explicam Y de forma significativa. A hipótese nula é de que todos os parâmetros em conjunto

são nulos. A Hipótese alternativa prevê pelo menos um parâmetro não nulo.

0 1 2

1

0 0 0

0

k

i

H : , ,...,

H : pelo menos um

Define-se a estatística de teste F como:

1

SQReg

p-1

SQRes

n-p

p ,n p

G.L.

F ~ F

Se Fcalculado > Ftabelado , então rejeita-se H0 e concluo pela existência de ao menos um X

explicando Y. Deseja-se um P-value (F de significação) menor que 10%, 5% ou 1%,

similarmente ao teste de t dos parâmetros.

Esses indicadores em geral são obtidos em todos os softwares econométricos ou

estatísticos. Pode-se mencionar alguns: Excel, Eviews, Stata, Gretl, SAS, SPSS, Gauss, e

MatLab.

Alguns sites podem auxiliar ao leitor:

http://www.oswego.edu/~economic/econsoftware.htm

http://www.economics.ltsn.ac.uk/software/econometrics.htm

http://emlab.berkeley.edu/eml/index.shtml

O anexo apresenta rotinas para execução dos cálculos usando matrizes no Excel. Um

software bastante interessante, plataforma livre e com versão em português é o Gretl, no link:

<http://gretl.sourceforge.net/gretl_portugues.html>.

Os estimadores do MQO são os Melhores Estimadores Lineares Não tendenciosos

(MELNT). Ou seja, quanto maior a amostra, tendendo ao infinito, os estimadores de MQO

tenderão aos valores verdadeiros, os que se teria para a população, não tendenciosos, de

variância mínima.

Page 31: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

31

Anexo 1: Estimação utilizando matrizes no Excel:

1. Entrada dos dados:

a. Digitar matriz de dados X e Y no Excel

i. Gujarati (2006: p.71) X(10x2) e Y(10x1)

Tabela. Despesas familiares de consumo semanal Y e renda familiar semanal X – dados

hipotéticos.

obs Y

(consumo)

X

X0 (intercepto)

X1 (renda)

1 70 1 80

2 65 1 100

3 90 1 120

4 95 1 140

5 110 1 160

6 115 1 180

7 120 1 200

8 140 1 220

9 155 1 240

10 150 1 260

Fonte: Gujarati (2006: p.71).

2. Copiar X e colar especial selecionando transpor, fazendo X’ (2x10)

3. Fazer multiplicação X’.X (2x10).(10x2) = X’X(2x2)

a. Seleciona a área de saída (2x2)

b. Inserir fórmula matemática Matriz.mult

i. Matriz 1 = X’

ii. Matriz 2 = X

c. Teclar OK

d. Teclar F2

e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os

dados da matriz X’X (2x2)

4. Fazer inversa de X’X fazendo (X’X)-1

a. Selecionar área de saída (2x2)

b. Inserir fórmula matemática Matriz.inverso

c. Matriz = X’X

d. Teclar OK

e. Teclar F2

f. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os

dados da matriz (X’X)-1

(2x2)

5. Fazer X’Y (2x10).(10x1) = X’Y(2x1)

a. Selecionar área de saída (2x1)

b. Inserir fórmula Matriz.mult

i. Matriz 1 = X’

ii. Matriz 2 = Y

Page 32: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

32

c. Teclar OK

d. Teclar F2

e. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os

dados da matriz (X’Y) (2x1)

6. Cálculo de beta estimado

a. Betaest = (X’X)-1

(2x2) (X’Y)(2x1) = (X’X)-1

(X’Y)(2x1)

i. Selecionar saída 2x1

ii. Inserir fórmula Matriz.mult

1. matriz 1 = (X’X)-1

2. matriz 2 = (X’Y)

b. Teclar OK

c. Teclar F2

d. Teclar Shift+Control+Enter todas ao mesmo tempo para aparecerem todos os

dados da matriz (betaest) (2x1)

7. Para obter Matriz de var-cov(betaest) fazer

a. û'û = Y’Y – betaest’. X’Y

i. Calcular Y’Y pela função Matriz.mult

ii. Calcular betaest’. X’Y pela função Matriz.mult

1. matriz 1 = betaest’

2. matriz 2 = X’Y

iii. Fazer diferença i – ii

b. Calcular sigma quadrado: s2 = û’û/(n-k)

i. n-k = graus de liberdade

c. Calcular var-cov(betaest) = s2.(X’X)

-1 (2x2)

i. Fazer multiplicação de escalar por cada elemento de (X’X)-1

8. Fazer a raiz quadrada dos elementos da diagonal, obtendo os erros padrões dos

parâmetros estimados: utilizar a função RAIZ(·) do Excel.

9. Calcular o valor de t fazendo tβ = betaest/erropbeta . O valor da probabilidade do teste

pode ser obtido pela função estatística do Excel, fazendo DISTT(tβ;n-p;2) que

retornará o valor da probabilidade para P(t> tβ) para o valor tβ, para n-p graus de

liberdade e 2 caudas (bicaudal).

10. Calcular R2

a. R2 = SQE/SQT = (betaest.X’Y – n.Y

2)/(Y’Y - n.Y

2)

i. Y = média de Y

b.

1n

SQT

pn

sReSQ

1

1n

SQT

1p

SQE

R 2

c. )GL(pn,1pF~

pn

sReSQ

1p

SQE

F

Page 33: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

33

Anexo 2: Exercícios:

1. De acordo com a metodologia econométrica, responda verdadeiro (V) ou falso (F):

( ) A heterocedasticidade é um problema no modelo de regressão clássico pois altera os erros-

padrões dos parâmetros.

( ) A expressão YXXX ''ˆ 1 permite o cálculo dos parâmetros por MQO.

( ) A existência de resíduos autocorrelacionados implica em interdependência entre os mesmos.

( ) A aceitação da hipótese nula do teste t-Student dos parâmetros implica na existência de efeitos da

variável X sobre Y no modelo Y = f(X) + ε

( ) É sempre desejável acrescentar variáveis ao modelo de regressão até o limite de dez regressores.

( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,

YXXX ''ˆ 1 pode ser utilizada para um modelo logaritmizado linear.

( ) A pressuposição de não-autocorrelação dos resíduos implica em covariâncias nulas entre os

mesmos.

( ) A estimação realizada pela Ferramenta de Análise de Dados de Regressão no Excel fornece os

mesmos parâmetros estimados que em YXXX ''ˆ 1

.

( ) A idéia básica da estimação econométrica é obter os parâmetros de tal forma que a soma dos erros

seja, na média, nula, e a soma de seus quadrados seja mínima.

( ) A expressão para obtenção dos parâmetros por Mínimos Quadrados Ordinários,

YXXX ''ˆ 1 refere-se a um modelo linearizado qualquer.

( ) A heterocedasticidade dos resíduos implica em variâncias constantes dos resíduos ao longo da

amostra.

( ) A estimação realizada pelas operações matriciais no Excel fornecem os mesmos parâmetros

estimados que a Ferramenta de Análise de Dados de Regressão do referido software.

( ) A especificação do modelo não precisa ser feita antes da estimação, pois as vezes será necessário

excluir alguma variável do modelo.

( ) A fase de estimação do modelo consiste em determinar os parâmetros da equação estimada.

( ) Todo modelo estimado pode ser utilizado para fazer previsões da variável explicada.

( ) A econometria pode favorecer todas as áreas da economia, pois sempre é possível explicar tudo

que se quer com a econometria.

( ) O modelo de regressão linear simples é um caso específico do modelo de regressão linear

múltiplo, podendo estimar os parâmetros matricialmente nos dois casos.

2. Cite e comente a pressuposição de linearidade do modelo de regressão clássico.

3. O método de estimação de Mínimos Quadrados Ordinários é um dos mais utilizados para estimar

parâmetros econométricos. Explique o que significa e o raciocínio por trás desse método.

4. Cite e comente a pressuposição de presença de homocedasticidade dos resíduos do modelo de

regressão clássico.

5. Suponha que se tem dados municipais para o modelo lnQi = βo + β1.lnJUROSi1 + β2.lnRDi2

+ εi, em que Q é a quantidade demandada de moeda no município i, em milhares de reais; JUROS é a

taxa de juros interbancária (CDI) em valores nominais; RD é a renda disponível per capita em reais;

β’s são parâmetros do modelo e ε é o erro aleatório tal que ε ~ N(0,s2). Pergunta-se:

a) Como você faria para obter os valores dos β’s num ambiente computacional do Microsoft Excel?

Quais os passos necessários para execução da estimação?

b) É possível fazer por meio matricial? Quais os passos necessários para execução da estimação?

Page 34: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

34

6. Seja um exemplo da versão modificada da Curva de Phillips macroeconômica, relacionando o

índice de salários como variável dependente (W) como função dos preços (IGP), da taxa de

desemprego (U) e do produto nacional bruto (PNB) como variáveis independentes. O modelo será do

tipo: tt3t2t10t UPNBIGPW . Interprete os resultados abaixo e avalie

comparativamente os dois resultados. Fonte: dados mensais de W, U e IGP-DI, coletados no

www.ipeadata.gov.br e realizaram-se médias anuais. O PIB per capita anual foi obtido diretamente do

mesmo site.

Dependent Variable: LOG(W)

Method: Least Squares

Date: 03/22/06 Time: 11:05

Sample: 1980 2004

Included observations: 25

Variable Coefficient Std. Error t-Statistic Prob.

C -17.74151 3.737840 -4.746459 0.0001

LOG(IGP) -0.020270 0.002273 -8.918010 0.0000

LOG(PIB) 2.450833 0.407685 6.011589 0.0000

LOG(U) 0.425183 0.068249 6.229885 0.0000

R-squared 0.818600 Mean dependent var 5.414171

Adjusted R-squared 0.792686 S.D. dependent var 0.181513

S.E. of regression 0.082646 Akaike info criterion -2.002847

Sum squared resid 0.143439 Schwarz criterion -1.807827

Log likelihood 29.03559 F-statistic 31.58878

Durbin-Watson stat 1.724283 Prob(F-statistic) 0.000000

Dependent Variable: W

Method: Least Squares

Date: 03/22/06 Time: 11:10

Sample: 1980 2004

Included observations: 25

Variable Coefficient Std. Error t-Statistic Prob.

C -290.8117 327.1702 -0.888870 0.3841

IGP -0.326847 0.193898 -1.685664 0.1067

PIB 0.046182 0.034176 1.351321 0.1910

U 21.07782 8.048040 2.619000 0.0160

R-squared 0.255609 Mean dependent var 228.0943

Adjusted R-squared 0.149268 S.D. dependent var 40.64528

S.E. of regression 37.48923 Akaike info criterion 10.23163

Sum squared resid 29514.30 Schwarz criterion 10.42665

Log likelihood -123.8954 F-statistic 2.403666

Durbin-Watson stat 0.607152 Prob(F-statistic) 0.096187

7. Seja um exemplo do PIB Real (REALGDP) como função do Consumo Real (REALCONS),

Investimento Real (REALINVS), Gastos Reais do Governo (REALGOVT), e Transações Líquidas

Reais com o Exterior (REALINT), OBS é a variável de tendência. Encontre o R2, R

2 ajustado, os

coeficientes, erros-padrões e valores de t para completar os resultados e analise-os a seguir:

Page 35: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

35

Dependent Variable: REALGDP Method: Least Squares Date: 03/09/06 Time: 08:29 Sample: 1950:1 2000:4 Included observations: 204

Variable Coefficient Std. Error t-Statistic Prob.

REALCONS 1.123936 44.48754 0.0000

REALINVS 0.516396 0.044046 11.72401 0.0000 REALGOVT 0.538837 0.056164 9.594029 0.0000

REALINT 1.089732 -1.558385 0.1207

OBS 1.928942 0.370999 0.0000

C 121.9011 24.04763 5.069154 0.0000

R-squared Mean dependent var 4562.646

Adjusted R-squared S.D. dependent var 2113.962

S.E. of regression 40.65281 Akaike info criterion 10.27698 Sum squared resid 327224.9 Schwarz criterion 10.37458 Log likelihood -1042.252 F-statistic 109744.5 Durbin-Watson stat 0.246057 Prob(F-statistic) 0.000000

Page 36: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

36

4 Violações nas Pressuposições Clássicas do Modelo de Regressão Linear

O modelo clássico de análise de regressão é construído com base numa série de

pressuposições referentes ao comportamento da população. Estas pressuposições foram descritas

nas seções anteriores e aqui se discute principalmente a forma de testar a hipótese e a

operacionalização da solução.

4.1. Pressuposição 1: A relação entre Y e X é linear

Detecção do problema:

Entre outros testes, o teste RESET de Ramsey (1969)3 é um dos mais aplicados na literatura.

O nome vem do pesquisador Ramsey para o Regression Specification Error Test ou teste de erro de

especificação da regressão (No Eviews, ver na janela da equação o teste de estabilidade (Stability

Tests) e definir o número de termos estimados).

O teste é baseado na regressão aumentada

Y = Xβ + Zα + ε

em que X são as variáveis explicativas e Z são variáveis dependentes estimadas e elevadas a uma

potência

Z = [ Yest2 Yest

3 Yest

4] exemplo para três fitted terms (termos acrescentados na regressão

aumentada).

A idéia é olhar a significância dos α para ver se os termos acrescentados são relevantes no

modelo, indicando erro de especificação.

Procedimento do teste:

1) estima-se Y = Xβ + ε

2) obtém-se os valores previstos de Y e gera-se Yest2 Yest

3 ou mais se

desejar. Recomenda-se no máximo até 3 termos, ou seja, até Yest4.

3) Ajusta-se a regressão aumentada, colocando-se os X e as variáveis do item 2 :

Y = f ( X, Yest2, Yest

3 )

4) Com as regressões de 1 e de 3, observam-se os valores de R2 novo (de 3) e R

2

velho (de 1) e calcula-se a estatística de teste:

3Ramsey, J. B. (1969) “Tests for Specification Errors in Classical Linear Least Squares Regression Analysis,” Journal

of the Royal Statistical Society, Series B, 31, 350–371.

Page 37: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

37

5) Estatística de Teste;

(p) mod

1

)( 2

22

elonovonoparametrosnúmeron

R

msregressorenovosdenúmero

RR

Fnovo

velhonovo

F ~ Fm,n-p

m é o número de novos regressores

n-p é o número de observações menos o número de parâmetros no

novo modelo

6) Comparar o F do item 5 com o F da tabela, para o nível de significância,

numerador m e denominador n-p. Como a hipótese nula é de que não há

erro de especificação, espera-se que a hipótese nula não seja rejeitada, ou

seja, que F seja muito pequeno.

O teste RESET indica apenas se o modelo está especificado incorretamente, mas não diz

qual seria a solução. A solução para um problema seria incluir outras variáveis relevantes no

modelo, retirar as irrelevantes, ou mudar a forma funcional. Portanto, o bom senso indica que é

melhor incluir variáveis do que excluir, pois a exclusão pode causar viés, enquanto a inclusão tende

a melhorar o modelo, a não ser pela possibilidade de não-significância dos parâmetros.

Implementação no Eviews:

No Eviews, após a estimação dos parâmetros, abre-se a janela da equação e depois clica-se

em View, e posteriormente em Stability Tests. A opção do teste RESET aparecerá em outra janela

perguntando quantos termos ajustados serão incluídos (fitted terms). O aluno deve estabelecer

quantos termos (sugere-se até 3) e clica-se em ok. O programa gerará a estatística de teste RESET

de Ramsey, mas aqui a hipótese nula é um pouco diferente do teste calculado anterior, pois o

programa testa se todos os parâmetros α são zeros, o que indicará que não há erro. Portanto, se a

probabilidade de F do Eviews for abaixo do nível de significância (por exemplo, 10%) (F alto),

pode-se dizer que rejeita-se a hipótese nula e existe um erro de especificação. Se o F for baixo,

aceita-se que α =0 e, portanto, não há erro de especificação.

No exemplo, mostra-se que existe erro de especificação.

Page 38: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

38

Tabela 1. Exemplo de saída do Eviews para o Ramsey RESET Test.

Ramsey RESET Test:

F-statistic 5.281559 Probability 0.001932 Log likelihood ratio 15.74446 Probability 0.001279

Test Equation: Dependent Variable: QSOJA Method: Least Squares Date: 06/06/03 Time: 14:57 Sample: 1988:09 1998:05 Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

FERTILIZANTE 304.1298 135.0469 2.252031 0.0263 TRATOR 18591.29 8231.767 2.258481 0.0259

MO 115237.7 51069.36 2.256493 0.0260 C -230604.7 101861.3 -2.263908 0.0255

FITTED^2 2.664804 1.165269 2.286857 0.0241 FITTED^3 -0.005642 0.002453 -2.300025 0.0233 FITTED^4 4.43E-06 1.92E-06 2.302617 0.0232

R-squared 0.532456 Mean dependent var 322.2544 Adjusted R-squared 0.506954 S.D. dependent var 56.01272 S.E. of regression 39.33059 Akaike info criterion 10.23985 Sum squared resid 170158.4 Schwarz criterion 10.40510 Log likelihood -592.0310 F-statistic 20.87869 Durbin-Watson stat 0.770973 Prob(F-statistic) 0.000000

Outra forma é olhar os diferentes modelos e comparar o R2 ajustado. Quanto mais próximo

de 1 melhor será a estimação. É deficiente para o caso de variável omitida.

Outras opções são observar os coeficientes do critério de Akaike e Schwarz, fornecidos na

saída da estimação do Eviews. Menores coeficientes AIC e SIC indicam melhores ajustamentos da

regressão, mas só podem ser comparados se as unidades das variáveis das diferentes regressões

forem as mesmas (por exemplo, não se aplica numa comparação entre Y e outra com LogY). Deve-

se olhar todos os critérios para melhor análise dos resultados.

O Critério de Informação de Akaike (ou AIC de Akaike’s Information Criterion) ou o

Critério de Informação de Schwarz ou Bayesiano (ou SIC de Schwarz’s Information Criterion ou

em alguns livros BIC de Bayesian Information Criterion) são expressos no Eviews da forma já

logaritmizada como:

Page 39: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

39

em que k é o número de regressores incluindo-se o intercepto; n é o número de observações; l é o

log Verossimilhança da regressão; e são os resíduos estimados do modelo.

No formato mais simplificado exposto por Greene (2002), tem-se:

Page 40: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

40 Anexo

Fazendo o teste RESET para investigar se existe erro de especificação:

1) fazer a estimação original a ser testada

Page 41: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

41 2) na janela Equation, entrar em View, Stability Tests, Ramsey Reset Test como na figura a

seguir:

3) na janela RESET Specification, colocar o número de variáveis a serem adicionadas no teste

(número de variáveis dos valores previstos de Y)

entesucessivamassim

3 digitar então (FITTED^4)Ye (FITTED^3) Ye (FITTED^2) Yapenas inserirse

2 digitar então (FITTED^3)Ye (FITTED^2) Yapenas inserirse

1 digitar então (FITTED^2) Yapenas inserirse

432

32

2

ˆˆˆ

ˆˆ

ˆ

O RESULTADO SAIRÁ CONFORME A ÚLTIMA IMAGEM A SEGUIR

Page 42: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

42

Page 43: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

43

4.2. Pressuposição 2: O erro aleatório tem média zero

A maior dificuldade é que não existe teste formal para essa pressuposição. É similar a um

erro de especificação do modelo, como por exemplo, com variáveis relevantes omitidas do modelo.

O modelo com uma correta especificação provavelmente não terá problemas com média dos

resíduos não nula.

Normalmente se faz o teste simples de “H0: média igual a zero” para investigar a violação

ou não da pressuposição. Valores elevados para a probabilidade indicarão a aceitação da hipótese

nula e confirmação da pressuposição.

Page 44: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

44 Anexo:

Roteiro para testar média dos resíduos é nula:

Page 45: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

45 Tabela dos resíduos

observação observado previsto resíduos obs Actual Fitted Residual

1971Q3 11484.0 10943.9 540.083 1971Q4 9348.00 9417.85 -69.8452 1972Q1 8429.00 9502.75 -1073.75 1972Q2 10079.0 9184.43 894.568 1972Q3 9240.00 8884.84 355.164 1972Q4 8862.00 9288.01 -426.006 1973Q1 6216.00 7311.47 -1095.47 1973Q2 8253.00 7595.20 657.800 1973Q3 8038.00 8297.50 -259.501 1973Q4 7476.00 7559.49 -83.4900 1974Q1 5911.00 5955.55 -44.5506 1974Q2 7950.00 6004.86 1945.14 1974Q3 6134.00 6802.14 -668.142 1974Q4 5868.00 6544.46 -676.458 1975Q1 3160.00 3992.40 -832.395 1975Q2 5872.00 5035.14 836.855

Page 46: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

46 Na janela do Workfile, na serie “Resid”, é possível fazer o teste t para a média dos erros igual a

zero:

Page 47: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

47

Na janela View da Series: Resid, escolher a opção “Tests for Description Stats”, Simple

Hypothesis Tests:

A janela do “simple Hypothesis tests” permitirá especificar se a média é igual a zero,

especificando zero e teclando ok:

Page 48: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

48

Hypothesis Testing for RESID Date: 03/16/06 Time: 17:12 Sample: 1971Q3 1975Q2 Included observations: 16 Test of Hypothesis: Mean = 0.000000

Sample Mean = -4.16e-16

Sample Std. Dev. = 0.144606 Method Value Probability t-statistic -1.15E-14 1.0000

Como o valor da probabilidade implica na aceitação da hipótese nula, ou seja,

H0: média = 0

Page 49: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

49

4.3. Pressuposição 3: O erro aleatório tem variância constante (presença de homocedasticidade)

A presença de heterocedasticidade não gera viés ou tendenciosidade nos parâmetros

angulares. Entretanto, os parâmetros de M.Q.O. não serão os mais eficientes (pois o M.Q. O.

superestimará o verdadeiro erro-padrão e presença de heterocedasticidade) e a estimação

deverá ser feita por Mínimos Quadrados Generalizados (M.Q.G.), que consiste em um

M.Q.O. para variáveis transformadas que satisfazem as hipóteses usuais de mínimos

quadrados. A mecânica passa pela divisão de todas as variáveis, por exemplo, pelo respectivo

desvio-padrão do resíduo, ou caso o desconheça, pela variável explicativa correlacionada ao

resíduo.

Procede-se da seguinte forma. Primeiro realiza-se o teste de Glejser, que entre outros

como o de Goldfeld-Quandt, apresenta-se mais eficiente e auxilia na implementação da

correção do problema. Esse teste permite que se indique a exata relação existente entre a

variável X e os resíduos (Diaz, 2000)4.

Passos:

1. estimar o modelo inicial: Y = Xβ + ε

2. com os resíduos de 1, estimar as regressões auxiliares:

a. |ei| = α0 + α1Xi

b. |ei| = α0 + α1Xi2

c. |ei| = α0 + α1(1/Xi)

d. |ei| = α0 + α1(√Xi)

e. |ei| = α0 + α1Xih

em que h denota uma potência.

Se o α1 for diferente de zero em alguma das regressões auxiliares (pelo teste

usual de t), então rejeita-se a hipótese nula de que não há heterocedasticidade.

Portanto, existe heterocedasticidade. Caso todas as regressões tenham α1= 0,

então não existe heterocedasticidade.

4 DIAZ, M.D.M. Problemas econométricos no modelo linear geral. In: VASCONCELLOS, M.A.S.; ALVES, D.

(Coords.) Manual de econometria. São Paulo:Atlas, 2000. p.105-137.

Page 50: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

50

Este problema de presença de heterocedasticidade também pode ser detectado por

meio de análise gráfica. Pode-se estimar a função e fazer o gráfico dos resíduos ao longo da

amostra:

ei x Xi

ei x Yi ou Yi,estimado

Conhecido o resultado do teste de Glejser, utiliza-se a variável da regressão auxiliar

que acusou o problema para ponderar as variáveis, transformando-as, e procedendo a

estimação de M.Q.G., ou seja, M.Q.O. nas variáveis transformadas.

A estimação por M.Q.G. será para o modelo:

P.Y = PXβ + Pε

e o vetor de parâmetros estimados será

β = (X´P´PX)-1

X´P´PY

que é o mesmo que estimar o M.Q.O. para Y* = X*β + ε*.

Os resíduos podem ser obtidos no Eviews fazendo, na janela de uma equação,

Procs/make residual series. O programa pergunta o nome da série a conter os resíduos e uma

vez feito isso é só especificar a série como variável.

O método como descrito acima é uma alternativa apresentada em vários livros de

econometria, mas como a transformação fazendo Y/Xi pode gerar uma correlação espúria,

indicando uma correlação entre Y/X que na realidade não ocorreria entre Y e X caso não

fosse feita a transformação, sugere-se então os testes de White e de Breusch-Pagan e a

correção de White5.

Por exemplo, para uma regressão da forma

o teste de White é implementado manualmente da seguinte forma:

a) estima-se a regressão inicial e obtêm-se os resíduos ei;

b) faz-se uma regressão auxiliar do tipo

ou seja, o quadrado dos resíduos estimados como função das variáveis explicativas, dos

quadrados das variáveis explicativas e do produto cruzado das variáveis explicativas. Deve-se

incluir o termo do intercepto (α1) mesmo que na regressão original não o tenha.

5 White, Halbert (1980) “A Heteroskedasticity-Consistent Covariance Matrix and a Direct Test for

Heteroskedasticity,” Econometrica, 48, 817–838.

Page 51: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

51

c) Analisa-se o R2 da regressão auxiliar multiplicado pelo tamanho da amostra (n)

comparando com o valor da tabela qui-quadrado para graus de liberdade iguais ao número

total de regressores da equação auxiliar. No nosso exemplo,

n. R2 ~ χ

2 com gl = 5 (X2i, X3i , X2i

2, X3i

2 , X2i.X3i)

Se n.R2 > χ

2 tabelado, então existe heterocedasticidade.

Se n.R2

< χ2 tabelado, então α2 = α3 = α4 = α5 = α6 = 0 , e não existe

heterocedasticidade.

Deve-se tomar cuidado com este teste, pois ele prevê a inclusão de termos adicionais

que, em presença de muitas variáveis X, poderá comprometer o modelo com relação aos seus

graus de liberdade.

A correção do modelo neste caso pode ser feita utilizando os estimadores de matrizes

de covariâncias heterocedástico-consistentes de White, que podem ser obtidos rapidamente

pelo software Eviews.

A operacionalização no Eviews é bastante simples. Primeiro o estudante deve estimar

o modelo e, na janela da equação estimada, selecionar View/Residual Tests e depois clicar em

White Heteroskedasticity (no cross terms ou cross terms). A diferença das duas opções é que

na primeira não inclui termos multiplicativos das variáveis Xi.Xj. Na primeira opção, se

economizam graus de liberdade mas representa uma distorção do teste original. Na segunda

opção, no rigor científico, incluem-se termos cruzados e, em presença de muitos regressores,

pode causar problemas de reduzidos graus de liberdade.

Sugere-se utilizar a primeira opção quando tiver mais de 5 regressores Xi, e a segunda

quando tiver menos de 5, pois com os termos cruzados, ocorreria uma inclusão de mais outros

5 termos.

Para a mesma regressão da Tabela 1, mostram-se os resultados do teste de White para

termos cruzados e sem termos cruzados. Procure distinguir as diferenças nos resultados.

A hipótese nula do teste é que não há heterocedasticidade, ou seja, de que os erros

são homocedásticos e independentes dos regressores, e que a especificação do modelo é

correta. Assim, é desejável ter a aceitação da hipótese nula, com probabilidade acima de

10%, e baixo valor de n.R2.

Page 52: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

52

Tabela 2. Teste de White – no cross terms

White Heteroskedasticity Test:

F-statistic 2.956033 Probability 0.010300 Obs*R-squared 16.24547 Probability 0.012495

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 17:59 Sample: 1988:09 1998:05 Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

C 9515.997 6550.445 1.452725 0.1491 FERTILIZANTE -810.4509 551.7908 -1.468765 0.1448

FERTILIZANTE^2 18.85117 15.37210 1.226324 0.2227 TRATOR -2061.748 2106.302 -0.978848 0.3298

TRATOR^2 245.7209 236.7449 1.037914 0.3016 MO 76907.49 29850.12 2.576455 0.0113

MO^2 -230942.8 103719.0 -2.226620 0.0280

R-squared 0.138850 Mean dependent var 1663.833 Adjusted R-squared 0.091878 S.D. dependent var 2943.689 S.E. of regression 2805.201 Akaike info criterion 18.77430 Sum squared resid 8.66E+08 Schwarz criterion 18.93956 Log likelihood -1091.297 F-statistic 2.956033 Durbin-Watson stat 1.307013 Prob(F-statistic) 0.010300

Tabela 3. Teste de White – cross terms

White Heteroskedasticity Test:

F-statistic 4.638220 Probability 0.000034 Obs*R-squared 32.83525 Probability 0.000143

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 18:01 Sample: 1988:09 1998:05 Included observations: 117

Variable Coefficient Std. Error t-Statistic Prob.

C -20557.49 9888.589 -2.078910 0.0400 FERTILIZANTE 445.3517 600.7180 0.741366 0.4601

FERTILIZANTE^2 25.26911 15.80557 1.598748 0.1128 FERTILIZANTE*TRA

TOR -120.1672 87.69892 -1.370224 0.1735

FERTILIZANTE*MO -13077.63 3137.312 -4.168419 0.0001 TRATOR 864.9398 3116.365 0.277548 0.7819

TRATOR^2 309.3549 253.6114 1.219799 0.2252 TRATOR*MO -22449.97 12081.31 -1.858240 0.0659

MO 426444.0 90390.39 4.717802 0.0000 MO^2 -365960.5 130236.2 -2.809975 0.0059

R-squared 0.280643 Mean dependent var 1663.833 Adjusted R-squared 0.220136 S.D. dependent var 2943.689 S.E. of regression 2599.568 Akaike info criterion 18.64567 Sum squared resid 7.23E+08 Schwarz criterion 18.88176 Log likelihood -1080.772 F-statistic 4.638220 Durbin-Watson stat 1.549746 Prob(F-statistic) 0.000034

Page 53: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

53

Observe que no exemplo dado, existem indícios de que há heterocedasticidade.

Sabendo anteriormente que ocorre erro de especificação e que os dados originais são de série

temporal, conclui-se pela existência de erro de especificação, mas deve-se analisar com maior

detalhe a questão da homocedasticidade, pois esta geralmente não ocorre em séries temporais,

mas sim em seção cruzada. Talvez o resultado do teste possa estar mais ligado à dependência

dos resultados em relação aos regressores.

Num outro exemplo, com os dados de Gujarati (2000:p.388), para gastos com P&D

em relação as vendas, obteve-se o teste de White com cross terms e os resultados a seguir.

Primeiro apresenta-se os resultados da estimação sem a correção para heterocedasticidade,

faz-se o teste de White e depois re-estima-se o modelo com a correção de White.

Tabela 4. Resultados da estimação inicial.

Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:38 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

SALES 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480

R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Tabela 5. Teste de White para o exemplo de Gujarati, p.388.

White Heteroskedasticity Test:

F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 06/06/03 Time: 18:32 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

C -6219665. 6459809. -0.962825 0.3509 SALES 229.3508 126.2197 1.817077 0.0892

SALES^2 -0.000537 0.000449 -1.194952 0.2507

R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975

Page 54: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

54

Neste caso, com os dados em seção cruzada (indústrias dos EUA), não foi possível

deixar de rejeitar a hipótese nula de homocedasticidade ao nível de 10% de significância,

como observado pelo valor da probabilidade de Obs*R-squared = 0,073811, menor que 0,10.

Existe problema de heterocedasticidade nos resíduos.

Mostram-se agora os resultados com a correção de White, obtidos no Eviews fazendo

alteração na janela da estimação, clicando em Options e selecionando a caixa

heteroskedasticity, e clicando em White. Os resultados são:

Tabela 6. Resultados da estimação com a correção de White para heterocedasticidade.

Dependent Variable: RD Method: Least Squares Date: 06/06/03 Time: 18:42 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance

Variable Coefficient Std. Error t-Statistic Prob.

SALES 0.031900 0.010147 3.143815 0.0063 C 192.9931 533.9317 0.361457 0.7225

R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Observe que agora na saída do Eviews, indica-se que foi utilizada a opção White

Heteroskedasticity-Consistent Standard Errors & Covariance, e pode-se comparar os

resultados com os da Tabela 4, sem essa opção de White. De modo geral, nesse exemplo, os

erros-padrões estavam subestimados. Pode-se observar que o modelo com heterocedasticidade

apresenta viés nos erros padrões, podendo ser negativo ou positivo, dependendo do estudo.

Quanto aos parâmetros, não ocorrem alterações.

Após a correção de White não cabe mais a nova realização do teste, pois os resultados

já foram obtidos com os resíduos alterados pelo critério de White.

Page 55: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

55

Anexo Roteiro para estimação no Eviews – Heterocedasticidade Gujarati, Tabela 11.5 (Table11-5.wf1), p. 388 – Teste de Glejser 1. estimar modelo normalmente:

Estimation Command: ===================== LS (PD) (VENDAS) C Estimation Equation: ===================== PD = C(1)*VENDAS + C(2) Substituted Coefficients: ===================== PD = 0.03190033243*VENDAS + 192.9931098 Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 16:00 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

VENDAS 0.031900 0.008329 3.830033 0.0015 C 192.9931 990.9858 0.194749 0.8480

R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Page 56: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

56

Gerar séries de resíduos em Procs/Make residual series:

Page 57: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

57

Fazer série de resíduos absolutos: me=@abs(e)

Estimar “me” em função de Vendas: ou seja, módulo dos resíduos em função de vendas:

Page 58: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

58

Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

VENDAS 0.011939 0.005704 2.093059 0.0526 C 578.5710 678.6950 0.852476 0.4065

R-squared 0.214951 Mean dependent var 1650.432 Adjusted R-squared 0.165886 S.D. dependent var 2069.046 S.E. of regression 1889.657 Akaike info criterion 18.03062 Sum squared resid 57132868 Schwarz criterion 18.12955 Log likelihood -160.2756 F-statistic 4.380896 Durbin-Watson stat 1.743294 Prob(F-statistic) 0.052633

Page 59: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

59

Me em função da raiz de vendas:

Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:18 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

SQR(VENDAS) 7.971957 3.363146 2.370387 0.0307 C -507.0202 1007.684 -0.503154 0.6217

R-squared 0.259901 Mean dependent var 1650.432 Adjusted R-squared 0.213645 S.D. dependent var 2069.046 S.E. of regression 1834.761 Akaike info criterion 17.97166 Sum squared resid 53861578 Schwarz criterion 18.07059 Log likelihood -159.7449 F-statistic 5.618732 Durbin-Watson stat 1.785727 Prob(F-statistic) 0.030672

Page 60: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

60

Me em função de 1/vendas:

Dependent Variable: ME Method: Least Squares Date: 03/04/05 Time: 18:20 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

1/(VENDAS) -19924566 12318138 -1.617498 0.1253 C 2273.702 604.6990 3.760056 0.0017

R-squared 0.140538 Mean dependent var 1650.432 Adjusted R-squared 0.086822 S.D. dependent var 2069.046 S.E. of regression 1977.188 Akaike info criterion 18.12118 Sum squared resid 62548360 Schwarz criterion 18.22011 Log likelihood -161.0906 F-statistic 2.616300 Durbin-Watson stat 1.505561 Prob(F-statistic) 0.125313

Correção: Fazer PD/(SQR(Vendas)) em função de 1/(SQR(Vendas)) e de (SQR(Vendas))

Page 61: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

61

Dependent Variable: PD/SQR(VENDAS) Method: Least Squares Date: 03/04/05 Time: 18:23 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

1/SQR(VENDAS) -246.6769 381.1285 -0.647228 0.5267 SQR(VENDAS) 0.036798 0.007114 5.172315 0.0001

R-squared 0.364889 Mean dependent var 8.855264 Adjusted R-squared 0.325195 S.D. dependent var 8.834378 S.E. of regression 7.257134 Akaike info criterion 6.906286 Sum squared resid 842.6560 Schwarz criterion 7.005216 Log likelihood -60.15658 F-statistic 9.192455 Durbin-Watson stat 2.885313 Prob(F-statistic) 0.007933

Page 62: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

62

Método de White: TESTE

White Heteroskedasticity Test:

F-statistic 3.057178 Probability 0.076975 Obs*R-squared 5.212492 Probability 0.073811

Test Equation: Dependent Variable: RESID^2 Method: Least Squares Date: 03/04/05 Time: 18:32 Sample: 1 18 Included observations: 18

Variable Coefficient Std. Error t-Statistic Prob.

C -6219665. 6459809. -0.962825 0.3509 VENDAS 229.3508 126.2197 1.817077 0.0892

VENDAS^2 -0.000537 0.000449 -1.194952 0.2507

R-squared 0.289583 Mean dependent var 6767046. Adjusted R-squared 0.194861 S.D. dependent var 14706011 S.E. of regression 13195639 Akaike info criterion 35.77968 Sum squared resid 2.61E+15 Schwarz criterion 35.92808 Log likelihood -319.0171 F-statistic 3.057178 Durbin-Watson stat 1.694567 Prob(F-statistic) 0.076975

Rejeita-se a hipótese nula , portanto temos presença de erros heterocedásticos a 10% de significância. Não teríamos se fosse considerado 5%!!!!

Page 63: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

63

Correção de heterocedasticidade pelo método de White:

Dependent Variable: PD Method: Least Squares Date: 03/04/05 Time: 18:29 Sample: 1 18 Included observations: 18 White Heteroskedasticity-Consistent Standard Errors & Covariance

Variable Coefficient Std. Error t-Statistic Prob.

C 192.9931 533.9317 0.361457 0.7225 VENDAS 0.031900 0.010147 3.143815 0.0063

R-squared 0.478303 Mean dependent var 3056.856 Adjusted R-squared 0.445697 S.D. dependent var 3705.973 S.E. of regression 2759.153 Akaike info criterion 18.78767 Sum squared resid 1.22E+08 Schwarz criterion 18.88660 Log likelihood -167.0891 F-statistic 14.66916 Durbin-Watson stat 3.015607 Prob(F-statistic) 0.001476

Observar que os erros-padrões entre a regressão principal e a regressão com correção de White se alteraram, ou seja, a correção de White retirou os vieses nos erros-padrões estimados.

Page 64: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

64

4.4. Pressuposição 4: Os erros aleatórios são independentes (ou não autocorrelacionados)

A principal conseqüência da violação desta pressuposição é a ineficiência dos

estimadores de M.Q.O. mas, continuam não-tendenciosos. Nesta situação, da mesma forma

que para a heterocedasticidade, é melhor utilizar o método de Mínimos Quadrados

Generalizados (M.Q.G.).

Imagine um modelo mais comum, com autocorrelação de 1ª. Ordem:

ttt 1

em que ρ é o parâmetro de autocorrelação e υ é um termo de erro “bem comportado”, ou seja,

não autocorrelacionado normal de média zero e variância σ2

υ, ou também chamado de ruído

branco (white noise).

O coeficiente de autocorrelação ρ pode ser obtido pela expressão

2/1

1t

2/1

t

1tt

)](Var[)](Var[

),(Covˆ

O teste mais comum para detectar a presença de erros autocorrelacionados é o Teste de

Durbin-Watson. A hipótese nula a ser testada é que

Ho: ρ = 0 => não há autocorrelação

Contra a hipótese alternativa

H1: ρ ≠ 0 => ρ > 0 autocorrelação positiva => ρ < 0 autocorrelação negativa

A estatística de teste é o chamado DW, calculado como:

ˆ12

ˆ

ˆˆ

DWT

1t

2

t

T

2t

2

1tt

em que

ρ = 0 DW = 2 => ausência de autocorrelação

ρ = +1 DW = 0 => autocorrelação positiva e perfeita

ρ = -1 DW = 4 => autocorrelação negativa e perfeita

Portanto, deseja-se DW próximo de 2, ou seja, ausência de autocorrelação.

Page 65: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

65

A análise requer a comparação dos valores de DW com valores tabelados, que

prevêem duas distribuições de probabilidade entrelaçadas: uma distribuição inferior e outra

superior. Elas determinam áreas de aceitação e rejeição da hipótese nula, como na figura a

seguir:

em que

dL = limite inferior => vem da tabela para n observações e k variáveis explanatórias

dU = limite superior => vem da tabela para n observações e k variáveis explanatórias

Exemplo:

Para k = 3 (referente a um modelo com X1, X2 e X3), para n = 30 observações, a tabela de

DW para 5% de significância nos fornece dL = 1,21 e dU=1,65, e portanto,

4-dL = 4 – 1,21 = 2,79

4 – dU = 4 – 1,65 = 2,35

Para 0<DW<1,21 = rejeição de Ho e autocorrelação positiva

Para 1,21<DW<1,65 = área inconclusiva

Para 1,65<DW<2,35 = aceitação de Ho e não-autocorrelação

Para 2,35<DW<2,79 = área inconclusiva

Para 2,79<DW<4 = rejeição de Ho e autocorrelação negativa

As deficiências neste método são:

presença de áreas inconclusivas

só testa autocorrelação de primeira ordem

deve incluir intercepto na regressão

o teste não é válido quando o modelo tem variável dependente defasada como

variável explicativa

Page 66: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

66

Uma alternativa para contornar essas deficiências é via teste h de Durbin, para casos

de variável dependente defasada como variável explicativa. O teste é calculado por

)(Var.T1

Th

~ N(0,1) = comparar com o limite de ±1,96 p/ 5%

em que

T – número de observações

β – parâmetro da variável dependente defasada.

Outro procedimento que contorna as deficiências do teste DW e tem sido incorporado

à maioria dos softwares econométricos é o teste de Breusch-Godfrey de autocorrelação

superior, ou de Multiplicador de Lagrange para Correlação Serial (Serial Correlation LM

Test).

Este teste é bastante útil para detectar autocorrelação de ordens maiores que a

primeira, ou seja, para AR(P>1) em que P é a ordem da autocorrelação. A hipótese nula será

H0: não autocorrelação dos resíduos

H1: εt = AR(P) ou εt = MA(P)

Por exemplo, suponha o seguinte processo auto-regressivo:

tptp3t32t21t1t

A hipótese nula será de que todos os coeficientes de autocorrelação são

simultaneamente nulos, ou seja, todos os ρi = 0 e não há autocorrelação de qualquer ordem.

A estatística de teste será um multiplicador de Lagrange do tipo

2

p

'

0

1

0

'

002

0 ~e'e

eX)XX(X'e)pn(R)pn(LM

O procedimento será:

1. estimar o modelo de regressão pelo método usual de MQO e obter resíduos εt;

2. estimar o modelo de εt como função das demais variáveis X do modelo “a” e

também de variáveis εt defasadas (εt-1 εt-2 ... etc), utilizando para estas defasagens

os resíduos obtidos em “a”;

3. obter o valor de R2

desta regressão “b”;

Page 67: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

67

4. A estatística de teste será LMBG = (n-p).R2 ~ χ

2p graus de liberdade. P é o número

de defasagens incluídas na regressão “b”.

Se a estatística de teste LMBG > valor crítico de χ2

p então se rejeita a hipótese nula e

existe autocorrelação serial de ordem P, ou seja, pelo menos um ρi ≠ 0. Neste teste, pode-se

ter variáveis X ou mesmo Y defasadas, o que representa uma vantagem sobre o teste DW.

Estimação solucionando o problema de autocorrelação:

Estima-se o modelo inicial por M.Q.O. e depois segue um procedimento iterativo até

alcançar a convergência nos parâmetros. Abaixo estão os passos da estimação de Cochrane-

Orcutt:

1) Estima-se modelo inicial por MQO e obtém DW

2) Calcula-se ρ = 1 – 0,5.DW

3) Estima equação transformada:

t1tt211tt XX1YY

ou

4) Recalcula-se (2) e verifica-se a convergência para ρ.

5) Repetem-se os passos (2) a (4) até que a convergência seja menor que 0,01.

A implementação no Eviews prevê a inserção de um termo AR(1) na especificação das

variáveis da equação. O programa fará a estimação considerando a correção para o

autoregressivo de primeira ordem.

Page 68: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

68

Anexo Autocorrelação Para a equação da taxa de retorno RR em função do crescimento (Growth) e da inflação (Inflation):

Dependent Variable: RR Method: Least Squares Date: 03/07/05 Time: 20:19 Sample: 1954 1981 Included observations: 28

Variable Coefficient Std. Error t-Statistic Prob.

GROWTH 3.943315 1.293445 3.048693 0.0054 INFLATION -2.499426 1.082101 -2.309789 0.0294

C 3.531812 8.111369 0.435415 0.6670

R-squared 0.572374 Mean dependent var 5.875000 Adjusted R-squared 0.538164 S.D. dependent var 20.89837 S.E. of regression 14.20223 Akaike info criterion 8.245632 Sum squared resid 5042.582 Schwarz criterion 8.388368 Log likelihood -112.4388 F-statistic 16.73114 Durbin-Watson stat 1.896592 Prob(F-statistic) 0.000024

DW = 1,8965 Teste de Breusch-Godfrey: SERIAL CORRELATION LM TEST

Page 69: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

69

Especificar número de variáveis a adicionar em Xo, ou seja, se 1 (AR(1)), se 2 (AR(2)):

Breusch-Godfrey Serial Correlation LM Test:

F-statistic 0.319962 Probability 0.729357 Obs*R-squared 0.757950 Probability 0.684563

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 20:23

Variable Coefficient Std. Error t-Statistic Prob.

GROWTH -0.371429 1.426117 -0.260448 0.7968 INFLATION -0.131592 1.125693 -0.116898 0.9080

C 1.737633 8.657860 0.200700 0.8427 RESID(-1) -0.014931 0.211928 -0.070455 0.9444 RESID(-2) -0.177451 0.222006 -0.799306 0.4323

R-squared 0.027070 Mean dependent var -3.68E-15 Adjusted R-squared -0.142136 S.D. dependent var 13.66610 S.E. of regression 14.60506 Akaike info criterion 8.361046 Sum squared resid 4906.081 Schwarz criterion 8.598940 Log likelihood -112.0546 F-statistic 0.159981 Durbin-Watson stat 1.787912 Prob(F-statistic) 0.956406

Não há evidencias de autocorrelação no modelo, pois Obs*R-squared=0.75 com Probabilidade de 0.68, indicando aceitação de Ho: não-autocorrelação

Page 70: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

70

Exercicio Gujarati, p.447-448:

Dependent Variable: LOG(PCDOM) Method: Least Squares Date: 03/07/05 Time: 21:10 Sample: 1951 1980 Included observations: 30

Variable Coefficient Std. Error t-Statistic Prob.

LOG(IPI) 0.467509 0.165987 2.816541 0.0093 LOG(PCBOLSA) 0.279443 0.114726 2.435745 0.0223

LOG(CONST) -0.005152 0.142947 -0.036038 0.9715 LOG(PALU) 0.441449 0.106508 4.144737 0.0003

C -1.500441 1.003020 -1.495923 0.1472

R-squared 0.936090 Mean dependent var 3.721145 Adjusted R-squared 0.925864 S.D. dependent var 0.447149 S.E. of regression 0.121749 Akaike info criterion -1.222692 Sum squared resid 0.370573 Schwarz criterion -0.989160 Log likelihood 23.34039 F-statistic 91.54312 Durbin-Watson stat 0.954940 Prob(F-statistic) 0.000000

Neste caso, DW=0.9549 Para gl=30, k’=4, dl=1,143 e du=1,739, portanto, DW<dl => rejeita Ho, tenho indicação de autocorrelação positiva Teste LM para AR(1): Breusch-Godfrey Serial Correlation LM Test:

F-statistic 10.02749 Probability 0.004163 Obs*R-squared 8.840634 Probability 0.002946

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:12

Variable Coefficient Std. Error t-Statistic Prob.

LOG(IPI) -0.104877 0.146079 -0.717946 0.4797 LOG(PCBOLSA) 0.089288 0.102299 0.872811 0.3914

LOG(CONST) 0.045395 0.123362 0.367981 0.7161 LOG(PALU) -0.009785 0.091346 -0.107125 0.9156

C -0.368385 0.867570 -0.424617 0.6749 RESID(-1) 0.567066 0.179076 3.166620 0.0042

R-squared 0.294688 Mean dependent var 8.14E-17 Adjusted R-squared 0.147748 S.D. dependent var 0.113041 S.E. of regression 0.104357 Akaike info criterion -1.505141 Sum squared resid 0.261370 Schwarz criterion -1.224901 Log likelihood 28.57711 F-statistic 2.005497 Durbin-Watson stat 1.521486 Prob(F-statistic) 0.114145

Existe problema pois rejeita-se Ho a 1%. Existe AR(1)

Page 71: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

71

Para AR(2): Breusch-Godfrey Serial Correlation LM Test:

F-statistic 9.417751 Probability 0.001028 Obs*R-squared 13.50683 Probability 0.001167

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:13

Variable Coefficient Std. Error t-Statistic Prob.

LOG(IPI) -0.036780 0.134421 -0.273620 0.7868 LOG(PCBOLSA) 0.028677 0.095271 0.301008 0.7661

LOG(CONST) 0.082020 0.112179 0.731149 0.4721 LOG(PALU) -0.017166 0.082432 -0.208239 0.8369

C -0.552588 0.785758 -0.703255 0.4890 RESID(-1) 0.795135 0.184599 4.307363 0.0003 RESID(-2) -0.489015 0.191703 -2.550900 0.0179

R-squared 0.450228 Mean dependent var 8.14E-17 Adjusted R-squared 0.306809 S.D. dependent var 0.113041 S.E. of regression 0.094116 Akaike info criterion -1.687610 Sum squared resid 0.203731 Schwarz criterion -1.360664 Log likelihood 32.31415 F-statistic 3.139250 Durbin-Watson stat 1.918606 Prob(F-statistic) 0.021333

Também existe problema para AR(2). Ficou mais expressivo o problema de autocorrelação. Para AR(3): Breusch-Godfrey Serial Correlation LM Test:

F-statistic 6.169355 Probability 0.003321 Obs*R-squared 13.70695 Probability 0.003332

Test Equation: Dependent Variable: RESID Method: Least Squares Date: 03/07/05 Time: 21:25

Variable Coefficient Std. Error t-Statistic Prob.

LOG(IPI) -0.029746 0.137274 -0.216691 0.8304 LOG(PCBOLSA) 0.025964 0.096960 0.267780 0.7914

LOG(CONST) 0.078075 0.114254 0.683340 0.5015 LOG(PALU) -0.025278 0.085213 -0.296644 0.7695

C -0.512105 0.802317 -0.638283 0.5299 RESID(-1) 0.854409 0.219535 3.891895 0.0008 RESID(-2) -0.592317 0.278293 -2.128395 0.0447 RESID(-3) 0.126950 0.244219 0.519819 0.6084

R-squared 0.456898 Mean dependent var 8.14E-17 Adjusted R-squared 0.284093 S.D. dependent var 0.113041 S.E. of regression 0.095646 Akaike info criterion -1.633151 Sum squared resid 0.201259 Schwarz criterion -1.259498 Log likelihood 32.49727 F-statistic 2.644009 Durbin-Watson stat 2.002055 Prob(F-statistic) 0.038212

Ainda tem, mas menos que para AR(2). Observe que o termo de RESID(-3) já não é significativo. Optar por corrigir para AR(2).

Page 72: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

72

Estimação com AR(1) e AR(2):

Dependent Variable: LOG(PCDOM) Method: Least Squares Date: 03/07/05 Time: 21:31 Sample(adjusted): 1953 1980 Included observations: 28 after adjusting endpoints Convergence achieved after 9 iterations

Variable Coefficient Std. Error t-Statistic Prob.

LOG(IPI) 0.440700 0.165083 2.669563 0.0143 LOG(PCBOLSA) 0.291534 0.103733 2.810420 0.0105

LOG(CONST) 0.102063 0.175677 0.580969 0.5674 LOG(PALU) 0.429664 0.118912 3.613298 0.0016

C -2.197667 1.211239 -1.814395 0.0839 AR(1) 0.773165 0.187424 4.125212 0.0005 AR(2) -0.531683 0.192075 -2.768097 0.0115

R-squared 0.960153 Mean dependent var 3.765864 Adjusted R-squared 0.948768 S.D. dependent var 0.428531 S.E. of regression 0.096996 Akaike info criterion -1.615986 Sum squared resid 0.197571 Schwarz criterion -1.282935 Log likelihood 29.62381 F-statistic 84.33634 Durbin-Watson stat 1.850840 Prob(F-statistic) 0.000000

Inverted AR Roots .39+.62i .39 -.62i

Comparar com resultados da primeira regressão! Melhores indicadores!

Page 73: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

73

Anexo: Tabela de Durbin-Watson para 5% de significância, reproduzida a partir de Gujarati,

Damodar. Basic Econometrics. McGraw-Hill, 2004.

Page 74: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

74

Exemplo: Se n = 40 e k’ = 4, dL = 1,285 e dU = 1,721. Se o valor de DW calculado é menor

que 1,285, existe evidência de autocorrelação serial de primeira ordem e positiva; se DW for

maior que 1,721 e menor que 4-dU = 2,279, então não existe evidência de autocorrelação de

primeira ordem, mas se DW estiver entre os limites dL e DU, ou entre 4-dU e 4-dL então

existe uma área inconclusiva sobre autocorrelação.

4.5. Pressuposição 6: O erro tem distribuição normal, com média zero e variância constante:

Page 75: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

75

O teste para detecção mais usual é o Bera-Jarque, ou teste BJ, o qual testa a simetria e

a curtose da distribuição dos resíduos em relação à curva normal.

A curtose está associada ao achatamento da distribuição, quanto mais chata menor o

valor da curtose (K). Exemplo: K>3 (distribuição mais “em pé”), K<3 (distribuição mais

“chata”).

A curtose (em inglês kurtosis) é definida pela expressão:

N

t

i

Var

YY

NK

1

4

1

A simetria (do inglês skewness) é dada pela expressão:

N

t

i

Var

YY

NS

1

3

1

N

NsVarˆ

12

A estatística do teste BJ será:

2

2

2

412 3

6

1 gl~KSpnBJ

Se rejeitar H0:erros normais, tenho que descobrir qual é a distribuição real dos

resíduos e fazer nova dedução do estimador dos parâmetros.

Em geral, para amostras grandes, aplica-se o Teorema do Limite Central

argumentando que no limite tem-se a normalidade da distribuição dos resíduos.

Roteiro para testar no Eviews:

1) estimar a regressão

2) no menu “equation”, acionar View/Residual Tests/histogram

3) a análise fornece o histograma com uma tabela de estatísticas descritivas da serie de

resíduos, contendo o skewness (simetria) e a kurtosis (curtose). Se K for próximo de 3,

então é próxima da normal.

Exemplo 1: se K=2,95 e χ2

tab = 1,76 e o p-value=0,41, para H0: erro normal, então p-value

maior que 0,10 indica a aceitação de H0, ou seja, os erros são normais.

Exemplo 2:

Page 76: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

76

Ex12_22, Gujarati (p.447):

Std. Dev = 0,085542

Skewness = 0,047155

Kurtosis = 2,367936

BJ = 0,47 e p-value = 0,78 => aceita H0: erros normais

Page 77: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

77

Anexo Erros Normais: Equation/View/Residual Tests/Histogram – Normality Test

Page 78: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

78

4.6. Pressuposição 5: As variáveis explicativas são não aleatórias (são fixas)

Se as variáveis explicativas e os termos aleatórios forem correlacionados, haverá

inconsistência dos estimadores de mínimos quadrados ordinários. Deve-se utilizar o estimador

de variáveis instrumentais. O método de Variáveis instrumentais prevê que

β = (Z´X)-1

Z´Y , e Z é uma matriz de instrumentos independentes dos erros aleatórios.

Não se tem testes formais para investigar esta pressuposição. O que é feito em geral é

investigar as correlações entre as variáveis explicativas e os termos aleatórios via matriz de

correlações entre eles.

Outra alternativa é fazer o Teste de exogeneidade das variáveis utilizando o

procedimento de Hausmann.

4.7. Pressuposição 7: Ausência de relação linear exata entre as variáveis explicativas (não multicolinearidade)

A detecção do problema passa por diversas análises:

1. Ocorrência de R2 alto e “t”´s não-significativos;

2. Altas correlações simples entre as variáveis explicativas, por exemplo, acima de 0,8;

3. Altas correlações parciais entre os X´s: verificar o coeficiente de correlação parcial quando

algumas variáveis são consideradas constantes;

4. Regressões auxiliares: fazer a regressão considerando o Xi como variável dependente das

demais variáveis Xj

X1 = f(X2, X3, X4, ... , Xn)

X2 = g(X1, X3, X4, ... , Xn)

X3 = h(X1, X2, X4, ... , Xn)

Etc

Esta alternativa permite identificar quais variáveis estão mais relacionadas. Se o R2 da

regressão auxiliar for alto, então se tem a indicação de multicolinearidade;

5. Regra de Klein: a multicolinearidade não é prejudicial se

R2

Y∙ X1, X2, ... , Xk > R2

Xi ∙ X1, X2... , Xk

Page 79: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

79

6. Verificar a estabilidade das estimativas

Y = f(X1)

Y = f(X1,X2)

Y = f(X1, X2, X3)

As soluções para a presença de multicolinearidade passam pela retirada de variáveis

problemáticas, ou omissão de variáveis, deixando aquela mais relevante para a pesquisa. As

regressões auxiliares auxiliarão na escolha entre as variáveis para decidir qual será retirada do

modelo. O problema com a omissão de variáveis é a inserção de erro de especificação. Outra

opção é aumentar o tamanho da amostra, caso possível. O aumento da amostra é o mesmo que

reduzir a micronumerosidade e com isto ganha-se observações que tendem a não estar

observando uma perfeita relação com outras variáveis. Uma terceira opção é transformar as

variáveis problemáticas, fazendo razões entre elas (Xi/Xj), como os preços relativos. A

limitação com este procedimento é que se perde a relação direta, ficando apenas com

parâmetros que refletem relações para a razão.

O cálculo das correlações parciais não é direto nem simples quando se tratar de

regressão múltipla. Uma alternativa é usar pacotes que já contêm a rotina, como por exemplo

o Stata, fazendo uso de comandos como a seguir, para o exemplo dado em Greene

(2002:p.30): . pcorr y year g interest p

Partial correlation of y with

Variable | Corr. Sig.

-------------+------------------

year | -0.9385 0.000

g | 0.9693 0.000

interest | -0.5410 0.069

p | 0.0153 0.962

Ou seja, retorna as correlações parciais de y com respeito a cada variável da lista (year,

g, interest, p).

Outro método é a análise do Fator de variância inflacionária (FVI), ou no inglês

Variance Inflation Factor (VIF), ou ainda, Fator de inflação da Variância (Gujarati, 2006:

Page 80: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

80

p.282), para cada variável explicativa. Neste caso, faz-se a estimação de

e obtém-se o para cada variável. O FVI da variável i será:

Se o conjunto de variáveis explicativas for independente, não-correlacionado, o FVI

será igual a um ( ). O gretl estabelece uma comparação de FVI com 10, ou seja,

valores superiores a FVI= 10 indicariam multicolinearidade entre estas variáveis. Já Santana

(2003: p.244) recomenda o valor de FVI = 5. Já Greene (2002: p.58) cita autores os quais

recomendam atenção para valores de FVI maiores que 20. Acredito ser mais prudente ficar

com o valor de FIV = 5, a favor da segurança! Gujarati (2006: p.284) faz uma análise

interessante para averiguar a tolerância implícita no modelo.

A seguir tem-se uma saída do Gretl. Na janela da estimação do modelo, clicando em

Testes e em Colinearidade, tem-se a saída do teste de FVI (ou Factores de Inflaccionamento

da Variância – VIF – no Gretl).

Page 81: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

81

No exemplo reproduzido acima, as variáveis índex e G apresentam multicolinearidade

preocupante, com valores da ordem de 24, bem acima dos 10,0 recomendados pelo Gretl.

Naquele caso, a variável G é o crescimento do PIB e índex é uma variável tendência, que

normalmente apresentam colinearidade.

Page 82: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

82

4.8. Resumo

Pressuposição Teste Hipótese Nula: H0 Problema

1. Relação Linear / especificação RESET de Ramsey H0: Não há erro de especificação Se rejeitar H0

2 . Média do erro é zero Teste de hipótese simples (t) H0: média igual a zero Se rejeitar H0

3. Variância do erro é constante

Glejser H0: β1=0 => variável de β1 não

causa heterocedasticidade Se rejeitar H0

White H0:β=0 => não há

heterocedasticidade Se rejeitar H0

Breusch-Pagan LM Test H0: não há heterocedasticidade Se rejeitar H0

4. Erros independentes

Durbin-Watson (DW) H0: erros não autocorrelacionados Se rejeitar H0

h-Durbin H0: erros não autocorrelacionados Se rejeitar H0

LM de Breusch-Godfrey H0: erros não autocorrelacionados Se rejeitar H0

5. Variáveis explicativas são não-estocásticas ou fixas

Matriz de correlação Não há correlação

6. Independência linear entre as variáveis explicativas

Equações auxiliares e regra de Klein

H0: R2

Y∙ X1, X2, ... , Xk > R2 Xi ∙ X2, ... , Xk R

2Y∙ X1, X2, ... , Xk < R

2 Xi ∙ X2, ... , Xk

7. Erro tem distribuição normal Bera-Jarque H0: erros são normais Se rejeitar H0

* Em que Y = [Yi] é um vetor nX1 das observações da variável dependente; X = [Xij] é uma matriz nXp das observações das variáveis independentes; ε = [εi] é um vetor nX1 dos erros aleatórios; β = [βj], j = 0, 1, 2, ..., k é um vetor pX1 de parâmetros a serem estimados; δ² é a variância do erro, também a ser estimada; I é uma matriz identidade de ordem mXn; k é o número de variáveis independentes; p = K + 1 é o número de parâmetros; n é o número de observações; E significa valor esperado ou esperança matemática.

6.

Page 83: Econometria 21mar2012

Econometria – Prof. Adriano M. R. Figueiredo

83

5 Referências Bibliográficas

GREENE, W. Econometric analysis. 5th

Edition. New Jersey: Prentice-Hall, 2002.

GUJARATI, D.N. Econometria Básica. 4.ed. São Paulo: Campus, 2006.

HILL, C.; GRIFFITHS, W.; JUDGE, G. Econometria. São Paulo: Saraiva, 1999.

KENNEDY, P. A guide to econometrics. Cambridge: The MIT Press, 1998.

MATOS, O.C. Econometria Básica: teoria e aplicações. São Paulo: Atlas, 1995.

PINDYCK, Robert S.; RUBINFELD, Daniel L. Econometria: modelos e previsões. 4.ed.

Rio de Janeiro: Elsevier/Campus, 2004.

SANTANA, Antônio Cordeiro. Métodos Quantitativos em Economia: elementos e

aplicações. Belém: UFRA, 2003.

VASCONCELLOS, M.A.S.; ALVES, D. (coords.). Manual de econometria. São Paulo:

Atlas, 2000.

WOOLDRIDGE, J.M. Introdução a Econometria: uma abordagem moderna. São Paulo:

Pioneira Thomson Learning, 2006.

7. Programas Recomendados

GRETL - http://gretl.sourceforge.net/gretl_portugues.html EVIEWS - http://www.eviews.com/ STATA - http://www.stata.com/ LIMDEP - http://www.limdep.com/