1 modello di regressione lineare multipla 1.modello e assunzioni 2.stimatori ols e proprietà 3.r 2,...

1

MODELLO DI REGRESSIONE LINEARE MULTIPLA

1. Modello e assunzioni

2. Stimatori OLS e proprietà

3. R2 , variabilità totale , spiegata , residua

4. Previsione

5. Test per la verifica di ipotesi

6. Vincoli lineari e variabili dummy

7. Eteroschedasticità

8. Multicollinearità

9. Autocorrelazione dei residui

2

REGRESSIONE LINEARE MULTIPLA: IL PROBLEMA

• Ricerca di un modello matematico in grado di esprimere la relazione esistente tra una variabile di risposta y (quantitativa) e ( ad esempio) k variabili esplicative

• Si tratta di una relazione asimmetrica del tipo

Nel caso del modello di regr.lineare multipla abbiamo che: che geometricamente corrisponde ad un iperpiano a

k dimensioni• Perché si studia tale modelloi) facilità con cui può essere interpretato un

iperpiano a k dimensioni

ii) ii) Facilità di stima dei parametri incogniti j

( j = 1…k)Nella realtà studiamo un modello del tipo

Componente componente sistematica casuale

kxxfy ...1

kkk xxxxxf ...... 22111

uxxfy k ...1

3

IL MODELLO

In forma matriciale

dove

: vettore (n x 1) di osservazioni sulla

variabile dipendente

: matrice (n x k) di osservazioni su

k regressori

: vettore (k x 1) di parametri incogniti

: vettore (n x 1) di disturbi stocastici

iikkiiii uxxxxy ...332211

uXy

y

X

u

4

N.B. La matrice X ha la prima colonna unitaria nel

caso in cui si consideri un modello con intercetta 1 nel sistema di riferimento

multidimensionale

n

n

k

k

nknn

k

k

kn

n

n

u

u

u

u

xxx

xxx

xxx

X

y

y

y

y

.

.

.

.

.

.

...

......

......

......

...

...

.

.

.

2

1

1

2

1

1

21

22221

11211

2

1

1

Le matrici e i vettori sono così definiti

5

ASSUNZIONI DEL MODELLO

1) Esiste legame lineare tra variabile dipendente e regressori

2) Le variabili sono tutte osservabili

3) I coefficienti i non sono v.c.

4) I regressori X sono non stocastici

5) Il termine u non è osservabile

6)

7)

le ui sono omoschedastiche ed incorrelate

8) X ha rango pieno rank (X) = k

condizione necessaria

9) hp aggiuntiva da utilizzare nell’analisi inferenziale

jiper

jiperuuCov ji 2

0,

0iuE

2

2

2

...00

......

0..00

0..00

uuE

kn u IN 2,0

6

STIMATORE OLS

Y = X + uSi cercherà quel vettore che minimizza

gli scarti al quadrato:

dove Xi è la riga i-esima di X

In forma matriciale

= perché scalare

(1)

2

1:

min n

i

ii Xy

Xyue ˆ

XyXyoee minmin

XXXyyXyy

XyXy

XyXyeeQ

022

XXyXQ

7

è uno scalare

dalla (1) si ottiene

pre-moltiplicando ambo i membri

perché rank (X’X) = rank (X) = kX’X è a rango pieno ovvero invertibile

stimatore OLS di

1

2

1

1

33231

222211

1

.

.

...

.....

..

..

1.111

...

n

n

nk

knk

n

nk

k

y

y

y

xx

xxx

xxx

yX

perché

XyyXyX

yXXX

yXXX

22

yXXXXXXX

11

yXXX 1ˆ

8

CARATTERISTICHE STIMATORE OLS

Teorema di Gauss-Markov

è uno stimatore di tipo BLUE

Best Linear Unbiased Estimator

ovvero ha varianza minima nella classe degli stimatori Lineari e Corretti

1.

La matrice è formata da elementi

costanti per cui è una trasformazione lineare

di y .

2.

È uno stimatore corretto

Inoltre:

yXXX 1ˆ

XXX 1

uXXXXyXXX 11ˆ

uXXX

uXXXXXXX

1

11

uEXXXE 1ˆ

uXXX 1ˆ

9

Si consideri più in dettaglio

Pertanto la varianza di ogni parametro si desume prendendo il corrispondente valore sulla diagonale principale della , moltiplicato per :

12112

121

11

11

ˆˆˆ

XXXXXXXX

XXXIXXX

XXXuuEXXX

XXXuuXXXE

EVar

:ˆˆ

E

2

11

2

222211

112211

2

11

ˆ...ˆˆ

.....

...ˆˆˆ

ˆˆ..ˆˆˆ

kkkk

kk

EE

EE

EEE

2ˆjjE

j 1XX

2 21ˆ

jjj XXVar

3.

10

Definiamo uno stimatore alternativo lineare e corretto

dove C è una matrice (n x k)

ma

Pertanto la è la minima nella classe degli stimatori lineari e corretti, e risulta provato il teorema di Gauss-Markov.

yC ˆ

uCXCuXXXX

yCyXXX

1

1

CCCXXX

XXXCXXXXXX

CXXXuuCXXXE

EV

XCXCE

1

1112

11

0

CXXC 0

ˆˆ 2

212

VarCCVar

CCXX

Var

11

STIMA DI

MX è simmetrica e idempotente, cioè:

1.

2.

Da queste proprietà di MX si ottiene

perché scalare

tr(ABC)=

tr(BCA)=

tr(BAC)

2 2

nnXX MuMuXXXXI

uXXXXXuX

uXXXXXuXXye

1

1

1ˆ

XX MXXXXIXXXXIM

11

X

X

MXXXXI

XXXXXXXXXXXXXXXXI

XXXXIXXXXIM

1

1111

112

eetrEeeE

uMuuMMueeQ XXX

2

XX

XX

MtruuMEtr

uuMtrEuMutrE

12

è uno stimatore corretto ESEMPIO (Greene p.200) i : 1960 … 1986 , n = 27 Gi = consumo di benzina in $Pgi = indice dei prezzi benzinaYi = reddito pro-capite in $Pqi = indice dei prezzi auto nuove

kn

ItrnXXXXtrn

XXXXtrItr

XXXXItr

n

n

n

2

212

12

12

222

2

1ˆ

ˆ

knkn

E

kn

ee

iqiigii uPyPG 4321

Se definiamo

13

Vettore y 121.01034130.20306136.62968134.39852150.34150171.88391175.44395172.03874198.65222208.37573214.38531228.52113237.37202234.34193222.32567228.16247242.33362248.32557240.93266229.58893227.13648210.44373236.85998255.36365243.75057277.31965

x1

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

x2

0.92500000.91400000.91900000.91800000.91400000.94900000.97000001.00000001.04700001.05600001.06300001.07600001.18100001.59900001.70800001.77900001.88200001.96300002.65600003.69100004.10900003.89400003.76400003.70700003.73800002.9210000

x3

6036.00006113.00006271.00006378.00006727.00007027.00007280.00007513.00007891.00008134.00008322.00008562.00009042.00008867.00008944.00009175.00009381.00009735.00009829.00009722.00009769.00009725.00009930.000010421.00010563.00010780.000

x4

1.04500001.04500001.04100001.03500001.03200001.00900000.99100001.00000001.04400001.07600001.12000001.11000001.11100001.17500001.27600001.35700001.42900001.53800001.66000001.79300001.90200001.97600002.02600002.08500002.15200002.2400000

Matrice X’X;

27.000000 51.357000 229865.00 37.296000 51.357000 133.15081 473127.10 83.319118 229865.00 473127.10 2.0120502e+09 331319.22 37.296000 83.319118 331319.22 56.280428

Matrice inv (X’X);

2.6605735 0.51586178 -0.00029970528 -0.76246362 0.51586178 0.30384762 -6.4047001e-07 -0.78790617-0.00029970528 -6.4047001e-07 6.6199636e-08 -0.00019015563 -0.76246362 -0.78790617 -0.00019015563 2.8089108

Stime b=inv(X’X) * X’y; -89.761482 -12.588147 0.039938109 -14.443884

14

Y121.01034130.20306136.62968134.39852150.34150171.88391175.44395172.03874198.65222208.37573

n=10

X11.00000001.00000001.00000001.00000001.00000001.00000001.00000001.00000001.00000001.0000000

(X’X)10.000000 9.612000069370.00010.318000

Inv (X’X) 197.12839 -30.4070720.00072941000 -167.53347Beta =inv(X’X)*X’y-131.78025-90.5133810.04550388461.076792

X2 0.92500000 0.91400000 0.91900000 0.91800000 0.91400000 0.94900000 0.97000000 1.00000000 1.04700000 1.05600000

9.6120000 9.2665480 67031.717 9.9199470

-30.407072 489.93203 -0.034015993 -198.24254

X36036.00006113.00006271.00006378.00006727.00007027.00007280.00007513.00007891.00008134.0000

69370.00067031.7174.8631105e+0871575.421

0.00072941000-0.0340159932.558142e-060.013782628

X41.04500001.04500001.04100001.03500001.03200001.00900000.99100001.00000001.04400001.0760000

10.3180009.919947071575.42110.651854

-167.53347-198.242540.013782628254.38467

15

ANOVA

Analisi della varianza

Se vogliamo testare simultaneamente ipotesi su tutti i parametri o coefficienti dei regressori andiamo a considerare la statistica F di

Fisher-Snedecor.

Considerando il modello in forma di scarti

yy

yXR

yXXX

k

ˆ

ˆ

.

.

ˆ

ˆ

2

1

1

iii XXN

N

12

2

,

,0

i

iy

16

Si può dimostrare che

e ricordando che

Fp,q

Sotto

2

ˆ

yX

21k

2

2

qq

pp

knee

kyX

2

2 1ˆ

knkF ,1

0:0 H

knR

kR

knee

kyX

2

2

1

11ˆknkF ,1

17

TABELLA ANOVA

Causa var. Devianza G.L. Stime var.

Modellox2…..xk

k-1

Residuo n-k

Totale n-1

• Si costruisce la statistica F • Si individua il 95% o il 99%

quantile della distribuzione F(k-1),(n-k)

• Se si rifiuta H0

0...: 20 kH

2ˆ yRyyX

21 Ryyee

2iyyy

1ˆ kyX

knee

knkFF 1;1

18

SCOMPOSIZIONE DELLA DEVIANZA TOTALE

1) CASO. Modello senza intercetta La colonna della matrice X relativa alla

variabile X1 non è formata da tutte unità

Possiamo scrivere i valori stimati del modello come

da cui

Notiamo che

M simmetrica e idempotente

P simmetrica e idempotente

=0 =0

ˆ yy ˆ yy

MyyXXXXIyXXXXyXy 11ˆˆ

yPyXXXXXy 1ˆˆ

ˆˆˆˆˆˆˆˆˆˆˆˆ1:

2 yyyyyyyyyn

i

i

19

Ma

TSS ESS RSS

Somma quadr. Somma quadr. Somma quadr.

totale modello residui

ˆˆˆˆˆˆˆ

0

ˆ

1

1

yXyyyy

XXXXXyXy

XXXXXIy

MXyXyMX

0

ˆˆˆ

11

1

1

PyyPyy

yXXXXXXXXyPyy

yXXXPXyPyy

yXXXXIPyPMyyMyyy

20

2. CASO. Modello con intercetta

Perché

Se consideriamo otteniamo che :

yXyXyy

XXyXyy

XyXyeeen

ii

ˆˆ2

ˆˆˆ2

ˆˆ

1:

2

yXyXXXXXXX 1ˆ

yXyy ˆ

YYy ii

yXeyy iˆ2

2

22

222

2222

1

1

2

2

i

ii

iii

iiii

Yn

YY

Yn

Y

nYnnYnY

YYYYYYy

21

Possiamo così scomporre la variabilità o “devianza” della variabile dipendente Y

dove:

• Devianza totale TSS

• Devianza dovuta al modello

ESS

• Devianza residua o “non spiegata”

RSS

COEFFICIENTE DI CORRELAZIONE MULTIPLA

2

222

1ˆ

1

i

iii

Yn

yXee

Yn

YYYYy

21' iY

nYY

21ˆ iYn

yX

2ieee

01

'

1ˆˆ

2

2

2

2

2

i

i

i

i

Yn

YY

Yn

yX

YY

YY

TSS

ESSR

22

Il coefficiente di correlazione è un indicatore del legame lineare tra Y e i regressori.

Ha però un difetto:

Esso può aumentare anche se viene aggiunto un regressore che non “spiega” y.

Se dividiamo le devianze per i gradi di libertà andiamo a pesare il contributo a R2 di ogni

regressore

112

22

i

i

Y

e

TSS

RSSTSSR

10 2 R

2

22 11

i

i

Y

e

TSS

RSSR

22 1

11ˆ R

kn

nR

1

1ˆ2

22

nY

kneR

i

i

23

Consideriamo ancora gli scarti

(*)

In forma matriciale

1. Gli elementi di Y e X sono scarti

2. Nella matrice X nx(k-1) non appare più

la colonna delle unità

3. I vettori e sono (k-1)x1 e non

contengono più l’intercetta

kk

kk

XX

uXXY

YY

ˆ....ˆˆ

....

221

221

ikikii

ikikiiii

exxx

ni

uuxxxYYy

ˆ....ˆˆ

......1:

....

3322

3322

eX

uuXy

ˆ

24

Sviluppando gli OLS

è sempre uno stimatore BLUE poiché

= 0

Dalla (*) si ottiene

yXXX 1ˆ

uuXY

uXXXuXXX

uuXXXX

11

1ˆ

0

.

.

3

2

1

ki

i

i

nnk

xu

xu

xu

uX

kk XXXY ˆ....ˆˆˆ33221

25

L’unico cambiamento si nota nella definizione di R 2

TSSyy

ESSyX

yy

yXR

ˆ

ˆ2

26

APPLICAZIONE

n = 12

k = 3

Facendo riferimento ai valori

Determinare il vettore di stime OLS

uXY

3

2

1

iiii uxxy 33221

11912

2001510

129

3232

223

22

32

xxyxyx

yxx

XXY

27

Se consideriamo il modello in forma di scarti dalle medie

Dove

yXXX

1

3

2

ˆ

ˆ

nn xx

xx

xx

X

32

3222

3121

..

.. 333

222

XXx

XXx

ii

ii

2232

3223

2

3223

22

22

432

332

323

21

2332

3222

33221

1

11

111

ˆˆˆ

iii

iii

iiii

iii

iii

iii

iii

XXX

XXX

XXXX

XXX

XXX

XXXX

XXX

XXXXX

XXY

28

da cui

ii

ii

YX

YXyX

3

2

89.1765.762.929ˆˆˆ

65.729

13290

1211510

1211910ˆ

62.929

99180

1211510

9111215ˆ

1ˆ

ˆ

33221

3

2

232322

332223

2

3223

223

2

XXY

YXXXYXX

YXXXYXX

XXXX

65.7

62.9

89.17

ˆ

ˆ

ˆ

ˆ

3

2

1

29

RICAPITOLANDO

Fino ad ora nessuna ipotesi è stata posta per la distribuzione degli errori nel problema della stima.

Aggiungiamo :

22

22

21

1

ˆ

ˆ

ˆˆˆ

ˆ

ˆ

E

kn

e

XXEV

E

yXXX

i

IN

N

2

2

,0

,0

u

ui

30

STIMATORE DI MAX VEROSIMIGLIANZA

Determiniamo il max lg L rispetto al vettore e rispetto a 2:

Equivale al

n

ii

n

n

YPYL

XYXYYP

YuuuP

1

2

222

222

,;

2

1exp

2

1

2

1exp

2

1 IXN 2,

2

22

22

2

1lg

22lg

2

2

1lg

22lg

2lg

ii XYnn

XYXYnn

L

n

iii XYL

1

2

22

1maxlgmax

n

iii XY

1

2min

31

Otteniamo quindi

Lo stimatore M.L. di equivale allo stimatore OLS di

Stimatore M.L. di 2 , che sappiamo essere non corretto

Nota:

Lo stimatore M.L. di gode (ovviamente) di tutte le buone proprietà viste per lo stimatore OLS di b,

Quindi è BLUE

YXXX 1ˆ

n

ii

ii

enL

Xyn

L

1

2422

2

22

212lg

2

1lg

2maxlgmax

22

n

eSen

L ii

2222

200

lg

32

TEST PER LA VERIFICA DI IPOTESI

Dal teorema di GAUSS-MARKOV :

Vogliamo testare

Ovvero vogliamo verificare se il regressore Xi spiega effettivamente la variabile dipendente Y

nel caso (improbabile) che sia nota 2

Sotto andiamo a considerare la

statistica

12,ˆ XXN

0:0 iH

1,0ˆ

12N

XXii

ii

0:0 iH

iii

XX 12

ˆ

33

Se il valore cade all’esterno dell’intervallo di

confidenza al 95% della ,

rifiutiamo H0 ed il parametro i sarà

“significativamente” diverso da zero.

In generale rifiuto H0 al livello 100% di

significatività quando

)96.1()1,0( N

212

ˆ

nq

XX ii

ii

34

QUANDO 2 NON E’ NOTA

Utilizziamo la sua stima

Abbiamo già visto che

MX e idempotente con tr(MX) = n-k

da cui rank (MX) = (n-k)

Per il teorema spettrale

esiste una matrice ortogonale P :

P’P = In

2

kn

ee

2ˆ

uMuuMMuee

uMe

XXX

X

nnkn

nnnnX

nnPMP

35

dove (n-k)

k

(n-k) k

E’ una matrice diagonale con (n-k) unità e k zeri sulla diagonale principale

Esempio

n = 6

k = 2

Sulla base di P u può essere trasformato

00

0knkn

I

000000

000000

001000

000100

000010

000001

222

21

1

11

...

,

kn

kn

XX

nnnn

vvv

vv

vPMPvuMuee

uPuPvvPu

36

con P ortogonale

Inoltre dimostriamo che e sono

indipendenti:

Si dimostra verificando che e è incorrelato da

kn

ikn

kn

i

i

kn

Nv

vvvee

INv

uPv

INu

1

22

1

2

2

2

2

22

2

21

2

2

2

1,0

...

,0

,0

uXXX

uXXXXIe

eE

1

1

ˆ

ˆ

2

37

e e sono Normali e incorrelate quindi

indipendenti ; lo saranno anche e

N.B.

Quindi

0

ˆ

1112

112

11

XXXXXXXXXX

XXXXXXXI

XXXuuXXXXIE

eE

kn

ee

2ˆ

kn

kn

tkn

N

2

1,0

knii

ii

t

knee

XX

2

12

ˆ

38

(*)

elemento generico di posto ii

nella diagonale della (X’X)

Le ipotesi su i possono essere verificate sostituendo i valori nella (*) e controllando poi che la statistica superi o meno i valori della regione critica della distribuzione tn-k .

kn

ii

ii ta

ˆ

ˆ

iiii XXa 1

39

price BDR FLR FP RMS ST LOT TAX BTH CON GaR CDN L1 L2

53

55

56

58

64

44

49

70

72

82

85

45

47

49

56

60

62

64

66

35

38

43

46

46

50

65

2

2

3

3

3

4

5

3

4

4

8

2

3

4

4

2

3

4

2

4

3

3

2

2

2

3

967

815

900

1007

1100

897

1400

2261

1290

2104

2240

641

862

1043

1325

782

1126

1226

929

1137

743

596

803

696

691

1023

0

1

0

0

1

0

0

0

0

0

1

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

5

5

5

6

7

7

8

6

8

9

12

5

6

7

8

5

7

8

5

7

6

5

5

4

6

7

0

0

1

1

0

0

0

0

1

0

1

0

0

0

0

1

1

0

0

0

0

0

0

0

0

1

39

33

35

24

50

25

30

29

33

40

50

25

25

30

50

25

30

37

30

25

25

50

27

30

30

30

652

1000

897

964

1099

960

678

2700

800

1038

1200

860

600

676

1287

834

734

551

1355

561

489

752

774

440

549

900

1.5

1.0

1.5

1.5

1.5

2.0

1.0

1.0

1.5

2.5

3.0

1.0

1.0

1.5

1.5

1.0

2.0

2.0

1.0

1.5

1.0

1.0

1.0

2.0

1.0

2.0

1

1

1

0

1

0

0

0

1

1

0

0

1

0

0

0

1

0

1

0

1

0

1

1

0

1

0.0

2.0

1.0

2.0

1.5

1.0

1.0

2.0

1.5

1.0

2.0

0.0

0.0

0.0

0.0

0.0

0.0

2.0

1.0

0.0

0.0

0.0

0.0

1.0

2.0

1.0

0

1

0

0

0

0

1

0

0

1

0

0

0

0

0

0

1

0

0

0

0

0

1

0

1

0

1

1

1

1

1

1

1

1

1

1

1

0

0

0

0

0

0

0

0

0

0

0

0

0

0

1

0

0

0

0

0

0

0

0

0

0

0

1

1

1

1

1

1

1

1

0

0

0

0

0

0

0

Price=selling price of house in thousands of dollars*BDR= Number of bedrooms*FLR= Floor space in sq.ft(computed bfrom dimension of each room and then augmented by 10%)*FP=Number of fireplaces ; * RMS=Number of rooms*ST=Storm windows (1 if present, 0 if absent)LOT=Front footage of lot in feet ; TAX=Annual taxesBTH=Number of bathrooms GAR=Garage size (0=no garage, 1=one-car garage,…)CDN=Condition (1=‘needs work’, 0 otherwise)L1=Location (L1=1 if property is in zone A , L1=0 otherw.)L2=Location (L2=1 if property is in zone B , L2=0 otherw.) R=14 , n=26SOURCE: Ms.Terry Tasch of Long-Kogan Realty, Chicago.

40

MULTIPLE REGRESSIONdependent variable : Price

Var-Covar matrix of Regression Coefficients (B)Below diagonal : Covariance . Above :

Correlation

FLR ST FP BDR RMSFLR 1.116E-05 .06523 -.02657 .01127 -.41096ST 5.112E-04 5.50163 .06414 -.03717 -.08660FP -2.529E-04 .42872 8.11969 .00430 -.06912BDR 7.452E-05 -.17250 .02423 3.91444 -.83394RMS -.00230 -.33964 -.32930 -2.75873 2.79561----------------------Variables in the Equation-----------------------------Variable B SE B 95%Conf. Intrvl B BetaFLR .019124 .003341 .012155 .026092 .696273ST 11.253185 2.345555 6.360443 16.145926 .404586FP 10.295264 2.849507 4.351296 16.239232 .301084BDR -7.826966 1.978493 -11.954030 -3.699901 -.812218RMS 4.863990 1.672008 1.376242 8.351738 .658351Const. 24.172544 4.903762 13.943476 34.401612 ----------------in-----------------Variable T Sig TFLR 5.724 .0000ST 4.798 .0001FP 3.613 .0017BDR -3.956 .0008RMS 2.909 .0087(Const.) 4.929 .0001End Block Number 1 PIN=.050 Limits reached

PRICE=24.17+0.019*FLR +11.253*ST+10.295*FP-7.827*BDR++4.864*RMR=24.17+0.019*(100)+11.253*(1)+10.295*(0)--7.827*(3)+4.864*(6)=43.026 (prezzo stimato)

41

RIPRENDIAMO L’ESERCIZIO (Applicazione lucidi precedenti)

( F0.01 , 2 , 9 = 8.02)

Ricordiamo: n = 12

k = 3 con intercetta 2 var. esplicative

in forma di scarti

valore empirico di F

Si rifiuta H0 con un livello di significatività del 99% F empirico = 51.75 >F0.01,2,9 = 8.02

0: 320 H

knRSS

kESS

knR

kRF

1

1

12

2

75.512

95.11

992.01

292.0

92.0200

29.184

200

965.71262.9

ˆˆˆˆ

.

.

..

..ˆˆ

2

33223

232

1

331

22132

F

R

yXyXyX

yX

y

y

xx

xx

n

n

n

yy

yXR

ˆ

2

42

Se avessimo voluto testare

Ovvero la significatività di X2

(t99.9 = 2.82)

valore

empirico

di t

Anche adesso rifiutiamo H0 il regressore X2 è significativo

0: 20 H

knFota

t kn

,1

ˆ

ˆ

222

22

2.1094.0

62.9

51.074.1

62.9

ˆ

ˆ

74.19

29.184200

9ˆ

51.029

15

121150

15

2222

2

232

23

22

23

22

at

ESSTSS

kn

ee

XXXX

Xa

43

PROBLEMI DI PREVISIONE

Si vuole prevedere il valore di Yn+1 per un insieme di valori X osservati.

Supponiamo però per X i valori

E’ possibile fare una previsione puntuale o stimare un intervallo di previsioni.

Utilizzando le proprietà BLUE di avremo il PREVISORE PUNTUALE

sarà BLUFF

Best Linear Unbiased Forecasting Function

1,1,31,2 ...1 nknn XXXC

CYE

uC

uXXY

n

nkk

nnkknn

1

111

11

11,1,2211 ...

ˆˆ

1 CYn

44

Per ottenere un intervallo di previsioneè necessario individuare la distribuzione di

Quindi una stima intervallare con un livello

fiduciario del 100(1-)% :

CXXCCCE

CCCCECVar

CCE

21ˆˆ

ˆˆˆ

ˆ

knt

knee

CXXC

CC

CXXCCNC

2

1

12

ˆ

,ˆ

22

12

ˆˆ

ˆ

tCCtC

CXXCtC

45

APPLICAZIONE

Voglio prevedere Y da X0. Per calcolare l’intervallo devo determinare

Infatti .

uXY 21

22

200

2

1

0

2

2

1

XXu

XuXXXCXXC

XC

XX

XnXX

22

0200

2

000

222

0

2

220

1,

1

111

XXn

XXnXXXX

XXnXXXX

XXn

XnX

XX

XXnX

46

L’intervallo fiduciario sarà

A parità di dati osservati l’intervallo sarà tanto più largo quanto più X0 è distante da

2

2

022

200

212

X

XX

nXXn

nXXXX

2

2

022021

122

1ˆˆX

XX

ntX

CXXCtC

X

47

CENNI SULLE VARIABILI DUMMY(Variabili di comodo)

Fino ad ora abbiamo assunto che nella equazione

generale Y = X + u

Le variabili X siano variabili cardinali date dalla

teoria economica.

E’ possibile introdurre variabili cosiddette “di

comodo” che riescano a rappresentare diversi

fattori :

– EFFETTI TEMPORALI

– EFFETTI SPAZIALI

– VARIABILI QUALITATIVE

48

È possibile che un modello economico possa subire mutamenti strutturali :

FUNZIONE DI CONSUMO

Tempo di guerra

Tempo di pace

Si ipotizza comunque che la propensione

marginale al consumo rimanga

invariata in entrambi i periodi

uYC

uYC

2

1

Y

C

49

Invece di considerare i due modelli separatamente (stime meno precise) vengono uniti in una sola

relazione

Dove X1 e X2 sono variabili dummy :

La matrice dei coefficienti sarà

e la matrice dei dati

uYXXC 2211

pacedianniguerradianni

X


X

10

21

2

1

2

1

nY

YYY

YXXX

10....10.01....01.01.10

..1010

3

2

1

21

50

La trappola delle variabili di comodo

Quando utilizziamo le variabili dummy è necessariob fare attenzione a come viene

costruito il modello, per non rendere la matrice (X’X) singolare .

Infatti se nel modello precedente lasciavamo una

intercetta :

Abbiamo che le 4 colonne di X sono linearmente

dipendenti (X’X) non è invertibile

00111

101.....101.011.....011.011.101....

101101

210

2

1

22110

YXXX

Y

YY

X

uYXXC

n

kXXrankXrank 3

51

Volendo utilizzare una regressione con intercetta si utilizzerà così solo una dummy :

= PMC in entrambi i periodi

1 = 1 = intercetta anni di guerra

2 = 1 + 2 = intercetta anni di pace

1 – 2 = 2 = differenza tra l’intercetta del

periodo guerra e pace

• Cambiamento di coefficiente angolare

2 – 1 = differenza propensione marginale al

consumo nei due periodi


X

uYXC

10

2

221

uYCpacedianniuYCguerradianni

X

uYXYC

2

12

2121

10

52

APPLICAZIONE (p.255 Maddala)

Y = 1 + 2 SVA + u

Y = km / litro

SVA = Stima Vita Auto in anni

W = peso in Kg

82.0

415.028.3760.2002.0008.22ˆ

1

0

1

0

74.0

693.0952.7ˆ

2

097.0413.1708.0001.0349.5

54321

2

061.0753.1

R

SVADG

ASWY

diesel

gas

DG

automaticocambio

ndardstacambio

AS

uSVADG

ASWY

R

SVAY

53

MULTICOLLINEARITA’

Quando tra due o più variabili esplicative vi è perfetta collinearità o multicollinearità, la matrice (X’X) non è più a rango pieno e le stime OLS non

possono essere calcolate.

Si può però facilmente fare una sostituzione di variabile

Es :

212

21

121

12211

12

2211

uX

uXXY

XX

uXXY

54

Il problema della multicollinearità esiste quindi

quando due o più regressori sono quasi-collineari

ovvero quando il coefficiente di correlazione tra i

regressori è alto .

•MODELLO A 3 VARIABILI

2232

3223

2

3223

22

2

12

1

3

2

3322

33221

ˆ

ˆ

ˆˆ

XXX

XXX

XXXX

XXV

yXXX

uuXXY

uXXY

55

È facile vedere che valori molto alti di

rendono le stime OLS molto imprecise.

Inoltre piccole variazioni nella matrice dei dati

provocano o possono provocare grandi variazioni

nella stima dei parametri.

223

23

2

3

223

22

2

23

22

2

3223

222

322

23

2

2

3223

22

23

2

2

1ˆ

1

ˆ

rXV

rX

XX

XXXXXX

X

XXXX

XV

223r

56

ESEMPIO-APPLICAZIONE:instabilità delle stime

Dati :

uuXXY 3322

263

350113

150200

3

223

3222

ii

iii

iii

YX

YXX

XXX

1100

100

2250022600

5250052600ˆ

1100

100

2250022600

3945039550

150113200

263150350113

ˆ

3

2

2

3223

22

332223

2

XXXX

YXXXYXX

995.0

113200

1502

23

22

2

322

32

XX

XXr XX

57

Togliendo solo una osservazione:

Si modificano molto le stime

387

261

149112199

5.3471495.261199ˆ

2

1

87

5.43

149112199

5.2611495.347112ˆ

5.261

5.327112

149199

23

22

3

223

3222

YX

YXX

XXX

58

ETEROSCHEDASTICITA’

Avevamo ipotizzato che

tale assunzione è in molte situazioni non valida

dobbiamo quindi riformulare il problema nella forma

IuuE 2

2

0

uuE

uuE

59

Sono ancora corretti ma non efficienti

uEXXXE

uXy

yXXX

1

1

ˆ

ˆ

211

11ˆ

XXXXX

XXXuuEXXXV

60

GOLDFELD – QUANDT TEST

- Si ordinano le osservazioni secondo la variabile Xj che si ipotizza sia la causa

dell’eteroschedasticità- Si divide il campione in tre parti di numerosità n1 n2 n3 .

- Dopo la stima OLS nei tre sottocampioni si calcola e

Sotto H0 : omoschedasticità : (il valore di F è

piccolo)

knknFee

eeF

eeee

21 ,33

11

3311

0HRifiutoFF teoricoempirico

61

RIMEDI

1. i i = 1 , … , n siano valori noti.

si applicano i MINIMI QUADRATI PESATI (WLS)

ovvero si applica OLS al modello trasformato

Ovvero

Dove

2. relazione tra la componente stocastica e uno dei regressori

Es.

i

ii

i

ijij

i

ii

xx

yy

*** ;;

***22

*11

* ... iikkiii xxxy

11

2

2

2*

i

ii

ii

ii VarVarVar

22

221 ...

ii

iikkii

xCVar

xxy

62

Trasformiamo il modello

Dove

Applico OLS

222

21

2

2

*

2

*

2

*

...1

;;

i

i

i

ikk

ii

i

i

ii

i

ijij

i

ii

xx

x

xx

y

xx

xx

x

yy

CVarxx

VarVar iii

ii

222

* 1

63

ESERCIZIO

La stima di un modello lineare sulla base dei valori del Reddito e del Consumo di 30 famiglie

americane fornisce i seguenti valori :

La stima dello stesso modello sulle prime 12 e sulle ultime 12 osservazioni fornisce i seguenti

valori:

Verificare l’ipotesi di presenza di eteroschedasticità ed in caso affermativo

indicare la procedura di correzione.

C’è presenza di eteroschedasticità

97.0788.01480ˆ 2

37.2929.3 RyC

3344000

71.0747.07.2306ˆ

1069000

91.0837.07.846ˆ

2

00.579.0

2

91.974.0

SEQ

RyC

SEQ

RyC

83.112.31069000

334400010,10 FF

64

AUTOCORRELAZIONE DEI RESIDUI

Molto spesso la assunzione

cade perché gli errori sono autocorrelati, effetto molto usuale nelle serie storiche.

Per illustrare il problema consideriamo una semplice relazione a due variabili

IuuE 2

ttt

ttt

uu

uXy

1

00

0

0

1

2

s

sE

E

stt

t

ttt

ttt

u

uu

12

1

65

0 0 0

0:

22

1 ...

r

rtr

ttt

0:

0r

rtr

t EuE

22

2

422

21

22

1

22

421

222

1

...1

...2

...22

...

u

tt

tttt

tttt

E

EE

EEEuE

66

22

2

422

25232

2122

11

1

...1

...

......

u

ttttttt EuuE

222

22

262422

42

32

33

22

1

2

1

...

...

u

ttt

tttt

tt EuuE

2u

sstt uuE

1.....

....1.1

21

2

2

12

2

nn

n

n

uVuuE

67

CONSEGUENZE

1. Stime OLS di corrette

2. Varianze di molto grandi ovvero

3. Sottostima di tali varianze inefficienti

4. Conseguente non validità dei test t ed F

Infatti si può dimostrare che

Solo se 2 = 0

Con N=20 ; = 0.5 :

sottostima 4%

Con N=20 ; = 0.8

sottostima 19%

2

22

1

1ueeE u

22ˆ1 uE

n

eeE

2

19

3.18

1 un

eeE

2

19

4.15

1 un

eeE

68

TEST DI DURBIN - WATSON

residui nella

stima OLS

per n grande

0 dL dH 2 4-dH 4-dL 4

autocorr.(+) ? No autocorr. ? Autocorr.(-)

Il limite tra la zona di accettazione e quella di rifiuto è funzione della matrice X .

D – W hanno costruito delle bande valide sempre.

re

ee

e

eed

e

eeee

d

Xyee

ee

d

t

tt

t

tt

n

t

t

n

t

tt

n

t

n

t

tt

n

t

t

n

t

tt

121222

2

ˆˆ

2

1

2

1

1

2

2

1

2 2

21

2

1

2

2

21

40 d

69

METODI RISOLUTIVI

1. GLS : se ho una stima di

Riesco a trovare la matricee trasformo il modello in

stima OLS2. Procedura iterativa per stimare Avendo:E

(1)

t (2)

Procedura:- Da (1) stimo e con OLS(partendo da un valore iniziale per )- Sostituisco e in (2)

1.........1ˆ

ˆ.ˆ1

ˆ

1

2

1

n

t

tt

e

ee

1: TTT

ITuVar

TuTXTy2

t1t1ttt

1tt1tt1tt

1t1t1t

t1ttttt

XyXy

uuXX1yy

uXy

uu,uXy

yXXX

1

ˆˆ

ˆ

1 modello di regressione lineare multipla 1.modello e assunzioni 2.stimatori ols e proprietà 3.r 2,...

Documents