regressione lineare multipla -...

31
Regressione lineare multipla Eduardo Rossi 2 2 Universit`a di Pavia (Italy) Aprile 2014 Rossi Regressione lineare Econometria - 2014 1 / 31

Upload: duongbao

Post on 19-Feb-2019

221 views

Category:

Documents


0 download

TRANSCRIPT

Regressione lineare multipla

Eduardo Rossi2

2Universita di Pavia (Italy)

Aprile 2014

Rossi Regressione lineare Econometria - 2014 1 / 31

Outline

1 La distorsione da variabili omesse

2 Causalita

3 Misure di Goodness-of-Fit

Rossi Regressione lineare Econometria - 2014 2 / 31

Struttura

Distorsione da variabili omesse

Causalita e analisi di regressione

Regressione multipla e OLS

Misure di adattamento

Distribuzione campionaria dello stimatore OLS

Rossi Regressione lineare Econometria - 2014 3 / 31

La distorsione da variabili omesse

La distorsione da variabili omesse

L’errore u si verifica a causa di fattori, o variabili, che influenzano Y manon sono inclusi nella funzione di regressione. Ci sono sempre variabiliomesse.

Talvolta l’omissione di queste variabili puo portare a una distorsione dellostimatore OLS.

Rossi Regressione lineare Econometria - 2014 4 / 31

La distorsione da variabili omesse

La distorsione da variabili omesse

La distorsione dello stimatore OLS che si verifica a seguito di un fattore,o variabile, omesso e detta distorsione da variabile omessa. Affinchesi verifichi tale distorsione, la variabile omessa Z deve soddisfare duecondizioni:

Le due condizioni per la distorsione da variabile omessa

Z e una variable determinante di Y (cioe Z e parte di u); e

Z e correlata con il regressore X (cioe, Corr(Z,X) > 0).

Entrambe le condizioni devono verificarsi affinche l’omissione di Z porti adistorsione da variabile omessa.

Rossi Regressione lineare Econometria - 2014 5 / 31

La distorsione da variabili omesse

La distorsione da variabili omesse

Nell’esempio dei punteggi nei test:

Il livello di conoscenza della lingua inglese (se lo studente e dimadrelingua o meno) verosimilmente influisce sui punteggi nei teststandardizzati: Z e una determinante di Y.

Le comunita di immigrati tendono a una minore affluenza e quindi hannobudget scolastici inferiori e STR maggiori: Z e correlata con X.

Di conseguenza, e distorto. In quale direzione?

Che cosa suggerisce il buon senso?Se il buon senso vi fa difetto, c’e una formula...

Rossi Regressione lineare Econometria - 2014 6 / 31

La distorsione da variabili omesse

La distorsione da variabili omesse

Formula per la distorsione da variabili omesse: si ricordi l’equazione

β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

=1n

∑i vi(

n−1n

)s2X

Dove vi = (Xi − X)ui ≈ (Xi − µX)ui.

Sotto la prima assunzione dei minimi quadrati,

E[(Xi − µX)ui] = Cov(Xi, ui) = 0

Ma seE[(Xi − µX)ui] = Cov(Xi, ui) = σXu 6= 0

cosa succede?

Rossi Regressione lineare Econometria - 2014 7 / 31

La distorsione da variabili omesse

La distorsione da variabili omesse

β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

=1n

∑i vi(

n−1n

)s2X

p→ σXuσ2X

doveσXuσ2X

=σuσX× σXuσuσX

=σuσX× ρXu

Se vale la prima assunzione, allora ρXu = 0, ma se non vale abbiamo... .

Rossi Regressione lineare Econometria - 2014 8 / 31

La distorsione da variabili omesse

Formula della distorsione da variabili omesse

β1p→ β1 +

σuσX

ρXu

Se una variabile omessa Z e contemporaneamente:1 una determinante di Y (cioe se e contenuta in u); e2 correlata con X,

allora ρXu 6= 0 e lo stimatore OLS β1 e distorto e inconsistente.

Per esempio, i distretti scolastici con pochi studenti non di madrelingua1 ottengono punteggi migliori nei test standardizzati e2 hanno classi piu piccole (budget piu elevati), percio ignorando l’effetto di

avere molti studenti non di madrelingua si arriverebbe a sovrastimarel’effetto della dimensione delle classi.

Rossi Regressione lineare Econometria - 2014 9 / 31

La distorsione da variabili omesse

Distorsione da variabili omesse

I distretti con meno studenti non di madrelingua ottengono miglioripunteggi nei testi.I distrettti con una minore percentuale di studenti non di madrelinguahanno classi piu piccole.Tra i distretti con percentuali di studenti non di madrelingua comparabili,l’effetto della dimensione delle classi e piccolo (si ricordi checomplessivamente la differenza di punteggio nei test = 7.4).

Rossi Regressione lineare Econometria - 2014 10 / 31

La distorsione da variabili omesse

Causalita e analisi di regressione

L’esempio dei punteggi nei test (STR) e percentuale di studenti non dimadrelingua mostra che, se una variabile omessa soddisfa le duecondizioni della distorsione da variabili omesse, allora lo stimatore OLSnella regressione che omette tale variabile e distorto e inconsistente.Percio, anche se n e grande, non sara vicino a β1.

Cio fa sorgere una domanda piu profonda: come definiamo β1? Ovvero,che cosa vogliamo stimare, precisamente, quando eseguiamo unaregressione?

Rossi Regressione lineare Econometria - 2014 11 / 31

La distorsione da variabili omesse

Che cosa vogliamo stimare quando eseguiamo unaregressione?

Esistono (almeno) tre possibili risposte a questa domanda:

Vogliamo stimare la pendenza di una retta attraverso undiagramma a nuvola come semplice riepilogo dei dati a cui non associamoun significato sostanziale. Questo puo essere utile talvolta, ma non emolto interessante a livello intellettuale e non rientra nell’obiettivo diquesto corso.

Vogliamo effettuare previsioni del valore di Y per una unita che nonappartiene all’insieme dei dati, per cui conosciamo il valore di X.Realizzare previsioni e importante per gli economisti, ed e possibileottenere previsioni eccellenti utilizzando i metodi di regressione senza lanecessita di conoscere gli effetti causali. Torneremo a questo tema piuavanti nel corso.

Rossi Regressione lineare Econometria - 2014 12 / 31

La distorsione da variabili omesse

Che cosa vogliamo stimare quando eseguiamo unaregressione?

Vogliamo stimare l’effetto causale su Y di una variazione in X. Sisupponga che il consiglio scolastico decida una riduzione di 2 studenti perclasse. Quale sarebbe l’effetto sui punteggi nei test? Questa e unadomanda causale (qual e l’effetto causale sui punteggi nei test di STR?)percio dobbiamo stimare questo effetto causale. A parte la discussionedell’attivita di previsione, lo scopo di questo corso e la stima di effetticausali mediante metodi di regressione.

Rossi Regressione lineare Econometria - 2014 13 / 31

Causalita

Che cos’e un effetto causale?

La causalita e un concetto complesso!

In questo corso adottiamo un approccio pratico alla definizione dicausalita:

Un effetto causale e definito come un effetto misurato in un esperimentocontrollato casualizzato ideale.

Rossi Regressione lineare Econometria - 2014 14 / 31

Causalita

Esperimento controllato causalizzato ideale

Ideale: i soggetti seguono tutti il protocollo di trattamento - perfettacompliance, nessun errore nei report, ecc.!

Casualizzato: i soggetti della popolazione di interesse sono assegnaticasualmente a un gruppo di trattamento o di controllo (cosı non ci sonofattori di confusione)

Controllato: la disponibilita di un gruppo di controllo permette dimisurare l’effetto differenziale del trattamento

Esperimento: il trattamento e assegnato nell’esperimento: i soggetti nonhanno scelta, percio non vi e causalita inversa in cui i soggetti scelgono iltrattamento che ritengono migliore.

Rossi Regressione lineare Econometria - 2014 15 / 31

Causalita

Esperimento controllato casualizzato ideale

Si immagini un esperimento controllato casualizzato ideale per misurarel’effetto sui punteggi nei test della riduzione di STR...

In tale esperimento gli studenti sarebbero assegnati casualmente alleclassi, che avrebbero dimensioni diverse.

Poiche gli studenti sono assegnati casualmente, tutte le loro caratteristiche(e quindi gli ui) sarebbero distribuiti in modo indipendente da STRi.

Quindi, E[ui|STRi] = 0 - cioe la prima assunzione dei minimi quadrativale in un esperimento controllato casualizzato.

Rossi Regressione lineare Econometria - 2014 16 / 31

Causalita

Dati osservazionali

Il trattamento non e assegnato in modo casuale

Si consideri PctEL - la percentuale di studenti non di madrelingua - neldistretto. Verosimilmente soddisfa i due criteri per la distorsione davariabili omesse: Z = PctEL e:

una determinante di Y; ecorrelata con il regressore X.

Quindi i gruppi di controllo e di trattamento differiscono in modosistematico, percio Corr(STR,PctEL) 6= 0

Rossi Regressione lineare Econometria - 2014 17 / 31

Causalita

Dati osservazionali

Casualizzazione + gruppo di controllo significa che qualsiasi differenza trai gruppi di trattamento e di controllo e casuale – non sistematicamentecorrelata al trattamento

Possiamo eliminare la differenza di PctEL tra il gruppo di classi grandi (dicontrollo) e quello di classi piccole (di trattamento) esaminando l’effettodella dimensione delle classi tra i distretti con lo stesso valore di PctEL.

Se soltanto la differenza sistematica tra i gruppi di classi grandi e piccole ein PctEL, allora torniamo all’esperimento controllato casualizzato –all’interno di ciascun gruppo di PctEL.Questo e un modo per “controllare” per l’effetto di PctEL quando si stimal’effetto di STR.

Rossi Regressione lineare Econometria - 2014 18 / 31

Causalita

Ancora sulla distorsione da variabili omesse

Tre modi per superare la distorsione da variabili omesse

Eseguire un esperimento controllato casualizzato in cui il trattamento(STR) sia assegnato casualmente: allora PctEL e ancora unadeterminante di TestScore, ma PctEL e incorrelato con STR. (Questasoluzione e raramente praticabile).

Adottare l’approccio a tabulazione incrociata, con gradazioni piu fini diSTR e PctEL - all’interno di ogni gruppo, tutte le classi hanno lo stessoPctEL, percio controlliamo per PctEL (ma presto si esauriranno i dati eche dire di altre variabili determinanti come il reddito famigliare e illivello di istruzione dei genitori?)

Usare una regressione in cui la variabile omessa (PctEL) non e piu omessa:includere PctEL come regressore aggiuntivo in una regressione multipla.

Rossi Regressione lineare Econometria - 2014 19 / 31

Causalita

Il modello di regressione multipla

Si consideri il caso di due regressori:

Yi = β0 + β1X1i + β2X2i + ui, i = 1, 2, . . . , n

Y e la variabile dipendente

X1, X2 sono le due variabili indipendenti (regressori)

β0 = intercetta della popolazione ignota

β1 = effetto su Y di una variazione in X1, tenendo X2 costante

β2 = effetto su Y di una variazione in X2, tenendo X1 costante

ui = errore di regressione (fattori omessi)

Rossi Regressione lineare Econometria - 2014 20 / 31

Causalita

Interpretazione dei coefficienti nella regressione multipla

Si consideri di variare X1, ∆X1 tenendo X2 costante:

Retta di regressione della popolazione prima della variazione:

Y = β0 + β1X1 + β2X2

Retta di regressione della popolazione dopo la variazione:

Y∆Y = β0 + β1(X1 + ∆X1) + β2X2

Differenza:∆Y = β1∆X1

Quindi:

β1 =∆Y

∆X1

tenendo X2 costante

β2 =∆Y

∆X2

tenendo X1 costante

β0 = valore predetto di Y quando X1 = X2 = 0.

Rossi Regressione lineare Econometria - 2014 21 / 31

Causalita

Lo stimatore OLS della regressione multipla

Con due regressori, lo stimatore OLS risolve:

β0, β1, β2 = arg minβ0,β1,β2

n∑i=1

[Yi − (β0 + β1X1i + β2X2i)

2]

Lo stimatore OLS minimizza la differenza quadratica media tra i valoriattuali di Yi e il valore predetto in base alla retta stimata, Yi.

Rossi Regressione lineare Econometria - 2014 22 / 31

Causalita

Esempio

Regressione di TestScore su STR:

TestScr = 698, 933(9,468)

− 2, 280(0,480)

STR

T = 420 R2 = 0, 0490 SER = 18, 581

(1)

Ora includiamo la percentuale di studenti non di madrelingua neldistretto ( PctEL):

testscr = 686, 032(7,411)

− 1, 10(0,380)

STR− 0, 65(0,039)

PctEL

T = 420 R2 = 0, 424 SER = 14, 464

(2)

Che cosa accade al coefficiente di STR?

Rossi Regressione lineare Econometria - 2014 23 / 31

Misure di Goodness-of-Fit

Misure di bonta dell’adattamento nella regressionemultipla

Reale = predetto + residuale: Yi = Yi + ui

SER = deviazione standard di ui (con correzione per gradi di liberta)

RMSE = deviazione standard di ui (senza correzione per gradi di liberta)

R2 = frazione della varianza di Y spiegata da X

R2 corretto (R2)= R2 con una correzione per gradi di liberta che correggeper l’incertezza della stima; R2 < R2

Rossi Regressione lineare Econometria - 2014 24 / 31

Misure di Goodness-of-Fit

SER e RMSE

Come nella regressione con un unico regressore, SER e RMSE sono misuredella dispersione delle Y attorno alla retta di regressione:

SER =

√√√√ 1

n− k − 1

n∑i=1

ui

RMSE =

√√√√ 1

n

n∑i=1

ui

Rossi Regressione lineare Econometria - 2014 25 / 31

Misure di Goodness-of-Fit

R2 e R2

L’R2 e la frazione della varianza spiegata - stessa definizione dellaregressione con singolo regressore:

R2 =ESS

TSS= 1− RSS

TSS

dove

ESS =n∑i=1

(Yi − ¯Y )

SSR =

n∑i=1

(Yi − Yi)

TSS =

n∑i=1

(Yi − Y )

L’R2 aumenta sempre quando si aggiunge un altro regressore (perche?) -un problema per una misura di adattamento.

Rossi Regressione lineare Econometria - 2014 26 / 31

Misure di Goodness-of-Fit

R2 e R2

L’R2 corregge questo problema penalizzando l’inserimento di un altroregressore - l’R2 non aumenta necessariamente quando si aggiunge unaltro regressore.

R2 = 1−(

n− 1

n− k − 1

)SSR

TSS

Si noti che R2 < R2, tuttavia se n e grande i due saranno molto vicini.

Rossi Regressione lineare Econometria - 2014 27 / 31

Misure di Goodness-of-Fit

Misure di bonta dell’adattamento

testscr = 686, 032(7,411)

− 1, 10(0,380)

STR− 0, 65(0,039)

PctEL

T = 420 R2 = 0, 426 R2 = 0, 424 SER = 14, 464

(3)

perche l’R2 e l’R2 sono cosı vicini?

Rossi Regressione lineare Econometria - 2014 28 / 31

Misure di Goodness-of-Fit

Le assunzioni degli OLS per il MRLM

Yi = β0 + β1X1i + . . .+ βkXki + ui i = 1, . . . , n

A.1 E[ui|X1i = x1, . . . , Xki = xk] = 0.

A.2 (X1i, . . . , Xki, Yi) sono i.i.d.

A.3 Gli outlier sono improbabili: (X1i, . . . , Xki, Yi) hanno momenti quartifiniti, E[X1i] <∞, . . . , E[Xki] <∞, E[Yi] <∞.

A.4 Non vi e collinearita perfetta.

Rossi Regressione lineare Econometria - 2014 29 / 31

Misure di Goodness-of-Fit

Assunzione 1

Assunzione 1:E[ui|X1i = x1, . . . , Xki = xk] = 0

Ha la stessa interpretazione del caso della regressione con un singoloregressore.

La non validita di questa condizione porta a distorsione da variabiliomesse; nello specifico, se una variabile omessa appartiene all’equazione(cioe e in u) e

1 e correlata con una X inclusa2 allora questa condizione non vale e vi e distorsione da variabili omesse.

La soluzione migliore, se possibile, e quella di includere la variabileomessa nella regressione.

Una seconda soluzione, correlata alla precedente, e quella di includere unavariabile che controlli per la variabile omessa (cfr. Capitolo 7).

Rossi Regressione lineare Econometria - 2014 30 / 31

Misure di Goodness-of-Fit

Assunzioni 2, 3 e 4

Assunzione 2:(X1i, . . . , Xki, Yi)

sono i.i.d. E soddisfatta automaticamente se i dati sono raccolti mediantecampionamento casuale semplice.

Assunzione 3: gli outlier sono rari (momenti quarti finiti)

E la stessa assunzione descritta per il caso di un regressore singolo. Comein quel caso, l’OLS puo essere sensibile agli outlier, percio occorrecontrollare i dati (diagrammi a nuvola!) per assicurarsi che non vi sianovalori impazziti (refusi o errori di codifica).

Assunzione 4: Non vi e collinearita perfetta. La collinearita perfetta si haquando uno dei regressori e funzione lineare esatta degli altri.

Rossi Regressione lineare Econometria - 2014 31 / 31