regressione lineare multipla -...
TRANSCRIPT
Regressione lineare multipla
Eduardo Rossi2
2Universita di Pavia (Italy)
Aprile 2014
Rossi Regressione lineare Econometria - 2014 1 / 31
Outline
1 La distorsione da variabili omesse
2 Causalita
3 Misure di Goodness-of-Fit
Rossi Regressione lineare Econometria - 2014 2 / 31
Struttura
Distorsione da variabili omesse
Causalita e analisi di regressione
Regressione multipla e OLS
Misure di adattamento
Distribuzione campionaria dello stimatore OLS
Rossi Regressione lineare Econometria - 2014 3 / 31
La distorsione da variabili omesse
La distorsione da variabili omesse
L’errore u si verifica a causa di fattori, o variabili, che influenzano Y manon sono inclusi nella funzione di regressione. Ci sono sempre variabiliomesse.
Talvolta l’omissione di queste variabili puo portare a una distorsione dellostimatore OLS.
Rossi Regressione lineare Econometria - 2014 4 / 31
La distorsione da variabili omesse
La distorsione da variabili omesse
La distorsione dello stimatore OLS che si verifica a seguito di un fattore,o variabile, omesso e detta distorsione da variabile omessa. Affinchesi verifichi tale distorsione, la variabile omessa Z deve soddisfare duecondizioni:
Le due condizioni per la distorsione da variabile omessa
Z e una variable determinante di Y (cioe Z e parte di u); e
Z e correlata con il regressore X (cioe, Corr(Z,X) > 0).
Entrambe le condizioni devono verificarsi affinche l’omissione di Z porti adistorsione da variabile omessa.
Rossi Regressione lineare Econometria - 2014 5 / 31
La distorsione da variabili omesse
La distorsione da variabili omesse
Nell’esempio dei punteggi nei test:
Il livello di conoscenza della lingua inglese (se lo studente e dimadrelingua o meno) verosimilmente influisce sui punteggi nei teststandardizzati: Z e una determinante di Y.
Le comunita di immigrati tendono a una minore affluenza e quindi hannobudget scolastici inferiori e STR maggiori: Z e correlata con X.
Di conseguenza, e distorto. In quale direzione?
Che cosa suggerisce il buon senso?Se il buon senso vi fa difetto, c’e una formula...
Rossi Regressione lineare Econometria - 2014 6 / 31
La distorsione da variabili omesse
La distorsione da variabili omesse
Formula per la distorsione da variabili omesse: si ricordi l’equazione
β1 − β1 =
∑i(Xi − X)ui∑i(Xi − X)2
=1n
∑i vi(
n−1n
)s2X
Dove vi = (Xi − X)ui ≈ (Xi − µX)ui.
Sotto la prima assunzione dei minimi quadrati,
E[(Xi − µX)ui] = Cov(Xi, ui) = 0
Ma seE[(Xi − µX)ui] = Cov(Xi, ui) = σXu 6= 0
cosa succede?
Rossi Regressione lineare Econometria - 2014 7 / 31
La distorsione da variabili omesse
La distorsione da variabili omesse
β1 − β1 =
∑i(Xi − X)ui∑i(Xi − X)2
=1n
∑i vi(
n−1n
)s2X
p→ σXuσ2X
doveσXuσ2X
=σuσX× σXuσuσX
=σuσX× ρXu
Se vale la prima assunzione, allora ρXu = 0, ma se non vale abbiamo... .
Rossi Regressione lineare Econometria - 2014 8 / 31
La distorsione da variabili omesse
Formula della distorsione da variabili omesse
β1p→ β1 +
σuσX
ρXu
Se una variabile omessa Z e contemporaneamente:1 una determinante di Y (cioe se e contenuta in u); e2 correlata con X,
allora ρXu 6= 0 e lo stimatore OLS β1 e distorto e inconsistente.
Per esempio, i distretti scolastici con pochi studenti non di madrelingua1 ottengono punteggi migliori nei test standardizzati e2 hanno classi piu piccole (budget piu elevati), percio ignorando l’effetto di
avere molti studenti non di madrelingua si arriverebbe a sovrastimarel’effetto della dimensione delle classi.
Rossi Regressione lineare Econometria - 2014 9 / 31
La distorsione da variabili omesse
Distorsione da variabili omesse
I distretti con meno studenti non di madrelingua ottengono miglioripunteggi nei testi.I distrettti con una minore percentuale di studenti non di madrelinguahanno classi piu piccole.Tra i distretti con percentuali di studenti non di madrelingua comparabili,l’effetto della dimensione delle classi e piccolo (si ricordi checomplessivamente la differenza di punteggio nei test = 7.4).
Rossi Regressione lineare Econometria - 2014 10 / 31
La distorsione da variabili omesse
Causalita e analisi di regressione
L’esempio dei punteggi nei test (STR) e percentuale di studenti non dimadrelingua mostra che, se una variabile omessa soddisfa le duecondizioni della distorsione da variabili omesse, allora lo stimatore OLSnella regressione che omette tale variabile e distorto e inconsistente.Percio, anche se n e grande, non sara vicino a β1.
Cio fa sorgere una domanda piu profonda: come definiamo β1? Ovvero,che cosa vogliamo stimare, precisamente, quando eseguiamo unaregressione?
Rossi Regressione lineare Econometria - 2014 11 / 31
La distorsione da variabili omesse
Che cosa vogliamo stimare quando eseguiamo unaregressione?
Esistono (almeno) tre possibili risposte a questa domanda:
Vogliamo stimare la pendenza di una retta attraverso undiagramma a nuvola come semplice riepilogo dei dati a cui non associamoun significato sostanziale. Questo puo essere utile talvolta, ma non emolto interessante a livello intellettuale e non rientra nell’obiettivo diquesto corso.
Vogliamo effettuare previsioni del valore di Y per una unita che nonappartiene all’insieme dei dati, per cui conosciamo il valore di X.Realizzare previsioni e importante per gli economisti, ed e possibileottenere previsioni eccellenti utilizzando i metodi di regressione senza lanecessita di conoscere gli effetti causali. Torneremo a questo tema piuavanti nel corso.
Rossi Regressione lineare Econometria - 2014 12 / 31
La distorsione da variabili omesse
Che cosa vogliamo stimare quando eseguiamo unaregressione?
Vogliamo stimare l’effetto causale su Y di una variazione in X. Sisupponga che il consiglio scolastico decida una riduzione di 2 studenti perclasse. Quale sarebbe l’effetto sui punteggi nei test? Questa e unadomanda causale (qual e l’effetto causale sui punteggi nei test di STR?)percio dobbiamo stimare questo effetto causale. A parte la discussionedell’attivita di previsione, lo scopo di questo corso e la stima di effetticausali mediante metodi di regressione.
Rossi Regressione lineare Econometria - 2014 13 / 31
Causalita
Che cos’e un effetto causale?
La causalita e un concetto complesso!
In questo corso adottiamo un approccio pratico alla definizione dicausalita:
Un effetto causale e definito come un effetto misurato in un esperimentocontrollato casualizzato ideale.
Rossi Regressione lineare Econometria - 2014 14 / 31
Causalita
Esperimento controllato causalizzato ideale
Ideale: i soggetti seguono tutti il protocollo di trattamento - perfettacompliance, nessun errore nei report, ecc.!
Casualizzato: i soggetti della popolazione di interesse sono assegnaticasualmente a un gruppo di trattamento o di controllo (cosı non ci sonofattori di confusione)
Controllato: la disponibilita di un gruppo di controllo permette dimisurare l’effetto differenziale del trattamento
Esperimento: il trattamento e assegnato nell’esperimento: i soggetti nonhanno scelta, percio non vi e causalita inversa in cui i soggetti scelgono iltrattamento che ritengono migliore.
Rossi Regressione lineare Econometria - 2014 15 / 31
Causalita
Esperimento controllato casualizzato ideale
Si immagini un esperimento controllato casualizzato ideale per misurarel’effetto sui punteggi nei test della riduzione di STR...
In tale esperimento gli studenti sarebbero assegnati casualmente alleclassi, che avrebbero dimensioni diverse.
Poiche gli studenti sono assegnati casualmente, tutte le loro caratteristiche(e quindi gli ui) sarebbero distribuiti in modo indipendente da STRi.
Quindi, E[ui|STRi] = 0 - cioe la prima assunzione dei minimi quadrativale in un esperimento controllato casualizzato.
Rossi Regressione lineare Econometria - 2014 16 / 31
Causalita
Dati osservazionali
Il trattamento non e assegnato in modo casuale
Si consideri PctEL - la percentuale di studenti non di madrelingua - neldistretto. Verosimilmente soddisfa i due criteri per la distorsione davariabili omesse: Z = PctEL e:
una determinante di Y; ecorrelata con il regressore X.
Quindi i gruppi di controllo e di trattamento differiscono in modosistematico, percio Corr(STR,PctEL) 6= 0
Rossi Regressione lineare Econometria - 2014 17 / 31
Causalita
Dati osservazionali
Casualizzazione + gruppo di controllo significa che qualsiasi differenza trai gruppi di trattamento e di controllo e casuale – non sistematicamentecorrelata al trattamento
Possiamo eliminare la differenza di PctEL tra il gruppo di classi grandi (dicontrollo) e quello di classi piccole (di trattamento) esaminando l’effettodella dimensione delle classi tra i distretti con lo stesso valore di PctEL.
Se soltanto la differenza sistematica tra i gruppi di classi grandi e piccole ein PctEL, allora torniamo all’esperimento controllato casualizzato –all’interno di ciascun gruppo di PctEL.Questo e un modo per “controllare” per l’effetto di PctEL quando si stimal’effetto di STR.
Rossi Regressione lineare Econometria - 2014 18 / 31
Causalita
Ancora sulla distorsione da variabili omesse
Tre modi per superare la distorsione da variabili omesse
Eseguire un esperimento controllato casualizzato in cui il trattamento(STR) sia assegnato casualmente: allora PctEL e ancora unadeterminante di TestScore, ma PctEL e incorrelato con STR. (Questasoluzione e raramente praticabile).
Adottare l’approccio a tabulazione incrociata, con gradazioni piu fini diSTR e PctEL - all’interno di ogni gruppo, tutte le classi hanno lo stessoPctEL, percio controlliamo per PctEL (ma presto si esauriranno i dati eche dire di altre variabili determinanti come il reddito famigliare e illivello di istruzione dei genitori?)
Usare una regressione in cui la variabile omessa (PctEL) non e piu omessa:includere PctEL come regressore aggiuntivo in una regressione multipla.
Rossi Regressione lineare Econometria - 2014 19 / 31
Causalita
Il modello di regressione multipla
Si consideri il caso di due regressori:
Yi = β0 + β1X1i + β2X2i + ui, i = 1, 2, . . . , n
Y e la variabile dipendente
X1, X2 sono le due variabili indipendenti (regressori)
β0 = intercetta della popolazione ignota
β1 = effetto su Y di una variazione in X1, tenendo X2 costante
β2 = effetto su Y di una variazione in X2, tenendo X1 costante
ui = errore di regressione (fattori omessi)
Rossi Regressione lineare Econometria - 2014 20 / 31
Causalita
Interpretazione dei coefficienti nella regressione multipla
Si consideri di variare X1, ∆X1 tenendo X2 costante:
Retta di regressione della popolazione prima della variazione:
Y = β0 + β1X1 + β2X2
Retta di regressione della popolazione dopo la variazione:
Y∆Y = β0 + β1(X1 + ∆X1) + β2X2
Differenza:∆Y = β1∆X1
Quindi:
β1 =∆Y
∆X1
tenendo X2 costante
β2 =∆Y
∆X2
tenendo X1 costante
β0 = valore predetto di Y quando X1 = X2 = 0.
Rossi Regressione lineare Econometria - 2014 21 / 31
Causalita
Lo stimatore OLS della regressione multipla
Con due regressori, lo stimatore OLS risolve:
β0, β1, β2 = arg minβ0,β1,β2
n∑i=1
[Yi − (β0 + β1X1i + β2X2i)
2]
Lo stimatore OLS minimizza la differenza quadratica media tra i valoriattuali di Yi e il valore predetto in base alla retta stimata, Yi.
Rossi Regressione lineare Econometria - 2014 22 / 31
Causalita
Esempio
Regressione di TestScore su STR:
TestScr = 698, 933(9,468)
− 2, 280(0,480)
STR
T = 420 R2 = 0, 0490 SER = 18, 581
(1)
Ora includiamo la percentuale di studenti non di madrelingua neldistretto ( PctEL):
testscr = 686, 032(7,411)
− 1, 10(0,380)
STR− 0, 65(0,039)
PctEL
T = 420 R2 = 0, 424 SER = 14, 464
(2)
Che cosa accade al coefficiente di STR?
Rossi Regressione lineare Econometria - 2014 23 / 31
Misure di Goodness-of-Fit
Misure di bonta dell’adattamento nella regressionemultipla
Reale = predetto + residuale: Yi = Yi + ui
SER = deviazione standard di ui (con correzione per gradi di liberta)
RMSE = deviazione standard di ui (senza correzione per gradi di liberta)
R2 = frazione della varianza di Y spiegata da X
R2 corretto (R2)= R2 con una correzione per gradi di liberta che correggeper l’incertezza della stima; R2 < R2
Rossi Regressione lineare Econometria - 2014 24 / 31
Misure di Goodness-of-Fit
SER e RMSE
Come nella regressione con un unico regressore, SER e RMSE sono misuredella dispersione delle Y attorno alla retta di regressione:
SER =
√√√√ 1
n− k − 1
n∑i=1
ui
RMSE =
√√√√ 1
n
n∑i=1
ui
Rossi Regressione lineare Econometria - 2014 25 / 31
Misure di Goodness-of-Fit
R2 e R2
L’R2 e la frazione della varianza spiegata - stessa definizione dellaregressione con singolo regressore:
R2 =ESS
TSS= 1− RSS
TSS
dove
ESS =n∑i=1
(Yi − ¯Y )
SSR =
n∑i=1
(Yi − Yi)
TSS =
n∑i=1
(Yi − Y )
L’R2 aumenta sempre quando si aggiunge un altro regressore (perche?) -un problema per una misura di adattamento.
Rossi Regressione lineare Econometria - 2014 26 / 31
Misure di Goodness-of-Fit
R2 e R2
L’R2 corregge questo problema penalizzando l’inserimento di un altroregressore - l’R2 non aumenta necessariamente quando si aggiunge unaltro regressore.
R2 = 1−(
n− 1
n− k − 1
)SSR
TSS
Si noti che R2 < R2, tuttavia se n e grande i due saranno molto vicini.
Rossi Regressione lineare Econometria - 2014 27 / 31
Misure di Goodness-of-Fit
Misure di bonta dell’adattamento
testscr = 686, 032(7,411)
− 1, 10(0,380)
STR− 0, 65(0,039)
PctEL
T = 420 R2 = 0, 426 R2 = 0, 424 SER = 14, 464
(3)
perche l’R2 e l’R2 sono cosı vicini?
Rossi Regressione lineare Econometria - 2014 28 / 31
Misure di Goodness-of-Fit
Le assunzioni degli OLS per il MRLM
Yi = β0 + β1X1i + . . .+ βkXki + ui i = 1, . . . , n
A.1 E[ui|X1i = x1, . . . , Xki = xk] = 0.
A.2 (X1i, . . . , Xki, Yi) sono i.i.d.
A.3 Gli outlier sono improbabili: (X1i, . . . , Xki, Yi) hanno momenti quartifiniti, E[X1i] <∞, . . . , E[Xki] <∞, E[Yi] <∞.
A.4 Non vi e collinearita perfetta.
Rossi Regressione lineare Econometria - 2014 29 / 31
Misure di Goodness-of-Fit
Assunzione 1
Assunzione 1:E[ui|X1i = x1, . . . , Xki = xk] = 0
Ha la stessa interpretazione del caso della regressione con un singoloregressore.
La non validita di questa condizione porta a distorsione da variabiliomesse; nello specifico, se una variabile omessa appartiene all’equazione(cioe e in u) e
1 e correlata con una X inclusa2 allora questa condizione non vale e vi e distorsione da variabili omesse.
La soluzione migliore, se possibile, e quella di includere la variabileomessa nella regressione.
Una seconda soluzione, correlata alla precedente, e quella di includere unavariabile che controlli per la variabile omessa (cfr. Capitolo 7).
Rossi Regressione lineare Econometria - 2014 30 / 31
Misure di Goodness-of-Fit
Assunzioni 2, 3 e 4
Assunzione 2:(X1i, . . . , Xki, Yi)
sono i.i.d. E soddisfatta automaticamente se i dati sono raccolti mediantecampionamento casuale semplice.
Assunzione 3: gli outlier sono rari (momenti quarti finiti)
E la stessa assunzione descritta per il caso di un regressore singolo. Comein quel caso, l’OLS puo essere sensibile agli outlier, percio occorrecontrollare i dati (diagrammi a nuvola!) per assicurarsi che non vi sianovalori impazziti (refusi o errori di codifica).
Assunzione 4: Non vi e collinearita perfetta. La collinearita perfetta si haquando uno dei regressori e funzione lineare esatta degli altri.
Rossi Regressione lineare Econometria - 2014 31 / 31