regressione lineare multipla -...

Regressione lineare multipla

Eduardo Rossi2

2Universita di Pavia (Italy)

Aprile 2014

Rossi Regressione lineare Econometria - 2014 1 / 31

Outline

1 La distorsione da variabili omesse

2 Causalita

3 Misure di Goodness-of-Fit


Struttura

Distorsione da variabili omesse

Causalita e analisi di regressione

Regressione multipla e OLS

Misure di adattamento

Distribuzione campionaria dello stimatore OLS


La distorsione da variabili omesse


L’errore u si verifica a causa di fattori, o variabili, che influenzano Y manon sono inclusi nella funzione di regressione. Ci sono sempre variabiliomesse.

Talvolta l’omissione di queste variabili puo portare a una distorsione dellostimatore OLS.




La distorsione dello stimatore OLS che si verifica a seguito di un fattore,o variabile, omesso e detta distorsione da variabile omessa. Affinchesi verifichi tale distorsione, la variabile omessa Z deve soddisfare duecondizioni:

Le due condizioni per la distorsione da variabile omessa

Z e una variable determinante di Y (cioe Z e parte di u); e

Z e correlata con il regressore X (cioe, Corr(Z,X) > 0).

Entrambe le condizioni devono verificarsi affinche l’omissione di Z porti adistorsione da variabile omessa.




Nell’esempio dei punteggi nei test:

Il livello di conoscenza della lingua inglese (se lo studente e dimadrelingua o meno) verosimilmente influisce sui punteggi nei teststandardizzati: Z e una determinante di Y.

Le comunita di immigrati tendono a una minore affluenza e quindi hannobudget scolastici inferiori e STR maggiori: Z e correlata con X.

Di conseguenza, e distorto. In quale direzione?

Che cosa suggerisce il buon senso?Se il buon senso vi fa difetto, c’e una formula...




Formula per la distorsione da variabili omesse: si ricordi l’equazione

β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

=1n

∑i vi(

n−1n

)s2X

Dove vi = (Xi − X)ui ≈ (Xi − µX)ui.

Sotto la prima assunzione dei minimi quadrati,

E[(Xi − µX)ui] = Cov(Xi, ui) = 0

Ma seE[(Xi − µX)ui] = Cov(Xi, ui) = σXu 6= 0

cosa succede?




β1 − β1 =

∑i(Xi − X)ui∑i(Xi − X)2

=1n

∑i vi(

n−1n

)s2X

p→ σXuσ2X

doveσXuσ2X

=σuσX× σXuσuσX

=σuσX× ρXu

Se vale la prima assunzione, allora ρXu = 0, ma se non vale abbiamo... .



Formula della distorsione da variabili omesse

β1p→ β1 +

σuσX

ρXu

Se una variabile omessa Z e contemporaneamente:1 una determinante di Y (cioe se e contenuta in u); e2 correlata con X,

allora ρXu 6= 0 e lo stimatore OLS β1 e distorto e inconsistente.

Per esempio, i distretti scolastici con pochi studenti non di madrelingua1 ottengono punteggi migliori nei test standardizzati e2 hanno classi piu piccole (budget piu elevati), percio ignorando l’effetto di

avere molti studenti non di madrelingua si arriverebbe a sovrastimarel’effetto della dimensione delle classi.



Distorsione da variabili omesse

I distretti con meno studenti non di madrelingua ottengono miglioripunteggi nei testi.I distrettti con una minore percentuale di studenti non di madrelinguahanno classi piu piccole.Tra i distretti con percentuali di studenti non di madrelingua comparabili,l’effetto della dimensione delle classi e piccolo (si ricordi checomplessivamente la differenza di punteggio nei test = 7.4).



Causalita e analisi di regressione

L’esempio dei punteggi nei test (STR) e percentuale di studenti non dimadrelingua mostra che, se una variabile omessa soddisfa le duecondizioni della distorsione da variabili omesse, allora lo stimatore OLSnella regressione che omette tale variabile e distorto e inconsistente.Percio, anche se n e grande, non sara vicino a β1.

Cio fa sorgere una domanda piu profonda: come definiamo β1? Ovvero,che cosa vogliamo stimare, precisamente, quando eseguiamo unaregressione?



Che cosa vogliamo stimare quando eseguiamo unaregressione?

Esistono (almeno) tre possibili risposte a questa domanda:

Vogliamo stimare la pendenza di una retta attraverso undiagramma a nuvola come semplice riepilogo dei dati a cui non associamoun significato sostanziale. Questo puo essere utile talvolta, ma non emolto interessante a livello intellettuale e non rientra nell’obiettivo diquesto corso.

Vogliamo effettuare previsioni del valore di Y per una unita che nonappartiene all’insieme dei dati, per cui conosciamo il valore di X.Realizzare previsioni e importante per gli economisti, ed e possibileottenere previsioni eccellenti utilizzando i metodi di regressione senza lanecessita di conoscere gli effetti causali. Torneremo a questo tema piuavanti nel corso.



Che cosa vogliamo stimare quando eseguiamo unaregressione?

Vogliamo stimare l’effetto causale su Y di una variazione in X. Sisupponga che il consiglio scolastico decida una riduzione di 2 studenti perclasse. Quale sarebbe l’effetto sui punteggi nei test? Questa e unadomanda causale (qual e l’effetto causale sui punteggi nei test di STR?)percio dobbiamo stimare questo effetto causale. A parte la discussionedell’attivita di previsione, lo scopo di questo corso e la stima di effetticausali mediante metodi di regressione.


Causalita

Che cos’e un effetto causale?

La causalita e un concetto complesso!

In questo corso adottiamo un approccio pratico alla definizione dicausalita:

Un effetto causale e definito come un effetto misurato in un esperimentocontrollato casualizzato ideale.


Causalita

Esperimento controllato causalizzato ideale

Ideale: i soggetti seguono tutti il protocollo di trattamento - perfettacompliance, nessun errore nei report, ecc.!

Casualizzato: i soggetti della popolazione di interesse sono assegnaticasualmente a un gruppo di trattamento o di controllo (cosı non ci sonofattori di confusione)

Controllato: la disponibilita di un gruppo di controllo permette dimisurare l’effetto differenziale del trattamento

Esperimento: il trattamento e assegnato nell’esperimento: i soggetti nonhanno scelta, percio non vi e causalita inversa in cui i soggetti scelgono iltrattamento che ritengono migliore.


Causalita

Esperimento controllato casualizzato ideale

Si immagini un esperimento controllato casualizzato ideale per misurarel’effetto sui punteggi nei test della riduzione di STR...

In tale esperimento gli studenti sarebbero assegnati casualmente alleclassi, che avrebbero dimensioni diverse.

Poiche gli studenti sono assegnati casualmente, tutte le loro caratteristiche(e quindi gli ui) sarebbero distribuiti in modo indipendente da STRi.

Quindi, E[ui|STRi] = 0 - cioe la prima assunzione dei minimi quadrativale in un esperimento controllato casualizzato.


Causalita

Dati osservazionali

Il trattamento non e assegnato in modo casuale

Si consideri PctEL - la percentuale di studenti non di madrelingua - neldistretto. Verosimilmente soddisfa i due criteri per la distorsione davariabili omesse: Z = PctEL e:

una determinante di Y; ecorrelata con il regressore X.

Quindi i gruppi di controllo e di trattamento differiscono in modosistematico, percio Corr(STR,PctEL) 6= 0


Causalita

Dati osservazionali

Casualizzazione + gruppo di controllo significa che qualsiasi differenza trai gruppi di trattamento e di controllo e casuale – non sistematicamentecorrelata al trattamento

Possiamo eliminare la differenza di PctEL tra il gruppo di classi grandi (dicontrollo) e quello di classi piccole (di trattamento) esaminando l’effettodella dimensione delle classi tra i distretti con lo stesso valore di PctEL.

Se soltanto la differenza sistematica tra i gruppi di classi grandi e piccole ein PctEL, allora torniamo all’esperimento controllato casualizzato –all’interno di ciascun gruppo di PctEL.Questo e un modo per “controllare” per l’effetto di PctEL quando si stimal’effetto di STR.


Causalita

Ancora sulla distorsione da variabili omesse

Tre modi per superare la distorsione da variabili omesse

Eseguire un esperimento controllato casualizzato in cui il trattamento(STR) sia assegnato casualmente: allora PctEL e ancora unadeterminante di TestScore, ma PctEL e incorrelato con STR. (Questasoluzione e raramente praticabile).

Adottare l’approccio a tabulazione incrociata, con gradazioni piu fini diSTR e PctEL - all’interno di ogni gruppo, tutte le classi hanno lo stessoPctEL, percio controlliamo per PctEL (ma presto si esauriranno i dati eche dire di altre variabili determinanti come il reddito famigliare e illivello di istruzione dei genitori?)

Usare una regressione in cui la variabile omessa (PctEL) non e piu omessa:includere PctEL come regressore aggiuntivo in una regressione multipla.


Causalita

Il modello di regressione multipla

Si consideri il caso di due regressori:

Yi = β0 + β1X1i + β2X2i + ui, i = 1, 2, . . . , n

Y e la variabile dipendente

X1, X2 sono le due variabili indipendenti (regressori)

β0 = intercetta della popolazione ignota

β1 = effetto su Y di una variazione in X1, tenendo X2 costante

β2 = effetto su Y di una variazione in X2, tenendo X1 costante

ui = errore di regressione (fattori omessi)


Causalita

Interpretazione dei coefficienti nella regressione multipla

Si consideri di variare X1, ∆X1 tenendo X2 costante:

Retta di regressione della popolazione prima della variazione:

Y = β0 + β1X1 + β2X2

Retta di regressione della popolazione dopo la variazione:

Y∆Y = β0 + β1(X1 + ∆X1) + β2X2

Differenza:∆Y = β1∆X1

Quindi:

β1 =∆Y

∆X1

tenendo X2 costante

β2 =∆Y

∆X2

tenendo X1 costante

β0 = valore predetto di Y quando X1 = X2 = 0.


Causalita

Lo stimatore OLS della regressione multipla

Con due regressori, lo stimatore OLS risolve:

β0, β1, β2 = arg minβ0,β1,β2

n∑i=1

[Yi − (β0 + β1X1i + β2X2i)

2]

Lo stimatore OLS minimizza la differenza quadratica media tra i valoriattuali di Yi e il valore predetto in base alla retta stimata, Yi.


Causalita

Esempio

Regressione di TestScore su STR:

TestScr = 698, 933(9,468)

− 2, 280(0,480)

STR

T = 420 R2 = 0, 0490 SER = 18, 581

(1)

Ora includiamo la percentuale di studenti non di madrelingua neldistretto ( PctEL):

testscr = 686, 032(7,411)

− 1, 10(0,380)

STR− 0, 65(0,039)

PctEL

T = 420 R2 = 0, 424 SER = 14, 464

(2)

Che cosa accade al coefficiente di STR?


Misure di Goodness-of-Fit

Misure di bonta dell’adattamento nella regressionemultipla

Reale = predetto + residuale: Yi = Yi + ui

SER = deviazione standard di ui (con correzione per gradi di liberta)

RMSE = deviazione standard di ui (senza correzione per gradi di liberta)

R2 = frazione della varianza di Y spiegata da X

R2 corretto (R2)= R2 con una correzione per gradi di liberta che correggeper l’incertezza della stima; R2 < R2



SER e RMSE

Come nella regressione con un unico regressore, SER e RMSE sono misuredella dispersione delle Y attorno alla retta di regressione:

SER =

√√√√ 1

n− k − 1

n∑i=1

ui

RMSE =

√√√√ 1

n

n∑i=1

ui



R2 e R2

L’R2 e la frazione della varianza spiegata - stessa definizione dellaregressione con singolo regressore:

R2 =ESS

TSS= 1− RSS

TSS

dove

ESS =n∑i=1

(Yi − ¯Y )

SSR =

n∑i=1

(Yi − Yi)

TSS =

n∑i=1

(Yi − Y )

L’R2 aumenta sempre quando si aggiunge un altro regressore (perche?) -un problema per una misura di adattamento.



R2 e R2

L’R2 corregge questo problema penalizzando l’inserimento di un altroregressore - l’R2 non aumenta necessariamente quando si aggiunge unaltro regressore.

R2 = 1−(

n− 1

n− k − 1

)SSR

TSS

Si noti che R2 < R2, tuttavia se n e grande i due saranno molto vicini.



Misure di bonta dell’adattamento

testscr = 686, 032(7,411)

− 1, 10(0,380)

STR− 0, 65(0,039)

PctEL

T = 420 R2 = 0, 426 R2 = 0, 424 SER = 14, 464

(3)

perche l’R2 e l’R2 sono cosı vicini?



Le assunzioni degli OLS per il MRLM

Yi = β0 + β1X1i + . . .+ βkXki + ui i = 1, . . . , n

A.1 E[ui|X1i = x1, . . . , Xki = xk] = 0.

A.2 (X1i, . . . , Xki, Yi) sono i.i.d.

A.3 Gli outlier sono improbabili: (X1i, . . . , Xki, Yi) hanno momenti quartifiniti, E[X1i] <∞, . . . , E[Xki] <∞, E[Yi] <∞.

A.4 Non vi e collinearita perfetta.



Assunzione 1

Assunzione 1:E[ui|X1i = x1, . . . , Xki = xk] = 0

Ha la stessa interpretazione del caso della regressione con un singoloregressore.

La non validita di questa condizione porta a distorsione da variabiliomesse; nello specifico, se una variabile omessa appartiene all’equazione(cioe e in u) e

1 e correlata con una X inclusa2 allora questa condizione non vale e vi e distorsione da variabili omesse.

La soluzione migliore, se possibile, e quella di includere la variabileomessa nella regressione.

Una seconda soluzione, correlata alla precedente, e quella di includere unavariabile che controlli per la variabile omessa (cfr. Capitolo 7).



Assunzioni 2, 3 e 4

Assunzione 2:(X1i, . . . , Xki, Yi)

sono i.i.d. E soddisfatta automaticamente se i dati sono raccolti mediantecampionamento casuale semplice.

Assunzione 3: gli outlier sono rari (momenti quarti finiti)

E la stessa assunzione descritta per il caso di un regressore singolo. Comein quel caso, l’OLS puo essere sensibile agli outlier, percio occorrecontrollare i dati (diagrammi a nuvola!) per assicurarsi che non vi sianovalori impazziti (refusi o errori di codifica).

Assunzione 4: Non vi e collinearita perfetta. La collinearita perfetta si haquando uno dei regressori e funzione lineare esatta degli altri.


regressione lineare multipla -...

Documents