minimi quadrati ordinari interpretazione...

Post on 20-Feb-2019

220 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Minimi quadrati ordinariInterpretazione geometrica

Eduardo Rossi

Il MRLM

Il modello di regressione lineare multipla e usato per studiare le

relazioni tra la variabile dipendente e diverse variabili indipendenti

(esplicative).

yt = β1xt1 + . . . + βKxtK + ǫt t = 1, 2, . . . , N (1)

β1, . . . βK parametri fissi ma ignoti, ǫt ignoto, yt regredendo,

v.casuale, xkt regressore, covariata casuale. In genere, uno dei

regressori e fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con

β1 intercetta (o costante) dell’equazione.

Eduardo Rossi c© - Econometria 08 2

Il metodo dei minimi quadrati

I caratteri variano simultaneamente tra gli individui. Il metodo dei

minimi quadrati ordinari e un modo per scomporre le differenze

nella variabile dipendente fra diverse caratteristiche osservate

(variabili esplicative) per le diverse unita nel campione.

Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least

Squares, OLS) e usato per stimare il valore di βk, k = 1, . . . , K.

Questi sono scelti in modo tale che siano la soluzione al seguente

problema:

minβ1,...,βK

N∑

t=1

[yt − (β1xt1 + β2xt2 + . . . + βKxtK)]2

Il termine “minimi quadrati” si riferisce alla minimizzazione della

somma delle differenze al quadrato. [yt − (β1xt1 + . . . + βKxtK)], gli

scarti.

Eduardo Rossi c© - Econometria 08 3

La somma dei quadrati

La funzione obiettivo

f(β1, . . . , βK) =N∑

t=1

[yt − (β1xt1 + β2xt2 + . . . + βKxKt)]2 (2)

e la sum of squared residuals (somma dei quadrati dei residui).

Quando i residui sono valutati in β1, . . . , βK i residui sono detti fitted

residuals (residui fittati, o residui della regressione).

Consideriamo il caso in cui l’unica variabile esplicativa e la costante:

K = 1 e x1t = 1, ∀t. OLS trova il valore di β1 che e il piu vicino a yt

nel senso della somma dei qudrati dei residui. OLS e la

minimizzazione di una funzione quadratica in β1 e il risultato e la

media:

β1 = arg minN∑

t=1

(yt − β1)2 =

∑N

t=1 yt

N

Eduardo Rossi c© - Econometria 08 4

Notazione

β = [β1, β2, . . . , βK ]′ (K × 1) xt =

xt1

...

xtK

(K × 1) (3)

Notazione matriciale

y =

y1

...

yN

(N × 1)

X =

x′1

...

x′N

=

x11 x12 . . . x1K

x21 x22 . . . x2K

......

...

xN1 xN2 . . . xNK

(N × K)

Eduardo Rossi c© - Econometria 08 5

Notazione

x′1β

...

x′Nβ

= Xβ

Il vettore y raccoglie tutte le osservazioni della variabile dipendente.

La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni

colonna di X contiene tutte le osservazioni per la singola variabile

esplicativa.

Eduardo Rossi c© - Econometria 08 6

Lo stimatore dei minimi quadrati (OLS)

Stimatore = E’ una regola per calcolare una stima (un numero) dai

dati campionari.

Il metodo dei minimi quadrati risolve il problema

β ≡ arg minβ

(y − Xβ)′(y − Xβ)

Definiamo

S(β) ≡ (y − Xβ)′(y − Xβ)

Eduardo Rossi c© - Econometria 08 7

Lo stimatore dei minimi quadrati (OLS)

∂S(β)

∂β=

∂(y′y − 2β′X′y + β′X′Xβ

)

∂β

=∂

(−2β′X′y + β′X′Xβ

)

∂β

= −2∂β′

∂βX′y +

∂(β′X′Xβ

)

∂β

= −2X′y + 2X′Xβ

Eduardo Rossi c© - Econometria 08 8

Lo stimatore dei minimi quadrati (OLS)

∂S(β)

∂β= −2X′y + 2X′Xβ = 0 (4)

Le equazioni normali

X′y − X′Xβ = 0 (5)

Lo stimatore OLS e

β = (X′X)−1

X′y (6)

Poiche la funzione stimata e lineare nei coefficienti, gli OLS ci danno

dei coefficienti stimati che sono somme ponderate delle {yt}. Le

stime OLS sono funzioni lineari della variabile dipendente. Questa

linearita in {yt} semplifica l’analisi statistica degli OLS.

Eduardo Rossi c© - Econometria 08 9

L’interpretazione geometrica degli OLS

Lo spazio delle colonne di X, Col(X), e il sottospazio lineare di RN

coperto dalle combinazioni lineari dei vettori colonna di X:

Col(X) ≡ {z ∈ RN |z = Xα, α ∈ R

k}

La procedura di stima OLS trova il vettore in Col(X), µ, che e piu

vicino a y.

µ e detta proiezione di y sul Col(X).

Eduardo Rossi c© - Econometria 08 10

L’interpretazione geometrica degli OLS

Il metodo OLS risolve:

β ≡ arg minβ

(y − Xβ)′(y − Xβ) (7)

La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ e

il quadrato della distanza Euclidea fra y e Xβ:

(y − Xβ)′(y − Xβ) =N∑

t=1

(yt − x′tβ)2 =‖ y − Xβ ‖2

Eduardo Rossi c© - Econometria 08 11

L’interpretazione geometrica degli OLS

Procedura in due passi:

1. Trovare il punto in un sottospazio che e il piu vicino ad un punto

che non si trova il quel sottospazio. Il sottospazio e l’insieme dei

possibili vettori reali N dimensionali Xβ che puo essere creato

cambiando β e questo sottospazio e lo spazio delle colonne di X.

µ ≡ arg minµ∈Col(X)

‖ y − µ ‖2

2. Trovare un β che sia soluzione a:

µ = Xβ

Eduardo Rossi c© - Econometria 08 12

L’interpretazione geometrica degli OLS

Eduardo Rossi c© - Econometria 08 13

L’interpretazione geometrica degli OLS

La soluzione al primo passo e unica mentre ci possono essere molte

soluzione al secondo problema. Sia β una soluzione di (7) e sia

µ = Xβ.

1. Il vettore dei valori fittati µ e l’unica proiezione ortogonale di y

su Col(X).

2. Il vettore dei residui fittati y − µ e ortogonale a Col(X)

3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:

β = (X′X)−1X′y = (X′X)−1X′µ′

Eduardo Rossi c© - Econometria 08 14

L’interpretazione geometrica degli OLS

Tre idee base:

1. La regressione OLS significa minimizzare la distanza al quadrato

tra il vettore osservato y e un vettore di regressione Xβ che

appartiene a Col(X).

2. Il vettore dei valori fittati µ = Xβ e la proiezione ortogonale su

Col(X). Il vettore dei residui (y − µ) e perpendicolare a µ e ad

ogni altro vettore in Col(X).

3. Se the dim[Col(X)] = K allora β e unico.

Eduardo Rossi c© - Econometria 08 15

Esempio

Due osservazioni ed una sola varibile esplicativa (N = 1, K = 1)

X =

1

1

≡ ι

Col(X) = {z ∈ R2|z1 = z2}, e β = y

β = y = arg minβ

[(y1 − β)2 + (y2 − β)2

]

µ = Xβ = ιy

Eduardo Rossi c© - Econometria 08 16

Esempio

Eduardo Rossi c© - Econometria 08 17

Esempio

Tre osservazioni e due variabili esplicative(N = 3, K = 2)

X =

1 x12

1 x22

1 x32

≡ ι

Col(X) e un piano che contiene tre punti:

0

0

0

, X1 =

1

1

1

, X2 =

x12

x22

x32

Il vettore dei coefficienti stimati β e l’unica combinazione lineare di ι

e X2 che eguaglia µ.

µ1 = X1β1 µ2 = X2β2 µ = µ1 + µ2

Eduardo Rossi c© - Econometria 08 18

Esempio

Eduardo Rossi c© - Econometria 08 19

Esempio

Eduardo Rossi c© - Econometria 08 20

µ come proiezione ortogonale

La dipendenza lineare fra le variabile esplicative non ha un ruolo

fondamentale su quanto bene una regressione lineare spiega y. La

distanza dipende solo da µ.

Mostriamo che

µ = Xβ = X(X′X)−1X′y

quando le colonne di X sono linearmente indipendenti. Per due

vettori µ e µ:

||y − µ||2 = ||y − µ + µ − µ||2

= ||y − µ||2 + ||µ − µ||2 + 2(y − µ)′(µ − µ)

ma

(y − µ)⊥(µ − µ) ⇔ (y − µ)′(µ − µ) = 0

Eduardo Rossi c© - Econometria 08 21

µ come proiezione ortogonale

Teorema di Pitagora: Se z1, z2 ∈ RN e z1⊥z2 allora

‖z1 + z2‖2 = ‖z1‖

2 + ‖z2‖2.

in questo caso:

||y − µ||2 = ||y − µ||2 + ||µ − µ||2.

Se c’e un µ ∈ Col(X) tale che

X′(y − µ) = 0

allora per tutti gli altri µ ∈ Col(x)

µ′(y − µ) = 0

(µ − µ)′(y − µ) = 0

||y − µ||2 = ||y − µ||2 + ||µ − µ||2

≥ ||y − µ||2

Eduardo Rossi c© - Econometria 08 22

µ come proiezione ortogonale

Poiche y − µ e ortogonale a Col(X), µ e vicino a y almeno quanto

un qualunque µ in Col(X)

Quindi µ e una soluzione al problema della distanza minima dei OLS

µ = arg minµ∈Col(X)

||y − µ||2

Ma µ e la soluzione unica!

La soluzione e unica perche per ogni altra possibile soluzione µ deve

essere che

||y − µ||2 = ||y − µ||2

poiche nessun altro µ e piu vicino a µ.

Eduardo Rossi c© - Econometria 08 23

µ come proiezione ortogonale

Infatti, il teorema di Pitagora implica che

||y − µ||2 = ||(y − µ) + (µ − µ)||2 = ||y − µ||2 + ||µ − µ||2.

perche (y − µ) ⊥ (µ − µ) quindi

||µ − µ||2 = 0 ⇒ µ = µ

La condizione di ortogonalita caratterizza completamente il vettore

OLS dei valori fittati µ.

Costruiamo µ per una caso particolare e mostriamo che una

soluzione unica esiste.

Le equazioni normali stabiliscono che

X′(y − Xβ) = 0

Eduardo Rossi c© - Econometria 08 24

µ come proiezione ortogonale

risolvendo per

X′(y − Xβ) = 0

X′Xβ − X′y = 0

β = (X′X)−1X′y

dato che X′X e nonsingolare.

Eduardo Rossi c© - Econometria 08 25

µ come proiezione ortogonale

La soluzione per µ segue

µ = Xβ = X(X′X)−1X′y

β e µ hanno una relazione 1-a-1. Possiamo anche ottenere β da µ:

premoltiplicando per (X′X)−1X′

(X′X)−1X′µ = (X′X)−1X′Xβ = β

Eduardo Rossi c© - Econometria 08 26

Proiezione

Teorema Proiezione

Sia y ∈ RN e S ⊆ R

N un sottospazio lineare. Allora µ ∈ S e una

soluzione al problema

minµ∈S

||y − µ||2

se e solo se (y − µ)⊥S. Inoltre, µ esiste ed e unico.

Eduardo Rossi c© - Econometria 08 27

Proiezione

Il teorema identifica il meccanismo di minimizzazione che significa

trovare un µ ∈ Col(X) tale che

y − µ ⊥ Col(X)

Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.

Eduardo Rossi c© - Econometria 08 28

Proiettori ortogonali

Per ogni y, c’e un’unica µ,

µ = arg minµ∈S

||y − µ||2

chiamata proiezione di y. La proiezione ortogonale di y e sempre una

trasformazione lineare di y:

µ = Py

P proiettore ortogonale.

Nel caso generale che S = Col(X) e X sia di rango-colonna pieno, la

matrice

PX ≡ X(X′X)−1X′

µ = PXy

e la trasformazione lineare di y su Col(X) che produce µ.

Eduardo Rossi c© - Econometria 08 29

Proiettori ortogonali

PX ha due proprieta:

• non modifica i vettori in Col(X)

z ∈ Col(X) ⇒ PXz = z

• trasforma i vettori ortogonali a Col(X) nel vettore zero.

z ⊥ Col(X) ⇒ PXz = 0

Eduardo Rossi c© - Econometria 08 30

Proiettori ortogonali

Prova

∀z ∈ Col(X) esiste un α : z = Xα

PXz = PXXα = X(X′X)−1X′Xα = Xα = z

Se z⊥Col(X) : z′X = 0, ∀X ∈ Col(X) cosicche X′z = 0 e

PXz = X(X′X)−1X′z = 0

Eduardo Rossi c© - Econometria 08 31

Scomposizione ortogonale

∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma

z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥(X) ≡ {z ∈ RN |X′z = 0}.

Dove Col⊥(X) e il complemento ortogonale.

Complemento ortogonale

Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:

S⊥ = {v ∈ V|u′v = 0, ∀u ∈ S}

e chiamato complemento ortogonale di S. E’ equivalente a scrivere

v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′v = 0 tale che

v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}

Eduardo Rossi c© - Econometria 08 32

Proiezione ortogonale

Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’e un

unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2.

Allora la funzione da RN a S

⊥ che associa ogni z con il suo

corrispondente z1 e una proiezione ortogonale.

Quando S = Col(X) allora PXz = z1 e la proiezione ortogonale di z

su Col(X). Solo la componente di z in Col(X) sopravvive alla

premoltiplicazione per PX .

La proiezione ortogonale da RN su un sottospazio S e una

trasformazione lineare. (La proiezione ortogonale di una

combinazione lineare di vettori uguaglia la combinazione lineare delle

proiezioni ortogonali dei singoli vettori).

Eduardo Rossi c© - Econometria 08 33

Proiettore ortogonale

Ogni proiezione ortogonale da RN in un sottospazio S puo essere

rappresentata da una matrice P, chiamata proiettore ortogonale.

Sia S ⊆ RN , ∀z ∈ RN c’e un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale

che z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 e

un proiettore ortogonale su S.

Un proiettore ortogonale preserva la componente di un vettore in un

sottospazio S e annulla la componente nel sottospazio complementare

ortogonale S⊥.

Se P e un proiettore ortogonale su un sottospazio di RN , allora P e

unica.

Eduardo Rossi c© - Econometria 08 34

Proprieta dei Proiettori ortogonali

1. Simmetria

PX = X(X′X)X′ = [X(X′X)X′]′ = P′X

2. Idempotenza

PXPX = [X(X′X)X′][X(X′X)X′] = X(X′X)X′ = PX

3. Semidefinitezza positiva

Per ogni w ∈ RN

w′PXw = w′PXPXw = w′P′XPXw = (PXw)′(PXw) = ||PXw||2 ≥ 0

Eduardo Rossi c© - Econometria 08 35

Proprieta dei Proiettori ortogonali

Osserviamo che

z ∈ Col⊥(X) ⇒ (I− PX)z = z

z ∈ Col(X) ⇒ (I− PX)z = 0

cioe MX = (I− PX) e un proiettore ortogonale su Col⊥(X), il

complemento ortogonale di Col(X).

Eduardo Rossi c© - Econometria 08 36

Multicollinearita esatta

Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X

sono linearmente indipendenti. Questa situazione e detta

multicollinearita esatta.

Un unico µ esiste anche quando X e di rango ridotto. Quando X e

(X′X) sono singolari non possiamo usare PX = X(X′X)−1X′ per

trovare PX .

Quando dim[Col(X)] < K, possiamo trovare PX applicando la

formula ad ogni sottoinsieme linearmente indipendente delle colonne

di X cioe una base per Col(X).

Eduardo Rossi c© - Econometria 08 37

Multicollinearita esatta

Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una

matrice composta da un sottoinsieme linearmente di colonne di X

tale che

Col(X1) = Col(X)

allora

PX = X1(X′1X1)

−1X′1

Eduardo Rossi c© - Econometria 08 38

top related