minimi quadrati ordinari interpretazione...

Minimi quadrati ordinariInterpretazione geometrica

Eduardo Rossi

Il MRLM

Il modello di regressione lineare multipla e usato per studiare le

relazioni tra la variabile dipendente e diverse variabili indipendenti

(esplicative).

yt = β1xt1 + . . . + βKxtK + ǫt t = 1, 2, . . . , N (1)

β1, . . . βK parametri fissi ma ignoti, ǫt ignoto, yt regredendo,

v.casuale, xkt regressore, covariata casuale. In genere, uno dei

regressori e fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con

β1 intercetta (o costante) dell’equazione.

Eduardo Rossi c© - Econometria 08 2

Il metodo dei minimi quadrati

I caratteri variano simultaneamente tra gli individui. Il metodo dei

minimi quadrati ordinari e un modo per scomporre le differenze

nella variabile dipendente fra diverse caratteristiche osservate

(variabili esplicative) per le diverse unita nel campione.

Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least

Squares, OLS) e usato per stimare il valore di βk, k = 1, . . . , K.

Questi sono scelti in modo tale che siano la soluzione al seguente

problema:

minβ1,...,βK

N∑

t=1

[yt − (β1xt1 + β2xt2 + . . . + βKxtK)]2

Il termine “minimi quadrati” si riferisce alla minimizzazione della

somma delle differenze al quadrato. [yt − (β1xt1 + . . . + βKxtK)], gli

scarti.


La somma dei quadrati

La funzione obiettivo

f(β1, . . . , βK) =N∑

t=1

[yt − (β1xt1 + β2xt2 + . . . + βKxKt)]2 (2)

e la sum of squared residuals (somma dei quadrati dei residui).

Quando i residui sono valutati in β1, . . . , βK i residui sono detti fitted

residuals (residui fittati, o residui della regressione).

Consideriamo il caso in cui l’unica variabile esplicativa e la costante:

K = 1 e x1t = 1, ∀t. OLS trova il valore di β1 che e il piu vicino a yt

nel senso della somma dei qudrati dei residui. OLS e la

minimizzazione di una funzione quadratica in β1 e il risultato e la

media:

β1 = arg minN∑

t=1

(yt − β1)2 =

∑N

t=1 yt

N


Notazione

β = [β1, β2, . . . , βK ]′ (K × 1) xt =

xt1

...

xtK

(K × 1) (3)

Notazione matriciale

y =

y1

...

yN

(N × 1)

X =

x′1

...

x′N

=

x11 x12 . . . x1K

x21 x22 . . . x2K

......

...

xN1 xN2 . . . xNK

(N × K)


Notazione

x′1β

...

x′Nβ

= Xβ

Il vettore y raccoglie tutte le osservazioni della variabile dipendente.

La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni

colonna di X contiene tutte le osservazioni per la singola variabile

esplicativa.


Lo stimatore dei minimi quadrati (OLS)

Stimatore = E’ una regola per calcolare una stima (un numero) dai

dati campionari.

Il metodo dei minimi quadrati risolve il problema

β ≡ arg minβ

(y − Xβ)′(y − Xβ)

Definiamo

S(β) ≡ (y − Xβ)′(y − Xβ)



∂S(β)

∂β=

∂(y′y − 2β′X′y + β′X′Xβ

)

∂β

=∂

(−2β′X′y + β′X′Xβ

)

∂β

= −2∂β′

∂βX′y +

∂(β′X′Xβ

)

∂β

= −2X′y + 2X′Xβ



∂S(β)

∂β= −2X′y + 2X′Xβ = 0 (4)

Le equazioni normali

X′y − X′Xβ = 0 (5)

Lo stimatore OLS e

β = (X′X)−1

X′y (6)

Poiche la funzione stimata e lineare nei coefficienti, gli OLS ci danno

dei coefficienti stimati che sono somme ponderate delle {yt}. Le

stime OLS sono funzioni lineari della variabile dipendente. Questa

linearita in {yt} semplifica l’analisi statistica degli OLS.


L’interpretazione geometrica degli OLS

Lo spazio delle colonne di X, Col(X), e il sottospazio lineare di RN

coperto dalle combinazioni lineari dei vettori colonna di X:

Col(X) ≡ {z ∈ RN |z = Xα, α ∈ R

k}

La procedura di stima OLS trova il vettore in Col(X), µ, che e piu

vicino a y.

µ e detta proiezione di y sul Col(X).



Il metodo OLS risolve:

β ≡ arg minβ

(y − Xβ)′(y − Xβ) (7)

La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ e

il quadrato della distanza Euclidea fra y e Xβ:

(y − Xβ)′(y − Xβ) =N∑

t=1

(yt − x′tβ)2 =‖ y − Xβ ‖2



Procedura in due passi:

1. Trovare il punto in un sottospazio che e il piu vicino ad un punto

che non si trova il quel sottospazio. Il sottospazio e l’insieme dei

possibili vettori reali N dimensionali Xβ che puo essere creato

cambiando β e questo sottospazio e lo spazio delle colonne di X.

µ ≡ arg minµ∈Col(X)

‖ y − µ ‖2

2. Trovare un β che sia soluzione a:

µ = Xβ



La soluzione al primo passo e unica mentre ci possono essere molte

soluzione al secondo problema. Sia β una soluzione di (7) e sia

µ = Xβ.

1. Il vettore dei valori fittati µ e l’unica proiezione ortogonale di y

su Col(X).

2. Il vettore dei residui fittati y − µ e ortogonale a Col(X)

3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:

β = (X′X)−1X′y = (X′X)−1X′µ′



Tre idee base:

1. La regressione OLS significa minimizzare la distanza al quadrato

tra il vettore osservato y e un vettore di regressione Xβ che

appartiene a Col(X).

2. Il vettore dei valori fittati µ = Xβ e la proiezione ortogonale su

Col(X). Il vettore dei residui (y − µ) e perpendicolare a µ e ad

ogni altro vettore in Col(X).

3. Se the dim[Col(X)] = K allora β e unico.


Esempio

Due osservazioni ed una sola varibile esplicativa (N = 1, K = 1)

X =

1

1

≡ ι

Col(X) = {z ∈ R2|z1 = z2}, e β = y

β = y = arg minβ

[(y1 − β)2 + (y2 − β)2

]

µ = Xβ = ιy


Esempio


Esempio

Tre osservazioni e due variabili esplicative(N = 3, K = 2)

X =

1 x12

1 x22

1 x32

≡ ι

Col(X) e un piano che contiene tre punti:

0

0

0

, X1 =

1

1

1

, X2 =

x12

x22

x32

Il vettore dei coefficienti stimati β e l’unica combinazione lineare di ι

e X2 che eguaglia µ.

µ1 = X1β1 µ2 = X2β2 µ = µ1 + µ2


Esempio


µ come proiezione ortogonale

La dipendenza lineare fra le variabile esplicative non ha un ruolo

fondamentale su quanto bene una regressione lineare spiega y. La

distanza dipende solo da µ.

Mostriamo che

µ = Xβ = X(X′X)−1X′y

quando le colonne di X sono linearmente indipendenti. Per due

vettori µ e µ:

||y − µ||2 = ||y − µ + µ − µ||2

= ||y − µ||2 + ||µ − µ||2 + 2(y − µ)′(µ − µ)

ma

(y − µ)⊥(µ − µ) ⇔ (y − µ)′(µ − µ) = 0



Teorema di Pitagora: Se z1, z2 ∈ RN e z1⊥z2 allora

‖z1 + z2‖2 = ‖z1‖

2 + ‖z2‖2.

in questo caso:

||y − µ||2 = ||y − µ||2 + ||µ − µ||2.

Se c’e un µ ∈ Col(X) tale che

X′(y − µ) = 0

allora per tutti gli altri µ ∈ Col(x)

µ′(y − µ) = 0

(µ − µ)′(y − µ) = 0

||y − µ||2 = ||y − µ||2 + ||µ − µ||2

≥ ||y − µ||2



Poiche y − µ e ortogonale a Col(X), µ e vicino a y almeno quanto

un qualunque µ in Col(X)

Quindi µ e una soluzione al problema della distanza minima dei OLS

µ = arg minµ∈Col(X)

||y − µ||2

Ma µ e la soluzione unica!

La soluzione e unica perche per ogni altra possibile soluzione µ deve

essere che

||y − µ||2 = ||y − µ||2

poiche nessun altro µ e piu vicino a µ.



Infatti, il teorema di Pitagora implica che

||y − µ||2 = ||(y − µ) + (µ − µ)||2 = ||y − µ||2 + ||µ − µ||2.

perche (y − µ) ⊥ (µ − µ) quindi

||µ − µ||2 = 0 ⇒ µ = µ

La condizione di ortogonalita caratterizza completamente il vettore

OLS dei valori fittati µ.

Costruiamo µ per una caso particolare e mostriamo che una

soluzione unica esiste.

Le equazioni normali stabiliscono che

X′(y − Xβ) = 0



risolvendo per

X′(y − Xβ) = 0

X′Xβ − X′y = 0

β = (X′X)−1X′y

dato che X′X e nonsingolare.



La soluzione per µ segue

µ = Xβ = X(X′X)−1X′y

β e µ hanno una relazione 1-a-1. Possiamo anche ottenere β da µ:

premoltiplicando per (X′X)−1X′

(X′X)−1X′µ = (X′X)−1X′Xβ = β


Proiezione

Teorema Proiezione

Sia y ∈ RN e S ⊆ R

N un sottospazio lineare. Allora µ ∈ S e una

soluzione al problema

minµ∈S

||y − µ||2

se e solo se (y − µ)⊥S. Inoltre, µ esiste ed e unico.


Proiezione

Il teorema identifica il meccanismo di minimizzazione che significa

trovare un µ ∈ Col(X) tale che

y − µ ⊥ Col(X)

Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.


Proiettori ortogonali

Per ogni y, c’e un’unica µ,

µ = arg minµ∈S

||y − µ||2

chiamata proiezione di y. La proiezione ortogonale di y e sempre una

trasformazione lineare di y:

µ = Py

P proiettore ortogonale.

Nel caso generale che S = Col(X) e X sia di rango-colonna pieno, la

matrice

PX ≡ X(X′X)−1X′

µ = PXy

e la trasformazione lineare di y su Col(X) che produce µ.



PX ha due proprieta:

• non modifica i vettori in Col(X)

z ∈ Col(X) ⇒ PXz = z

• trasforma i vettori ortogonali a Col(X) nel vettore zero.

z ⊥ Col(X) ⇒ PXz = 0



Prova

∀z ∈ Col(X) esiste un α : z = Xα

PXz = PXXα = X(X′X)−1X′Xα = Xα = z

Se z⊥Col(X) : z′X = 0, ∀X ∈ Col(X) cosicche X′z = 0 e

PXz = X(X′X)−1X′z = 0

�


Scomposizione ortogonale

∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma

z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥(X) ≡ {z ∈ RN |X′z = 0}.

Dove Col⊥(X) e il complemento ortogonale.

Complemento ortogonale

Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:

S⊥ = {v ∈ V|u′v = 0, ∀u ∈ S}

e chiamato complemento ortogonale di S. E’ equivalente a scrivere

v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′v = 0 tale che

v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}


Proiezione ortogonale

Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’e un

unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2.

Allora la funzione da RN a S

⊥ che associa ogni z con il suo

corrispondente z1 e una proiezione ortogonale.

Quando S = Col(X) allora PXz = z1 e la proiezione ortogonale di z

su Col(X). Solo la componente di z in Col(X) sopravvive alla

premoltiplicazione per PX .

La proiezione ortogonale da RN su un sottospazio S e una

trasformazione lineare. (La proiezione ortogonale di una

combinazione lineare di vettori uguaglia la combinazione lineare delle

proiezioni ortogonali dei singoli vettori).


Proiettore ortogonale

Ogni proiezione ortogonale da RN in un sottospazio S puo essere

rappresentata da una matrice P, chiamata proiettore ortogonale.

Sia S ⊆ RN , ∀z ∈ RN c’e un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale

che z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 e

un proiettore ortogonale su S.

Un proiettore ortogonale preserva la componente di un vettore in un

sottospazio S e annulla la componente nel sottospazio complementare

ortogonale S⊥.

Se P e un proiettore ortogonale su un sottospazio di RN , allora P e

unica.


Proprieta dei Proiettori ortogonali

1. Simmetria

PX = X(X′X)X′ = [X(X′X)X′]′ = P′X

2. Idempotenza

PXPX = [X(X′X)X′][X(X′X)X′] = X(X′X)X′ = PX

3. Semidefinitezza positiva

Per ogni w ∈ RN

w′PXw = w′PXPXw = w′P′XPXw = (PXw)′(PXw) = ||PXw||2 ≥ 0


Proprieta dei Proiettori ortogonali

Osserviamo che

z ∈ Col⊥(X) ⇒ (I− PX)z = z

z ∈ Col(X) ⇒ (I− PX)z = 0

cioe MX = (I− PX) e un proiettore ortogonale su Col⊥(X), il

complemento ortogonale di Col(X).


Multicollinearita esatta

Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X

sono linearmente indipendenti. Questa situazione e detta

multicollinearita esatta.

Un unico µ esiste anche quando X e di rango ridotto. Quando X e

(X′X) sono singolari non possiamo usare PX = X(X′X)−1X′ per

trovare PX .

Quando dim[Col(X)] < K, possiamo trovare PX applicando la

formula ad ogni sottoinsieme linearmente indipendente delle colonne

di X cioe una base per Col(X).


Multicollinearita esatta

Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una

matrice composta da un sottoinsieme linearmente di colonne di X

tale che

Col(X1) = Col(X)

allora

PX = X1(X′1X1)

−1X′1


minimi quadrati ordinari interpretazione...

Documents