minimi quadrati ordinari interpretazione...
TRANSCRIPT
Minimi quadrati ordinariInterpretazione geometrica
Eduardo Rossi
Il MRLM
Il modello di regressione lineare multipla e usato per studiare le
relazioni tra la variabile dipendente e diverse variabili indipendenti
(esplicative).
yt = β1xt1 + . . . + βKxtK + ǫt t = 1, 2, . . . , N (1)
β1, . . . βK parametri fissi ma ignoti, ǫt ignoto, yt regredendo,
v.casuale, xkt regressore, covariata casuale. In genere, uno dei
regressori e fissato uguale ad 1,per esempio il primo: x1t = 1, ∀t; con
β1 intercetta (o costante) dell’equazione.
Eduardo Rossi c© - Econometria 08 2
Il metodo dei minimi quadrati
I caratteri variano simultaneamente tra gli individui. Il metodo dei
minimi quadrati ordinari e un modo per scomporre le differenze
nella variabile dipendente fra diverse caratteristiche osservate
(variabili esplicative) per le diverse unita nel campione.
Il metodo dei minimi quadrati ordinari (in inglese Ordinary Least
Squares, OLS) e usato per stimare il valore di βk, k = 1, . . . , K.
Questi sono scelti in modo tale che siano la soluzione al seguente
problema:
minβ1,...,βK
N∑
t=1
[yt − (β1xt1 + β2xt2 + . . . + βKxtK)]2
Il termine “minimi quadrati” si riferisce alla minimizzazione della
somma delle differenze al quadrato. [yt − (β1xt1 + . . . + βKxtK)], gli
scarti.
Eduardo Rossi c© - Econometria 08 3
La somma dei quadrati
La funzione obiettivo
f(β1, . . . , βK) =N∑
t=1
[yt − (β1xt1 + β2xt2 + . . . + βKxKt)]2 (2)
e la sum of squared residuals (somma dei quadrati dei residui).
Quando i residui sono valutati in β1, . . . , βK i residui sono detti fitted
residuals (residui fittati, o residui della regressione).
Consideriamo il caso in cui l’unica variabile esplicativa e la costante:
K = 1 e x1t = 1, ∀t. OLS trova il valore di β1 che e il piu vicino a yt
nel senso della somma dei qudrati dei residui. OLS e la
minimizzazione di una funzione quadratica in β1 e il risultato e la
media:
β1 = arg minN∑
t=1
(yt − β1)2 =
∑N
t=1 yt
N
Eduardo Rossi c© - Econometria 08 4
Notazione
β = [β1, β2, . . . , βK ]′ (K × 1) xt =
xt1
...
xtK
(K × 1) (3)
Notazione matriciale
y =
y1
...
yN
(N × 1)
X =
x′1
...
x′N
=
x11 x12 . . . x1K
x21 x22 . . . x2K
......
...
xN1 xN2 . . . xNK
(N × K)
Eduardo Rossi c© - Econometria 08 5
Notazione
x′1β
...
x′Nβ
= Xβ
Il vettore y raccoglie tutte le osservazioni della variabile dipendente.
La matrice X raccoglie le osservazioni sulle variabili esplicative. Ogni
colonna di X contiene tutte le osservazioni per la singola variabile
esplicativa.
Eduardo Rossi c© - Econometria 08 6
Lo stimatore dei minimi quadrati (OLS)
Stimatore = E’ una regola per calcolare una stima (un numero) dai
dati campionari.
Il metodo dei minimi quadrati risolve il problema
β ≡ arg minβ
(y − Xβ)′(y − Xβ)
Definiamo
S(β) ≡ (y − Xβ)′(y − Xβ)
Eduardo Rossi c© - Econometria 08 7
Lo stimatore dei minimi quadrati (OLS)
∂S(β)
∂β=
∂(y′y − 2β′X′y + β′X′Xβ
)
∂β
=∂
(−2β′X′y + β′X′Xβ
)
∂β
= −2∂β′
∂βX′y +
∂(β′X′Xβ
)
∂β
= −2X′y + 2X′Xβ
Eduardo Rossi c© - Econometria 08 8
Lo stimatore dei minimi quadrati (OLS)
∂S(β)
∂β= −2X′y + 2X′Xβ = 0 (4)
Le equazioni normali
X′y − X′Xβ = 0 (5)
Lo stimatore OLS e
β = (X′X)−1
X′y (6)
Poiche la funzione stimata e lineare nei coefficienti, gli OLS ci danno
dei coefficienti stimati che sono somme ponderate delle {yt}. Le
stime OLS sono funzioni lineari della variabile dipendente. Questa
linearita in {yt} semplifica l’analisi statistica degli OLS.
Eduardo Rossi c© - Econometria 08 9
L’interpretazione geometrica degli OLS
Lo spazio delle colonne di X, Col(X), e il sottospazio lineare di RN
coperto dalle combinazioni lineari dei vettori colonna di X:
Col(X) ≡ {z ∈ RN |z = Xα, α ∈ R
k}
La procedura di stima OLS trova il vettore in Col(X), µ, che e piu
vicino a y.
µ e detta proiezione di y sul Col(X).
Eduardo Rossi c© - Econometria 08 10
L’interpretazione geometrica degli OLS
Il metodo OLS risolve:
β ≡ arg minβ
(y − Xβ)′(y − Xβ) (7)
La somma delle deviazioni al quadrato tra gli elementi di di y e Xβ e
il quadrato della distanza Euclidea fra y e Xβ:
(y − Xβ)′(y − Xβ) =N∑
t=1
(yt − x′tβ)2 =‖ y − Xβ ‖2
Eduardo Rossi c© - Econometria 08 11
L’interpretazione geometrica degli OLS
Procedura in due passi:
1. Trovare il punto in un sottospazio che e il piu vicino ad un punto
che non si trova il quel sottospazio. Il sottospazio e l’insieme dei
possibili vettori reali N dimensionali Xβ che puo essere creato
cambiando β e questo sottospazio e lo spazio delle colonne di X.
µ ≡ arg minµ∈Col(X)
‖ y − µ ‖2
2. Trovare un β che sia soluzione a:
µ = Xβ
Eduardo Rossi c© - Econometria 08 12
L’interpretazione geometrica degli OLS
Eduardo Rossi c© - Econometria 08 13
L’interpretazione geometrica degli OLS
La soluzione al primo passo e unica mentre ci possono essere molte
soluzione al secondo problema. Sia β una soluzione di (7) e sia
µ = Xβ.
1. Il vettore dei valori fittati µ e l’unica proiezione ortogonale di y
su Col(X).
2. Il vettore dei residui fittati y − µ e ortogonale a Col(X)
3. Se dim[Col(X)] = K, allora (7) ha una soluzione unica:
β = (X′X)−1X′y = (X′X)−1X′µ′
Eduardo Rossi c© - Econometria 08 14
L’interpretazione geometrica degli OLS
Tre idee base:
1. La regressione OLS significa minimizzare la distanza al quadrato
tra il vettore osservato y e un vettore di regressione Xβ che
appartiene a Col(X).
2. Il vettore dei valori fittati µ = Xβ e la proiezione ortogonale su
Col(X). Il vettore dei residui (y − µ) e perpendicolare a µ e ad
ogni altro vettore in Col(X).
3. Se the dim[Col(X)] = K allora β e unico.
Eduardo Rossi c© - Econometria 08 15
Esempio
Due osservazioni ed una sola varibile esplicativa (N = 1, K = 1)
X =
1
1
≡ ι
Col(X) = {z ∈ R2|z1 = z2}, e β = y
β = y = arg minβ
[(y1 − β)2 + (y2 − β)2
]
µ = Xβ = ιy
Eduardo Rossi c© - Econometria 08 16
Esempio
Eduardo Rossi c© - Econometria 08 17
Esempio
Tre osservazioni e due variabili esplicative(N = 3, K = 2)
X =
1 x12
1 x22
1 x32
≡ ι
Col(X) e un piano che contiene tre punti:
0
0
0
, X1 =
1
1
1
, X2 =
x12
x22
x32
Il vettore dei coefficienti stimati β e l’unica combinazione lineare di ι
e X2 che eguaglia µ.
µ1 = X1β1 µ2 = X2β2 µ = µ1 + µ2
Eduardo Rossi c© - Econometria 08 18
Esempio
Eduardo Rossi c© - Econometria 08 19
Esempio
Eduardo Rossi c© - Econometria 08 20
µ come proiezione ortogonale
La dipendenza lineare fra le variabile esplicative non ha un ruolo
fondamentale su quanto bene una regressione lineare spiega y. La
distanza dipende solo da µ.
Mostriamo che
µ = Xβ = X(X′X)−1X′y
quando le colonne di X sono linearmente indipendenti. Per due
vettori µ e µ:
||y − µ||2 = ||y − µ + µ − µ||2
= ||y − µ||2 + ||µ − µ||2 + 2(y − µ)′(µ − µ)
ma
(y − µ)⊥(µ − µ) ⇔ (y − µ)′(µ − µ) = 0
Eduardo Rossi c© - Econometria 08 21
µ come proiezione ortogonale
Teorema di Pitagora: Se z1, z2 ∈ RN e z1⊥z2 allora
‖z1 + z2‖2 = ‖z1‖
2 + ‖z2‖2.
in questo caso:
||y − µ||2 = ||y − µ||2 + ||µ − µ||2.
Se c’e un µ ∈ Col(X) tale che
X′(y − µ) = 0
allora per tutti gli altri µ ∈ Col(x)
µ′(y − µ) = 0
(µ − µ)′(y − µ) = 0
||y − µ||2 = ||y − µ||2 + ||µ − µ||2
≥ ||y − µ||2
Eduardo Rossi c© - Econometria 08 22
µ come proiezione ortogonale
Poiche y − µ e ortogonale a Col(X), µ e vicino a y almeno quanto
un qualunque µ in Col(X)
Quindi µ e una soluzione al problema della distanza minima dei OLS
µ = arg minµ∈Col(X)
||y − µ||2
Ma µ e la soluzione unica!
La soluzione e unica perche per ogni altra possibile soluzione µ deve
essere che
||y − µ||2 = ||y − µ||2
poiche nessun altro µ e piu vicino a µ.
Eduardo Rossi c© - Econometria 08 23
µ come proiezione ortogonale
Infatti, il teorema di Pitagora implica che
||y − µ||2 = ||(y − µ) + (µ − µ)||2 = ||y − µ||2 + ||µ − µ||2.
perche (y − µ) ⊥ (µ − µ) quindi
||µ − µ||2 = 0 ⇒ µ = µ
La condizione di ortogonalita caratterizza completamente il vettore
OLS dei valori fittati µ.
Costruiamo µ per una caso particolare e mostriamo che una
soluzione unica esiste.
Le equazioni normali stabiliscono che
X′(y − Xβ) = 0
Eduardo Rossi c© - Econometria 08 24
µ come proiezione ortogonale
risolvendo per
X′(y − Xβ) = 0
X′Xβ − X′y = 0
β = (X′X)−1X′y
dato che X′X e nonsingolare.
Eduardo Rossi c© - Econometria 08 25
µ come proiezione ortogonale
La soluzione per µ segue
µ = Xβ = X(X′X)−1X′y
β e µ hanno una relazione 1-a-1. Possiamo anche ottenere β da µ:
premoltiplicando per (X′X)−1X′
(X′X)−1X′µ = (X′X)−1X′Xβ = β
Eduardo Rossi c© - Econometria 08 26
Proiezione
Teorema Proiezione
Sia y ∈ RN e S ⊆ R
N un sottospazio lineare. Allora µ ∈ S e una
soluzione al problema
minµ∈S
||y − µ||2
se e solo se (y − µ)⊥S. Inoltre, µ esiste ed e unico.
Eduardo Rossi c© - Econometria 08 27
Proiezione
Il teorema identifica il meccanismo di minimizzazione che significa
trovare un µ ∈ Col(X) tale che
y − µ ⊥ Col(X)
Secondo, il teorema chiarisce che Col(X) determina l’ottimale µ.
Eduardo Rossi c© - Econometria 08 28
Proiettori ortogonali
Per ogni y, c’e un’unica µ,
µ = arg minµ∈S
||y − µ||2
chiamata proiezione di y. La proiezione ortogonale di y e sempre una
trasformazione lineare di y:
µ = Py
P proiettore ortogonale.
Nel caso generale che S = Col(X) e X sia di rango-colonna pieno, la
matrice
PX ≡ X(X′X)−1X′
µ = PXy
e la trasformazione lineare di y su Col(X) che produce µ.
Eduardo Rossi c© - Econometria 08 29
Proiettori ortogonali
PX ha due proprieta:
• non modifica i vettori in Col(X)
z ∈ Col(X) ⇒ PXz = z
• trasforma i vettori ortogonali a Col(X) nel vettore zero.
z ⊥ Col(X) ⇒ PXz = 0
Eduardo Rossi c© - Econometria 08 30
Proiettori ortogonali
Prova
∀z ∈ Col(X) esiste un α : z = Xα
PXz = PXXα = X(X′X)−1X′Xα = Xα = z
Se z⊥Col(X) : z′X = 0, ∀X ∈ Col(X) cosicche X′z = 0 e
PXz = X(X′X)−1X′z = 0
�
Eduardo Rossi c© - Econometria 08 31
Scomposizione ortogonale
∀z ∈ RN , possiamo scomporre z univocamente nel vettore somma
z1 + z2 dove z1 ∈ Col(X) e z2 ∈ Col⊥(X) ≡ {z ∈ RN |X′z = 0}.
Dove Col⊥(X) e il complemento ortogonale.
Complemento ortogonale
Il sottospazio lineare di vettori S⊥ , ortogonale al sottospazio S ⊆ V:
S⊥ = {v ∈ V|u′v = 0, ∀u ∈ S}
e chiamato complemento ortogonale di S. E’ equivalente a scrivere
v ∈ S⊥ come v⊥S. Notiamo che se v ∈ S ∩ S⊥ allora v′v = 0 tale che
v deve essere il vettore zero. In altre parole S ∩ S⊥ = {0}
Eduardo Rossi c© - Econometria 08 32
Proiezione ortogonale
Sia S ⊆ RN (sottospazio lineare) tale che per ogni z ∈ RN c’e un
unico z1 ∈ S ed un unico z2 ∈ S⊥ tale che z = z1 + z2.
Allora la funzione da RN a S
⊥ che associa ogni z con il suo
corrispondente z1 e una proiezione ortogonale.
Quando S = Col(X) allora PXz = z1 e la proiezione ortogonale di z
su Col(X). Solo la componente di z in Col(X) sopravvive alla
premoltiplicazione per PX .
La proiezione ortogonale da RN su un sottospazio S e una
trasformazione lineare. (La proiezione ortogonale di una
combinazione lineare di vettori uguaglia la combinazione lineare delle
proiezioni ortogonali dei singoli vettori).
Eduardo Rossi c© - Econometria 08 33
Proiettore ortogonale
Ogni proiezione ortogonale da RN in un sottospazio S puo essere
rappresentata da una matrice P, chiamata proiettore ortogonale.
Sia S ⊆ RN , ∀z ∈ RN c’e un unico z1 ∈ S ed un unico z2 ∈ S⊥ tale
che z = z1 + z2. Allora una matrice (N × N) P tale che Pz = z1 e
un proiettore ortogonale su S.
Un proiettore ortogonale preserva la componente di un vettore in un
sottospazio S e annulla la componente nel sottospazio complementare
ortogonale S⊥.
Se P e un proiettore ortogonale su un sottospazio di RN , allora P e
unica.
Eduardo Rossi c© - Econometria 08 34
Proprieta dei Proiettori ortogonali
1. Simmetria
PX = X(X′X)X′ = [X(X′X)X′]′ = P′X
2. Idempotenza
PXPX = [X(X′X)X′][X(X′X)X′] = X(X′X)X′ = PX
3. Semidefinitezza positiva
Per ogni w ∈ RN
w′PXw = w′PXPXw = w′P′XPXw = (PXw)′(PXw) = ||PXw||2 ≥ 0
Eduardo Rossi c© - Econometria 08 35
Proprieta dei Proiettori ortogonali
Osserviamo che
z ∈ Col⊥(X) ⇒ (I− PX)z = z
z ∈ Col(X) ⇒ (I− PX)z = 0
cioe MX = (I− PX) e un proiettore ortogonale su Col⊥(X), il
complemento ortogonale di Col(X).
Eduardo Rossi c© - Econometria 08 36
Multicollinearita esatta
Se esiste un vettore α ∈ RK tale che Xα = 0 allora le colonne di X
sono linearmente indipendenti. Questa situazione e detta
multicollinearita esatta.
Un unico µ esiste anche quando X e di rango ridotto. Quando X e
(X′X) sono singolari non possiamo usare PX = X(X′X)−1X′ per
trovare PX .
Quando dim[Col(X)] < K, possiamo trovare PX applicando la
formula ad ogni sottoinsieme linearmente indipendente delle colonne
di X cioe una base per Col(X).
Eduardo Rossi c© - Econometria 08 37
Multicollinearita esatta
Indichiamo con PX il proiettore ortogonale su Col(X) e sia X1 una
matrice composta da un sottoinsieme linearmente di colonne di X
tale che
Col(X1) = Col(X)
allora
PX = X1(X′1X1)
−1X′1
Eduardo Rossi c© - Econometria 08 38