![Page 1: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/1.jpg)
Analisi di Regressione Multivariata
Regressione: metodologia per dedurre info e per anticipare risposte di
una variabile dip.
Modello classico di regressione lineare:
Y|{z}n×k
= X|{z}n×(p+1)
βββ|{z}(p+1)×k
+ ρρρ|{z}n×k
X var. indip. (predittori) (note) Y var. “risposta”
ρρρ matrice di errore (o disturbo)
βββ matrice incognita dei coeff. di regressione (regr. lineare in βββ)
128
![Page 2: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/2.jpg)
Caso unidimensionale
y = β0 + β1x1 + β2x2 + · · · + βpxp + r ⇔ y = [1, x]| {z }≡X
βββ + r
In piu dimensioni (n > 1, k = 1)
yi = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p + ri, i = 1, . . . , n
y = Xβββ + r
Ipotesi sul vettore di errore: E(r) = 0 ∈ Rn, Cov(r) = σ2 I|{z}
n×n
⇒ βββ e σ sono incognite
Funzione di regressione:
E(y) = Xβββ = β0xi,0 + β1xi,1 + β2xi,2 + · · · + βpxi,p
129
![Page 3: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/3.jpg)
Esempio
Determinare il modello di regressione lineare per l’accostamento alla
linea retta (p = 1)
x 0 1 2 3 4
y 1 4 3 8 9
Sol. Si ha
X =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
y =
0BBBBBBBB@
1
4
3
8
9
1CCCCCCCCA
⇒ y =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
0@ β0
β1
1A+
0BBBBBB@
r1
r2...
r5
1CCCCCCA
130
![Page 4: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/4.jpg)
Scopo dell’analisi di regressione
• Valutare l’importanza di ogni predittore in X
• Dare stime per la funzione di regressione E(y)
• Buona stima del modello per predire valori di y
131
![Page 5: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/5.jpg)
Stime del vettore βββ rispettando il modello ?
Metodo dei Minimi Quadrati
Stima per βββ risolvendo il problema:
minb∈Rp
‖y −Xb‖2
dove
‖y−Xb‖2 = (y−Xb)T (y−Xb) =
nX
i=1
(yi −xi,0b0−xi,1b1−· · ·−xi,pbp)2
• bβββ soluzione del problema: stima di βββ
• bβββ consistente coi dati disponibili (‖y −Xbβββ‖2 minima possibile)
Residuo: br = y −Xbβββ (per stime di σ2)
132
![Page 6: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/6.jpg)
Minimi Quadrati
Teorema. Se X ∈ Rn×(p+1) ha rango pieno (= p+ 1) allora
bβββ = (XTX)−1XTy
by = Xbβββ valori approssimanti (Fitted values)
y = by + br
Nota: XTbr = 0 ⇒ 1Tbr =
nX
i=1
ri = 0 da cui
y = 1n
nX
i=1
yi =1
n
nX
i=1
(byi + ri) =1
n
nX
i=1
byi +1
n
nX
i=1
ri = by
133
![Page 7: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/7.jpg)
Esempio
x 0 1 2 3 4
y 1 4 3 8 9y = X
24 β0
β1
35+ r
X =
0BBBBBBBB@
1 0
1 1
1 2
1 3
1 4
1CCCCCCCCA
XTX =
24 5 10
10 30
35 XT y =
24 25
70
35
bβββ = (XTX)−1XT y =
24 1
2
35 ⇒ y = 1 + 2x
134
![Page 8: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/8.jpg)
Coefficiente di determinazione
y = by + br ∈ Rn e byTbr = 0, da cui
yTy = (by + br)T (by + br) = byT by + brTbr = ‖by‖2 + ‖br‖2
Usando y = by (e aggiungo ny2 a entrambi i lati)
‖y‖2 − ny2 = ‖by‖2 − nby2+ ‖br‖2
‖y − y1‖2
| {z }somma di quadratiintorno alla media
= ‖by − by1‖2
| {z }regressione
somma dei quadrati
+ ‖br‖2
|{z}residuo
R2 : = 1 − ‖br‖2
‖y − y1‖2≡ ‖by − by1‖2
‖y − y1‖2
135
![Page 9: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/9.jpg)
Coefficiente di determinazione
R2 = 1 − ‖br‖2
‖y − y1‖2≡ ‖by − by1‖2
‖y − y1‖2
e misura della variazione dei dati attribuibile alle var.predittrici
x1, . . . , xp
R2 = 1 se ri = 0 ∀i
R2 = 0 se bβ0 = y e bβi = 0 ∀i > 0
(cioe x1, . . . , xp non influiscono)
136
![Page 10: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/10.jpg)
Proprieta campionarie della stima
• E(bβββ) = βββ stimatore corretto (unbiased)
• Cov(bβββ) = σ2(XTX)−1 (se X ortogonale, Cov(bβββ) = σ2I)
Proprieta campionarie del residuo
• E(br) = 0
• Cov(br) = σ2(I −X(XTX)−1XT )
• bβββ e br sono non correlate
• Posto
s2 :=‖br‖2
n− p− 1
si ha E(s2) = σ2
137
![Page 11: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/11.jpg)
Perche la stima coi Minimi Quadrati e buona?
Proprieta di minima varianza della stima:
Teorema (dei Minimi quadrati di Gauss). Sia y = Xβββ + r con E(r) = 0 e
Cov(r) = σ2I con X rango massimo. Sia bβββ = (XTX)−1XT y.
Per ogni c, lo stimatore di cTβββ dato da
cT bβββ = c0bβ0 + c1bβ1 + · · · + cp
bβp
ha la piu piccola varianza possibile tra tutti gli stimatori lineari corretti
(non distorti) di cTβββ, nella forma
aTy = a1y1 + a2y2 + · · · + anyn
cT bβββ Best linear unbiased estimator (B.L.U.E.) di cTβββ
138
![Page 12: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/12.jpg)
Intervalli di confidenza per βββ
y = Xβββ + r
Se r e Nn(0, σ2I), allora
bβββ e distribuita come Np+1(βββ, σ2(XTX)−1) e
Regione di confidenza al 100(1 − α)% per βββ:
(βββ − bβββ)TXTX(βββ − bβββ) ≤ (p+ 1)s2Fp+1,n−p−1(α)
Intervalli simultanei:
bβi ±qdV ar(bβi)
p(p+ 1)Fp+1,n−p−1(α), i = 0, . . . , p
dove dV ar(bβi) = (s2(XTX)−1)i,i
139
![Page 13: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/13.jpg)
Esempio (Tab.7.1 JW).: Y = Xβββ + r
n = 20, p = 2
XTX =
0BB@
5.1523
0.2544 0.0512
−0.1463 −0.0172 0.0067
1CCA bβββ = (XTX)−1XT
y =
0BB@
30.967
2.634
0.045
1CCA
⇒ by = 30.967 + 2.634x1 + 0.045x2
s = 3.473, R2 = 0.834
Intervalli simultanei: (α = 0.05)
bβ2 ±qdV ar(β2)
p(p+ 1)Fp+1,n−p−1(α) = 0.045 ± 0.285 · 3.098
(−0.837, 0.927) ⇒ x2 non utile?
140
![Page 14: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/14.jpg)
Test di ipotesi sull’influenza di X
Possibile ipotesi nulla: H0 : βq+1 = · · · = βp = 0
Posto βββ(2) = [βq+1, . . . , βp]T , riscrivo
X = [ X1|{z}n×(q+1)
, X2|{z}n×(p−q)
] βββ =
24 βββ(1)
βββ(2)
35
y = Xβββ + r = [X1, X2]
24 βββ(1)
βββ(2)
35+ r = X1βββ(1) +X2βββ(2) + r
Sotto l’ipotesi nulla H0 : βββ(2) = 0, y = X1βββ(1) + r
141
![Page 15: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/15.jpg)
Test di ipotesi sull’influenza di X
X rango massimo e r in Nn(0, σ2I)
Definiamo:
Sres(X) = ‖br‖2 = ‖y −Xbβββ‖2 con bβββ = (XTX)−1XT y
Sres(X1) = ‖y −X1bβββ(1)‖2 con bβββ(1) = (XT
1 X1)−1XT
1 y
H0 : βββ(2) = 0 viene rifiutata (con livello di sign. 100α%) se
Sres(X1) − Sres(X)
(p− q)s2> Fp−q,n−p−1(α)
dove s2 = ‖br‖2
n−(p+1)
142
![Page 16: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/16.jpg)
Esempio (es.7.23) n = 76, p = 8 y : Prezzo di vendita (SalePr)
Test sull’influenza delle singole variabili (q = 7):
F -value di rif.:p− q
n− p− 1Fp−q,n−p−1(α) =
1
67· F1,66(0.05) = 0.06
Variabile testataSres(X1) − Sres(X)
‖br‖2
2 0.2009
3 0.0134
4 0.0443
5 0.0274
6 0.0470
7 0.0253
8 0.0317
9 0.0100
143
![Page 17: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/17.jpg)
Test sulla bonta della stima
Analisi del residuo br = y −Xbβββ? br stima di r (con r in Nn(0, σ2I))
Studio grafico del residuo:
• Grafico (bri, byi), i = 1, n, dove by = Xbβββ
• Grafico (bri, Xi,k), i = 1, n per qualche k
• Istogramma di br
144
![Page 18: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/18.jpg)
Esempio: Campione di 79 aziende dal Forbes 500 del 1986
Per ogni compagnia:
x1 Assets: Amount of assets (in millions)
x2 Sales: Amount of sales (in millions)
x3 Profits: Profits (in millions)
x4 Cash Flow: Cash Flow (in millions)
x5 Employees: Number of employees (in thousands)
y : Market Value: Market Value of the company (in millions)
145
![Page 19: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/19.jpg)
R = corr(X) :
R =
0BBBBBBBB@
1.0000 0.7464 0.6017 0.6409 0.5943
0.7464 1.0000 0.8137 0.8549 0.9240
0.6017 0.8137 1.0000 0.9887 0.7621
0.6409 0.8549 0.9887 1.0000 0.7866
0.5943 0.9240 0.7621 0.7866 1.0000
1CCCCCCCCA
Aggiungiamo la colonna di costanti: X = [1, X]
146
![Page 20: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/20.jpg)
Stime:
β =
0BBBBBBBBBBB@
−95.6040
0.0955
0.2994
11.2520
−0.4771
6.2976
1CCCCCCCCCCCA
, R2 = 0.96, s = 2.20 · 103
147
![Page 21: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/21.jpg)
Bonta del modello
−8000 −6000 −4000 −2000 0 2000 4000 6000 80000
5
10
15
20
25
30
35
40
45
−6000 −4000 −2000 0 2000 4000 6000
0.01
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
0.99
Data
Pro
ba
bili
ty
Normal Probability Plot
148
![Page 22: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/22.jpg)
−2 0 2 4 6 8 10
x 104
−8000
−6000
−4000
−2000
0
2000
4000
6000
8000
(byi, ri)
149
![Page 23: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/23.jpg)
Escludendo dati di IBM e General Electric:
−3000 −2000 −1000 0 1000 2000 3000 4000 5000 60000
5
10
15
20
25
30
−2000 −1000 0 1000 2000 3000 4000 5000
0.01
0.02
0.05
0.10
0.25
0.50
0.75
0.90
0.95
0.98
0.99
Data
Pro
ba
bili
ty
Normal Probability Plot
βT = (100.61, 0.093458,−0.19943,−3.0711, 4.3853, 34.889),
R2 = 0.72, s2 = 1.30 · 106
150
![Page 24: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/24.jpg)
Escudendo dati di IBM e General Electric:
−2000 0 2000 4000 6000 8000 10000 12000−3000
−2000
−1000
0
1000
2000
3000
4000
5000
6000
0 0.5 1 1.5 2 2.5 3 3.5 4 4.5
x 104
−3000
−2000
−1000
0
1000
2000
3000
4000
5000
6000
X1
err
ore
(byi, ri) (Assets, ri)
151
![Page 25: Analisi di Regressione Multivariata metodologia per ...simoncin/MPS06p128_152.pdf · Analisi di Regressione Multivariata Regressione: metodologia per dedurre info e per anticipare](https://reader031.vdocuments.net/reader031/viewer/2022013117/5c64980a09d3f2966e8b728f/html5/thumbnails/25.jpg)
Previsione di un’osservazione
Fissato x0:
Secondo il modello di regressione: y0 = xT0 βββ + r0
y0: nuova risposta, r0 in N (0, σ2)
(nuova risposta y0) = (valore atteso di y0 in x0) + (nuovo errore)
• xT0bβββ stima corretta
• Varianza del residuo: V ar(y0 − xT0bβββ) = σ2(1 + xT
0 (XTX)−1x0)
• Per r in Nn(0, σ2I), intervallo di confidenza:
xT0bβββ ± tn−(p+1)(α/2)
qs2(1 + xT
0 (XTX)−1x0)
Esempio precedente:
xT0 = (1, 3100, 1800, 129, 350, 50) ⇒ intervallo : (565.87, 5263.0)
152