dati auto (auto.xlsx) - ecostat.unical.it · 27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20 28 11.0 8...
TRANSCRIPT
mpg cylinders displacement horsepower weight acceleration year origin name
1 18.0 8 307.0 130 3504 12.0 70 1 chevrolet chevelle malibu
2 15.0 8 350.0 165 3693 11.5 70 1 buick skylark 320
3 18.0 8 318.0 150 3436 11.0 70 1 plymouth satellite
4 16.0 8 304.0 150 3433 12.0 70 1 amc rebel sst
5 17.0 8 302.0 140 3449 10.5 70 1 ford torino
6 15.0 8 429.0 198 4341 10.0 70 1 ford galaxie 500
7 14.0 8 454.0 220 4354 9.0 70 1 chevrolet impala
8 14.0 8 440.0 215 4312 8.5 70 1 plymouth fury
9 14.0 8 455.0 225 4425 10.0 70 1 pontiac catalina
10 15.0 8 390.0 190 3850 8.5 70 1 amc ambassador dpl
11 15.0 8 383.0 170 3563 10.0 70 1 dodge challenger se
12 14.0 8 340.0 160 3609 8.0 70 1 plymouth 'cuda 340
13 15.0 8 400.0 150 3761 9.5 70 1 chevrolet monte carlo
14 14.0 8 455.0 225 3086 10.0 70 1 buick estate wagon (sw)
15 24.0 4 113.0 95 2372 15.0 70 3 toyota corona mark
16 22.0 6 198.0 95 2833 15.5 70 1 plymouth duster
17 18.0 6 199.0 97 2774 15.5 70 1 amc hornet
18 21.0 6 200.0 85 2587 16.0 70 1 ford maverick
19 27.0 4 97.0 88 2130 14.5 70 3 datsun pl510
20 26.0 4 97.0 46 1835 20.5 70 2 volkswagen 1131 deluxe sedan
21 25.0 4 110.0 87 2672 17.5 70 2 peugeot 504
22 24.0 4 107.0 90 2430 14.5 70 2 audi 100 ls
23 25.0 4 104.0 95 2375 17.5 70 2 saab 99e
24 26.0 4 121.0 113 2234 12.5 70 2 bmw 2002
25 21.0 6 199.0 90 2648 15.0 70 1 amc gremlin
26 10.0 8 360.0 215 4615 14.0 70 1 ford f250
27 10.0 8 307.0 200 4376 15.0 70 1 chevy c20
28 11.0 8 318.0 210 4382 13.5 70 1 dodge d200
Dati Auto (Auto.xlsx)
mpg cylinders displacement horsepower weight acceleration year origin name
372 29.0 4 135.0 84 2525 16.0 82 1 dodge aries se
373 27.0 4 151.0 90 2735 18.0 82 1 pontiac phoenix
374 24.0 4 140.0 92 2865 16.4 82 1 ford fairmont futura
375 36.0 4 105.0 74 1980 15.3 82 2 volkswagen rabbit
376 37.0 4 91.0 68 2025 18.2 82 3 mazda glc custom l
377 31.0 4 91.0 68 1970 17.6 82 3 mazda glc custom
378 38.0 4 105.0 63 2125 14.7 82 1 plymouth horizon miser
379 36.0 4 98.0 70 2125 17.3 82 1 mercury lynx l
380 36.0 4 120.0 88 2160 14.5 82 3 nissan stanza xe
381 36.0 4 107.0 75 2205 14.5 82 3 honda accord
382 34.0 4 108.0 70 2245 16.9 82 3 toyota corolla
383 38.0 4 91.0 67 1965 15.0 82 3 honda
384 32.0 4 91.0 67 1965 15.7 82 3 honda civic (auto)
385 38.0 4 91.0 67 1995 16.2 82 3 datsun 310 gx
386 25.0 6 181.0 110 2945 16.4 82 1 buick
387 38.0 6 262.0 85 3015 17.0 82 1 oldsmobile cutlass ciera
388 26.0 4 156.0 92 2585 14.5 82 1 chrysler lebaron medallion
389 22.0 6 232.0 112 2835 14.7 82 1 ford granada l
390 32.0 4 144.0 96 2665 13.9 82 3 toyota celica gt
391 36.0 4 135.0 84 2370 13.0 82 1 dodge charger 2.2
392 27.0 4 151.0 90 2950 17.3 82 1 chevrolet camaro
393 27.0 4 140.0 86 2790 15.6 82 1 ford mustang gl
394 44.0 4 97.0 52 2130 24.6 82 2 vw pickup
395 32.0 4 135.0 84 2295 11.6 82 1 dodge rampage
396 28.0 4 120.0 79 2625 18.6 82 1 ford ranger
397 31.0 4 119.0 82 2720 19.4 82 1 chevy s-10
Dati Auto (Auto.txt)
Giovanni Latorre 4
Dati Auto (Auto.txt)Regression: Mpg vs Displacement
RRetta di Regressione: Mpg = 35.12 - 0.06 DisplacementR2 = 0.6482
Giovanni Latorre 5
Dati Auto (Auto.txt)Regression: Mpg vs Displacement
Residuals vs Displacement
Residui informativi
Giovanni Latorre 6
Dati Auto (Auto.txt)Regression: Mpg vs Displacement
Residuals vs Fitted Mpg
Residui informativi
G. Latorre 8
Dati Auto (Auto.txt)Regression: Mpg vs Displacement
Curva di Regressione: Mpg = 42 – 0.1379 Displacement + + 0.0002 Displacement2
R2 = 0.6888
G. Latorre 9
Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Displacement
Residuals vs Displacement
Residui non informativi
G. Latorre 10
Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Displacement
Residuals vs Fitted Mpg
Residui non informativi
Giovanni Latorre 12
Dati Auto (Auto.txt)Regression: Mpg vs Weight
Retta di Regressione: Mpg = 46.22 - 0.0076 WeightR2 = 0.6926
Giovanni Latorre 13
Dati Auto (Auto.txt)Regression: Mpg vs Weight
Residuals vs Weight
Residui informativi
Giovanni Latorre 14
Residui informativi
Dati Auto (Auto.txt)Regression: Mpg vs Weight
Residuals vs Fitted Mpg
G. Latorre 16
Curva di Regressione: Mpg = 62 – 0.0185 Weight + + 0.000002 Weight2
R2 = 0.7151
Dati Auto (Auto.txt)Regression: Mpg vs Weight
G. Latorre 17
Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Weight
Residuals vs Weight
Residui non informativi
G. Latorre 18
Dati Auto (Auto.txt)Curva di Regressione: Mpg vs Weight
Residuals vs Fitted Mpg
Residui non informativi
Estensione non – lineare
Sono chiamati “strettamente lineari” i modelli nei quali sia le
variabili che i parametri compaiono alla I^ potenza; esempi:
Y = a + b X
Y = a + b X1 + c X2
Sono chiamati “lineari” i modelli nei quali solo i parametri
sono alla I^ potenza; esempio:
Y = a + b X + c X2 = f(X)
Parabola di equazione: Y = -3 + 5X - X2G. Latorre 19
Per determinare a, b, e c in
Y = a + b X + c X2 (1)
basta porre: X = X1 e X2 = X2 e determinare a, b, e c in
Y = a + b X1 + c X2 (2)
con la metodologia dei modelli multivariati.
Nota:
1) Modello lineare (solo i parametri sono alla I^ potenza);
2) Modello strettamente lineare (parametri e variabili sono
entrambi alla I^ potenza).
G. Latorre 20
X=Dose di fertilizzante, Y= Raccolto medio di grano,
in 100 appezzamenti di terrenoX Y X Y X Y X Y
2,24 12,89 0,83 10,54 4,78 6,19 4,36 9,58
3,01 14,92 3,13 12,51 3,80 12,11 3,57 12,21
1,96 13,81 4,80 8,22 1,90 11,43 4,57 8,13
1,74 11,34 1,63 11,33 5,22 4,35 1,99 14,29
2,74 13,48 3,78 12,52 2,20 12,85 1,49 14,45
3,00 13,98 2,67 13,90 2,50 12,36 5,42 2,85
3,25 12,27 4,06 10,71 1,68 12,12 1,86 12,26
3,07 15,19 5,15 5,98 3,13 13,46 3,72 11,24
4,31 8,81 3,97 12,49 5,43 3,52 1,48 13,13
1,75 12,57 4,78 7,69 2,43 12,53 1,81 14,03
2,40 13,98 3,42 12,12 4,59 6,68 4,45 10,33
4,96 6,80 4,97 7,54 3,85 10,93 0,72 10,22
3,46 13,36 3,19 13,55 0,86 10,18 3,08 12,92
1,76 12,43 0,80 10,72 1,34 11,53 2,48 12,01
1,41 12,41 1,18 10,81 5,45 3,60 3,76 12,81
3,97 11,01 2,02 14,29 1,59 12,42 4,72 7,69
2,91 12,29 0,53 7,33 3,58 12,86 0,65 9,03
5,07 5,08 0,88 9,23 5,48 3,09 0,96 10,61
2,92 13,39 2,36 14,08 2,45 13,01 1,79 13,47
5,02 7,18 1,38 13,01 4,03 11,69 0,79 10,28
4,84 6,83 3,57 13,54 0,82 9,73 1,64 13,01
3,41 12,44 4,13 9,51 0,75 9,44 2,43 14,01
2,41 13,07 3,68 11,88 4,24 11,46 0,71 9,38
3,37 12,42 4,86 6,73 3,64 11,06 2,72 11,39
0,65 9,72 3,18 14,02 1,70 13,45 1,35 11,85G. Latorre 21
M(X)= 2,91
M(Y)= 10,89
V(X)= 2,01
V(Y)= 8,06
Cov(X,Y)= -2,06
b'= -1,02
a'= 13,96
Stima del Modello: Y = a + b X
Modello Stimato: Y’ = 13,96 - 1,02 X
G. Latorre 22
G. Latorre 23
Y' e=Y-Y' Y' e=Y-Y' Y' e=Y-Y' Y' e=Y-Y'
11,67 1,22 13,11 -2,57 9,08 -2,89 9,51 0,07
10,88 4,04 10,76 1,75 10,08 2,03 10,31 1,90
11,96 1,85 9,06 -0,84 12,02 -0,59 9,29 -1,16
12,18 -0,84 12,29 -0,96 8,63 -4,28 11,93 2,36
11,16 2,32 10,10 2,42 11,71 1,14 12,44 2,01
10,89 3,09 11,23 2,67 11,41 0,95 8,42 -5,57
10,64 1,63 9,81 0,90 12,24 -0,12 12,06 0,20
10,82 4,37 8,70 -2,72 10,76 2,70 10,16 1,08
9,56 -0,75 9,90 2,59 8,41 -4,89 12,45 0,68
12,17 0,40 9,08 -1,39 11,48 1,05 12,11 1,92
11,51 2,47 10,47 1,65 9,27 -2,59 9,41 0,92
8,89 -2,09 8,88 -1,34 10,03 0,90 13,22 -3,00
10,42 2,94 10,70 2,85 13,08 -2,90 10,81 2,11
12,16 0,27 13,14 -2,42 12,59 -1,06 11,43 0,58
12,52 -0,11 12,75 -1,94 8,39 -4,79 10,12 2,69
9,90 1,11 11,90 2,39 12,34 0,08 9,14 -1,45
10,99 1,30 13,42 -6,09 10,30 2,56 13,30 -4,27
8,78 -3,70 13,06 -3,83 8,36 -5,27 12,98 -2,37
10,98 2,41 11,55 2,53 11,46 1,55 12,13 1,34
8,83 -1,65 12,55 0,46 9,84 1,85 13,15 -2,87
9,01 -2,18 10,31 3,23 13,12 -3,39 12,28 0,73
10,48 1,96 9,74 -0,23 13,19 -3,75 11,48 2,53
11,50 1,57 10,20 1,68 9,63 1,83 13,23 -3,85
10,52 1,90 8,99 -2,26 10,24 0,82 11,18 -9,79
13,30 -3,58 10,71 3,31 12,22 1,23 12,58 -0,73
M(Y')= 10,99
M(e)= 0,00
V(Y')= 2,10
V(e)= 5,96
V(Y')+V(e)= 8,06
R2= 0,26
Analisi dei Residui
G. Latorre 24
-8,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
0,00 1,00 2,00 3,00 4,00 5,00 6,00
e
X
G. Latorre 25
Analisi dei Residui
-8,00
-6,00
-4,00
-2,00
0,00
2,00
4,00
6,00
7,50 8,50 9,50 10,50 11,50 12,50 13,50 Y’
e
Diagramma scatter delle coppie di valori (xi , yi)
G. Latorre 260,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
0,00 1,00 2,00 3,00 4,00 5,00 6,00
Y
X
Diagramma scatter delle coppie di valori (xi , yi)
e Retta di Regressione: Y’ = 13,96 – 1,02 X
G. Latorre 270,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
0,00 1,00 2,00 3,00 4,00 5,00 6,00
Y
X
Stima del Modello: Y = a + b X + c X2
Ponendo: X1 = X , X2 = X2
avremo: Y = a + b X1 + c X2
M(X1)= 2,91M(X2)= 10,45M(Y)= 10,99V(X1)= 2,01V(X2)= 74,38V(Y)= 8,06
Cov(X1,Y)= -2,06Cov(X2,Y)= -16,52Cov(X1,X2)= 11,94
a'= 5,72b'= 6,19c'= -1,22
Modello Stimato: Y’ = 5,72 + 6,19 X – 1,22 X2G. Latorre 28
M(Y')= 10,99
M(e)= 0,00
V(Y')= 7,35
V(e)= 0,71
V(Y')+V(e)= 8,06
R^2= 0,91
Valori caratteristici del Modello Stimato
G. Latorre 29
Diagramma scatter delle coppie di valori (xi , yi)
G. Latorre 300,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
0,00 1,00 2,00 3,00 4,00 5,00 6,00
G. Latorre 31
Diagramma scatter delle coppie di valori (xi , yi)
e Modello di Regressione: Y’ = 5,72 + 6,19 X – 1,22 X2
0,00
2,00
4,00
6,00
8,00
10,00
12,00
14,00
16,00
0,00 1,00 2,00 3,00 4,00 5,00 6,00
Analisi dei Residuie
X
G. Latorre 32
-2,50
-2,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
2,00
2,50
0,00 1,00 2,00 3,00 4,00 5,00 6,00
Analisi dei Residuie
Y’
G. Latorre 33
-2,50
-2,00
-1,50
-1,00
-0,50
0,00
0,50
1,00
1,50
2,00
2,50
0,00 2,00 4,00 6,00 8,00 10,00 12,00 14,00 16,00
G. Latorre 35
Diagramma di Dispersione: mpg vs horsepowerRetta di Regressione: mpg = 39.935 - 0.158 *horsepower (R2=0.606)
G. Latorre 37
Diagramma di Dispersione: mpg vs horsepowerEq. del Modello: mpg = 56.900 - 0.466 * hp + 0.001 * hp2 (R2=0.688)
Esercitazione1. In otto aziende di un dato settore vengono rilevate mensilmente la
produzione (Y) in migliaia di tonnellate di prodotto ed il numero di ore di
lavoro (X):
Sapendo che:
stimare i parametri del
Modello: Y = a + b X e disegnarne il grafico, calcolare il coefficiente di
determinazione R2, calcolare la previsione di Y in corrispondenza di
X=2000.
X 1000 1100 1400 1550 1570 1610 1800 1780
Y 48 88 120 190 210 240 250 280
G. Latorre 39
44.2083325.147625.17822718008
1=
=M(X)M(Y)n
1=Y)Cov(X,
7542306.2179314
5.2254737M(X)n
1=V(X)
25.1476118108
1
n
1=M(X)
44.612025.178
148.3038
1M(Y)
n
1=V(Y)
25.17814268
1
n
1=M(Y)
1
2
1
2
1
2
2
1
2
1
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
yx
x
x
y
y
G. Latorre 40
¢b =Cov(X,Y)
V(X)=
20833.44
75423= 0.2762
¢a = M(Y)- ¢bM(X)=178.25-0.2762 ×1476.25=
=-229.49
r(X,Y)=Cov(X,Y)
V(X)V(Y)=
20833.44
75423×6120.44=
= 0.97
R2 = r(X,Y)2 = 0.972 = 0.94
¢Yi = ¢a + ¢bXi = -229.49 + 0.2762 × xi
V( ¢Y )=V( ¢a + ¢bXi ) = ¢b 2V(X)=0.27622 ×
×75423 = 5753.75
R2 =V( ¢Y )
V(Y)=
5753.75
6120.44= 0.94
G. Latorre 41
Esercitazione
2. Per determinare la temperatura ottimale alla quale ottenere
la sintesi di un certo farmaco, in modo da minimizzare la
quantità di impurità, vengono eseguiti 11 esperimenti con
temperature diverse (xi) e per ognuno di essi viene misurata la
quantità di impurità (yi). I valori delle xi e delle yi sono
riportati nella seguente tabella:X Y
-5 15,97
-4 9,72
-3 8,18
-2 3,48
-1 4,25
0 1,6
1 6,07
2 7,93
3 16,05
4 26,07
5 37,51
Sapendo che:
Σ xi2 = 110; Σ xi
4 = 1958; Σ yi = 136,83;
Σ yi2 = 2893,14; Σ xi yi =207,43;
Σ xi2 yi = 2183,67; Σ xi = Σ xi
3 = 0.
Stimare i parametri del modello:
Y = a + b X + cX2.
Inoltre, sapendo che Σ y’i= 2869,57
determinare il valore di R2.G. Latorre 43
Modello: a + b X + C X2 = Y
Sistema Normale:
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
yxxcxbxa
yxxcxbxa
yxcxba
1
2
1
4
1
3
1
2
11
3
1
2
1
11
2
1
n
18.218419580110
48.20701100
88.136110011
cba
cba
cba
da cui: b’ = 207,48/110 =1,89G. Latorre 44
Inoltre:
18.21841958110
88.13611011
ca
ca
18.2184195811088.13611
1110
11088.13611
1
cc
ca
18.2184195811008.1368
11088.13611
1
cc
ca
95.0
89.1
94.2
95.0
95.011088.13611
1
c
b
a
c
a
G. Latorre 45
Modello Stimato:
Y’ = 2,94 + 1,89 X + 0,95 X2
inoltre:
98.031.108
03.106
V(Y)
)YV(R
03.10611
88.136
11
2869.57=)YV(
31.10811
88.136
11
2894.69=V(Y)
2
2
2
G. Latorre 46
Esercitazione
3. In un’indagine epidemiologica vengono rilevati l’Età (X) e
la Pressione Arteriosa (Y) di 300 pazienti. I risultati della
rilevazione sono riassunti nella seguente tabella a doppia
entrata: Y\X 59 - 62 63 - 66 67 - 70 71 - 74 75 - 78
90 - 109 2 1 0 0 0
110 - 129 7 8 4 2 0
130 - 149 5 15 22 7 1
150 - 169 2 12 63 19 5
170 - 189 0 7 28 32 12
190 - 209 0 2 10 20 7
210 - 229 0 0 1 4 2
Indicando con xi , yj e nij , rispettivamente, i valori centrali
delle classi di X, di Y e le frequenze congiunte della
distribuzione bivariata (X , Y), si sa che: Σ xi ni. = 20.794;
Σ yj n.j = 49.340; Σ xi2 ni. =1.445.919; Σ yj
2 n.j = 8.306.935;
Σ Σ xi yj nij =3.438.773. Stimare il modello Y = a + b X e
valutarne la bontà dell’adattamento (fitness) mediante R2..G. Latorre 47
Riscriviamo, anche se non necessario, la tabella completata dei totali e dei
valori centrali delle classi:60,5 64,5 68,5 72,5 76,5
Y\X 59 - 62 63 - 66 67 - 70 71 - 74 75 - 78 Totali
99,5 90 - 109 2 1 0 0 0 3
119,5 110 - 129 7 8 4 2 0 21
139,5 130 - 149 5 15 22 7 1 50
159,5 150 - 169 2 12 63 19 5 101
179,5 170 - 189 0 7 28 32 12 79
199,5 190 - 209 0 2 10 20 7 39
219,5 210 - 229 0 0 1 4 2 7
Totali 16 45 128 84 27 300
15.39=69.31-300
1445919=
=M(X)-
n
nx
=V(X)
164.63=300
49390=
n
ny
=M(Y)
69.31=300
20794=
n
nx
=M(X)
2
2
r
=1i
s
j=1
ij
s
j=1
ij
r
=1i
2
i
r
=1i
s
j=1
ij
r
=1i
ij
s
j=1
j
r
=1i
s
j=1
ij
s
j=1
ij
r
=1i
i
291.5=164.6369.31-300
3438773=
=M(X)M(Y)-
n
nyx
=Y)Cov(X,
585.65=164.63-300
8306935=
=M(Y)-
n
ny
=V(Y)
r
=1i
s
j=1
ij
r
=1i
s
j=1
ijii
2
2
r
=1i
s
j=1
ij
s
j=1
ij
r
=1i
2
i
G. Latorre 48
da cui otteniamo:
ed il modello stimato:
Y’ = - 66,35 + 3,33 X
r(X,Y) =Cov(X,Y)
V(X)V(Y)=
51,29
15.39×585.65= 0.54
¢b =Cov(X,Y)
V(X)=
52.07
15.39= 3.33
¢a = M(Y) - ¢bM(X) = 164.63- 3.33×69.31= -66.35
R2 = r(X,Y)2 = 0.29
G. Latorre 49
Per comodità riportiamo la distribuzione marginale delle Y
osservate e, utilizzando il modello stimato: Y’=-66,35+3,33 X,
otteniamo anche la distribuzione delle Y’:
Si noti che la distribuzione delle Y’ ha un numero di modalità diverse
uguale a quello delle X , cioè 5, mentre la distribuzione delle Y ne ha ben
7, cioè tante quante sono le classi di Y. Dai risultati precedenti otteniamo
anche: R2 = V(Y’) / V(Y) = 0,29 ; V(e) = V(Y) - V(Y’) = 414,73 .
Y fr(Y) Y*fr(Y) Y2*fr(Y) Y' fr.(Y') Y'*fr.(Y') Y’2*fr.(Y')
99,50 3,00 298,50 29.700,75 135,26 16,00 2.164,22 292.741,03
119,50 21,00 2.509,50 299.885,25 148,59 45,00 6.686,70 993.600,32
139,50 50,00 6.975,00 973.012,50 161,92 128,00 20.726,14 3.356.038,98
159,50 101,00 16.109,50 2.569.465,25 175,25 84,00 14.721,21 2.579.930,32
179,50 79,00 14.180,50 2.545.399,75 188,58 27,00 5.091,72 960.206,73
199,50 39,00 7.780,50 1.552.209,75 Tot. 300,00 49.390,00 8.182.517,37
219,50 7,00 1.536,50 337.261,75 M(Y')=M(Y)= 164,63 V(Y')= 170,92
Tot. 300,00 49.390,00 8.306.935,00 V(Y)= 585,65 V(Y')=b’2*V(x)= 170,92
G. Latorre 50
Analisi dei ResiduiPer mettere in risalto le peculiarità dell’analisi dei residui nel
caso di dati forniti come distribuzione bivariata si considerino
le seguenti tabelle:
I^ Tabella: riporta le frequenze congiunte nij della tabella
originaria con le intestazioni riferite alle Y osservate (valori
centrali delle classi di Y) e le Y’ stimate (ottenute dal modello
stimato in corrispondenza dei valori centrali delle classi di X).
Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali
99,50 2 1 0 0 0 3
119,50 7 8 4 2 0 21
139,50 5 15 22 7 1 50
159,50 2 12 63 19 5 101
179,50 0 7 28 32 12 79
199,50 0 2 10 20 7 39
219,50 0 0 1 4 2 7
Totali 16 45 128 84 27 300G. Latorre 51
II^ Tabella: L’interno della tabella riportata i valori dei residui eij
= yj-y’i .
III^ Tabella: L’interno della tabella riporta i valori di eij * nij .
Nota: il totale generale dovrebbe essere 0, il fatto che sia pari ad 0,87 è da imputarsi
agli arrotondamenti nei calcoli.
Y\Y' 135,26 148,59 161,92 175,25 188,58
99,50 -35,76 -49,09 -62,42 -75,75 -89,08
119,50 -15,76 -29,09 -42,42 -55,75 -69,08
139,50 4,24 -9,09 -22,42 -35,75 -49,08
159,50 24,24 10,91 -2,42 -15,75 -29,08
179,50 44,24 30,91 17,58 4,25 -9,08
199,50 64,24 50,91 37,58 24,25 10,92
219,50 84,24 70,91 57,58 44,25 30,92
Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali
99,50 -71,52 -49,09 0,00 0,00 0,00 -120,61
119,50 -110,32 -232,72 -169,68 -111,50 0,00 -624,22
139,50 21,20 -136,35 -493,24 -250,25 -49,08 -907,72
159,50 48,48 130,92 -152,46 -299,25 -145,40 -417,71
179,50 0,00 216,37 492,24 136,00 -108,96 735,65
199,50 0,00 101,82 375,80 485,00 76,44 1.039,06
219,50 0,00 0,00 57,58 177,00 61,84 296,42
Totali -112,16 30,95 110,24 137,00 -165,16 0,87
G. Latorre 52
Y\Y' 135,26 148,59 161,92 175,25 188,58 Totali
99,50 2.558 2.410 0 0 0 4.967
119,50 1.739 6.770 7.198 6.216 0 21.922
139,50 90 1.239 11.058 8.946 2.409 23.743
159,50 1.175 1.428 369 4.713 4.228 11.914
179,50 0 6.688 8.654 578 989 16.909
199,50 0 5.184 14.123 11.761 835 31.902
219,50 0 0 3.315 7.832 1.912 13.060
Totali 5.561 23.719 44.717 40.047 10.373 124.418
IV^ Tabella: L’interno della tabella riporta i valori di e2ij * nij ,
pertanto il totale generale diviso per n ci darà:
che coincide con il risultato ottenuto in precedenza per altra
via (V(e) = V(Y) - V(Y’) = 414,73).
G. Latorre 53
-80
-60
-40
-20
0
20
40
60
80
0,00 20,00 40,00 60,00 80,00 100,00 120,00 140,00 160,00 180,00 200,00
ei
y’i
G. Latorre 54
Esercitazione
4. Si considerino i seguenti dati:
Y X1 X2
1 1 1
1 1 1
2 1 -1
1 1 -1
1 -1 1
0 -1 1
1 -1 -1
1 -1 -1
Si stimino i parametri del modello:
Y = β0 + β1 X1 + β2 X2
e se ne verifichi la bontà dell’adattamento con R2. G. Latorre 55
Sistema normale:
;8;2 ;2 ;8
;0 ;8 ;0 ;0 ;8
1
2
2
1
21
1
1
2
1
1
21
11
2
1
1
1
22
1
2
21
1
210
1
2
1
12
1
211
1
2
10
1
1
1
2
1
21
1
10
n
i
i
n
i
ii
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
i
n
i
ii
n
i
ii
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
xyxyxx
xxyxxn
yxxxxx
yxxxxx
yxxn
G. Latorre 56
25.0
25.0
1
2800
2080
800
2
1
0
210
210
210
n
da cui otteniamo il modello
stimato:
Y’ = 1 + 0,25 X1 – 0,25 X2
da cui otteniamo le yi’:
Y'
1
1
1,5
1,5
0,5
0,5
1
1
da cui otteniamo:
5.0250.0
125.0R
125.08
1
8
1=)YV(
250.08
1
8
1=V(Y)
;9 ;8
2
2
11
2
2
11
2
1
2
1
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
yy
yy
yy
G. Latorre 57
x lg=X dove
Xb+a=y lgxb+a=3)y
alg=A
ylg=Y dove xb+A=Y
xb+a lg=y lg ea=2)y
x
1=X
y
1=Y
dove Xb-a=Y
x
1b-a=
x
b-xa=
y
1
b-xa
x=y 1)
e
e
bx
Altre Relazioni
Non – Lineari
Linearizzabili:
1) iperbole,
2) esponenziale;
3) logaritmica.G. Latorre 58
2
2
2
x-
x-
x-
x
b
x=X dove Xc+xb+a=y
xc+xb+a=6)y
e=X
y
1=Y
dove Xb+a=Y
eb+a=y
1
eb+a
1=5)y
x
1=X
a lg=A
y lg=Y
dove Xb+A=Y
x
1b+a lg=y lg ea=4)y
2
Altre Relazioni
Non – Lineari
Linearizzabili:
4) esponenziale-
iperbole;
5) esponenziale-inversa;
6) parabola.G. Latorre 62
x lg=X
a lg=A
y lg=Y
dove Xb+xc+A=Y
lgxb+xc+a lg=y lg exa=7)y xcb
Altre Relazioni
Non – Lineari
Linearizzabili:
7) esponenziale 2.
G. Latorre 66
Altri esempi di relazioni linearizzabili
Su n unità statistiche sono state rilevate le variabili esplicative
X1 e X2 e la variabile risposta Y. Il diagramma scatter di Y in
funzione di X1 suggerirebbe, tra X1 e Y, una relazione
logaritmica del tipo:
Y = a + b lg X1 (funzione logaritmica);
il diagramma scatter di Y in funzione di X2 suggerirebbe, tra
X2 e Y, una relazione inversa del tipo:
Y = c + d (1/X2) (funzione iperbolica).
Per catturare nel modello entrambe le tendenze sarebbe,
quindi, ipotizzabile la relazione:
Y = k + b lg X1 + d (1/X2),
i cui parametri possono essere stimati considerando il modello:
Y=k+bW+cZ, dove W=lg X1 e Z=1/X2.G. Latorre 68
A differenza della regressione polinomiale la metodologia
non-lineare “linearizzabile” non può essere sempre estesa al
caso multivariato. L’estensione è possibile quando le relazioni
Y con una particolare Xj richiede la trasformazione della sola
Xj medesima e non anche della Y.
Pertanto sono linearizzabili, in generale, le seguenti fattispecie
di relazioni:
Y = a0 + a1 f1(X1) +….+ ak fk(Xk)
oppure, più in generale:
g(Y) = a0 + a1 f1(X1) +….+ ak fk(Xk) .
Invece, se ad esempio, dall’esame grafico (mediante un
diagramma di dispersione) risulta lineare la relazione tra Y ed
X1 del tipo: g1(Y) = a1 + f1(X1), ed anche la relazione tra Y ed
X2, del tipo: g2(Y) = a2 + f2(X2) allora non c’è modo per
riassumere le due leggi in un’unica relazione tra X1, X2 ed Y.G. Latorre 69
Esempio 2: La funzione della Produzione Cobb – Douglas
Q = a Kb Lg
dove:
Q = quantità prodotta
K = capitale
L = lavoro
e a, b, g sono i parametri del modello che devono essere
stimati.
Il modello linearizzato è dato da:
lg Q = lg a + b lg K + g lg L
da cui:
Q’ = a’ + b K’ + g L’
con: Q’ = lg Q, a’ = lg a, K’ = lg K e L’ = lg L.G. Latorre 70
X Y X Y X Y
1,317 2,281 7,173 8,345 13,090 10,291
1,353 3,062 7,633 8,865 13,597 10,370
1,867 3,378 7,531 7,702 13,636 9,885
2,533 5,255 8,561 8,402 13,855 9,096
2,560 4,165 8,361 8,923 14,803 10,080
3,026 4,285 8,875 9,266 14,531 9,881
2,834 4,698 8,718 9,107 15,070 10,054
3,787 4,967 9,019 8,559 15,655 9,657
3,817 5,827 9,786 9,282 15,389 10,843
3,880 7,021 10,250 8,651 16,223 10,312
4,463 6,742 10,264 9,373 16,302 10,967
4,328 6,393 10,774 8,524 16,329 10,715
5,239 6,461 10,511 8,374 17,293 9,735
5,563 7,640 10,811 8,782 17,019 10,563
5,835 7,033 11,178 8,457 17,425 9,994
6,134 6,594 11,586 10,090 18,106 9,888
6,435 7,091 12,456 9,808 18,416 10,374
6,042 8,072 12,345 10,149 18,219 8,768
6,608 8,091 12,720 10,077 18,749 10,199
7,276 7,650 12,638 9,376 18,719 10,361
EsercitazioneI dati:
G. Latorre 71
0,000
2,000
4,000
6,000
8,000
10,000
12,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000
X
Il diagramma di dispersione:
Proviamo, in prima approssimazione, un modello del tipo Y = a + b X .G. Latorre 72
Risultati dell’analisi:
Modello Stimato: Y = 4,66 + 0,36 X
0,000
2,000
4,000
6,000
8,000
10,000
12,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000
M(X)=10,142
V(X)=26,644
M(Y)=8,314
V(Y)=4,458
Cov(X,Y)=9,599
b'=0,360
a'=4,660
r(X,Y)=0,881
R2=0,776
G. Latorre 73
-3,500
-3,000
-2,500
-2,000
-1,500
-1,000
-0,500
0,000
0,500
1,000
1,500
2,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000
e
Analisi dei Residui
-3,500
-3,000
-2,500
-2,000
-1,500
-1,000
-0,500
0,000
0,500
1,000
1,500
2,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000
Y’
e
X
I residui sono “informativi” e suggeriscono di inserire nel
modello una componente logaritmica.G. Latorre 74
Proviamo, allora, un modello di tipo Y = a + b lg X . Per poter
utilizzare la metodologia di stima finora utilizzata è necessario
ricondurci ad un modello strettamente lineare, tale operazione
si realizza facilmente considerando la “nuova variabile”
X1 = lg X che ci consente di riscrivere il modello in termini di
X1 : Y = a + b X1 . Ora possiamo stimare i parametri incogniti
nel modo usuale:
M(X1 )=2,13; V(X1)=0,46; Cov(X1,Y)=1,37;
b’’=Cov(X1,Y)/V(X1)=3,00; a’’=M(Y)-b’’M(X1)
Modello Stimato: Y’’ = 1,91 + 3 lg X
R2=r(X1,Y)2=Cov(X1,Y)2/[V(X1) V(Y)]=0,92.
Avremo anche: V(Y’’)=b’’2V(X1)=4,12 e R2=V(Y’’)/V(Y)=0,92.
Il valore molto elevato di R2 ci dice che il modello ha un
“fitting” molto buono, ciò nonostante effettuiamo l’analisi dei
residui.G. Latorre 75
0,000
2,000
4,000
6,000
8,000
10,000
12,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000
Diagramma Scatter dei dati originari
Y
XG. Latorre 76
0,000
2,000
4,000
6,000
8,000
10,000
12,000
0,000 2,000 4,000 6,000 8,000 10,000 12,000 14,000 16,000 18,000 20,000
Diagramma Scatter dei dati originari
ed in sovrimpressione i punti rappresentativi del
modello stimato:
Y’’= 1,91 + 3 lg X
X
Y
G. Latorre 77
Analisi dei Residui
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
0 5 10 15 20
e vs X
-2,0
-1,5
-1,0
-0,5
0,0
0,5
1,0
1,5
0 2 4 6 8 10 12
e vs Y''
I residui sono totalmente “non informativi”, pertanto il modello non
risulta essere migliorabile. Si noti, inoltre che M(e)=0 e V(e)=0,34,
risulta, quindi verificato che: V(Y) = V(Y’’) + V(e).G. Latorre 78
X Y X Y X Y
0,800 3,968 1,613 0,991 2,192 0,798
0,825 3,754 1,637 1,409 2,250 0,971
0,884 2,636 1,676 1,334 2,268 1,190
0,952 1,889 1,726 1,182 2,297 1,281
1,006 1,791 1,740 1,259 2,320 1,121
1,030 1,687 1,757 0,885 2,353 0,960
1,095 1,764 1,770 1,299 2,416 0,981
1,132 1,285 1,812 1,384 2,430 0,673
1,153 1,389 1,851 1,088 2,476 0,878
1,173 1,431 1,862 1,230 2,497 0,827
1,229 1,157 1,884 1,248 2,522 0,841
1,282 1,132 1,906 1,059 2,566 0,841
1,342 1,283 1,948 0,995 2,584 0,739
1,373 1,644 2,005 0,716 2,639 1,157
1,406 1,157 2,042 1,210 2,704 0,972
1,436 1,554 2,052 1,278 2,743 0,933
1,449 1,558 2,080 1,287 2,806 1,151
1,467 0,966 2,140 0,933 2,830 0,719
1,526 1,431 2,163 1,194 2,886 0,822
1,590 1,247 2,175 1,242 2,932 0,948
EsercitazioneI dati:
G. Latorre 79
Il diagramma di dispersione:
0,000
0,500
1,000
1,500
2,000
2,500
3,000
3,500
4,000
4,500
0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500
Y vs X
L’andamento che è suggerito dal diagramma è di tipo
iperbolico, cioè del tipo: Y = X / (c X + d) .G. Latorre 80
Al fine di stimare i parametri ignoti della precedente relazione
dobbiamo considerare la seguente trasformazione delle
variabili che la rende strettamente lineare: X1=1/X e Y1=1/Y da
cui: Y1 = a + b X1 , con a = c e
b = d .
Risultati dell’analisi
Modello Stimato:Y’1= 1,41- 0,89 X1 ,
da cui:Y’ = X / ( - 0,89 + 1,41 X ).
Bontà dell’adattamento (fitting): R2 = r(X1,Y1)2 = 0,61 ,
(avremo anche: V(Y’)=b’2V(X1)=0,05 e R2=V(Y’)/V(Y)=0,61).
MX1)= 0,598
V(X1)= 0,050403955
M(Y1)= 0,880
V(Y1)= 0,065566523
Cov(X1,Y1)= -0,044766051
r(X1,Y1)= -0,778709371
b'= -0,8881456
a'= 1,410697459
R2=r(X1,Y1)2= 0,606388284
V(Y1')=b’2V(X1)= 0,039758771
R2=V(Y’1)/V(Y1)= 0,606388284
G. Latorre 81
0,000
0,500
1,000
1,500
2,000
2,500
3,000
3,500
4,000
4,500
0,000 0,500 1,000 1,500 2,000 2,500 3,000 3,500
Y vs X
Diagramma Scatter dei dati originari
G. Latorre 82