1 introduzione alla regressione lineare e alla correlazione
TRANSCRIPT
1
Introduzione allaRegressione Lineare
e allaCorrelazione
2
Supponiamo di avere misurato la statura di 10 bambini di età compresa tra 6 e 12 anni e di riportare i dati su una tabella:
soggetto età statura (anni) (centimetri)
X Y1 6 1152 6 1203 7 1224 8 1305 8 1286 9 1347 10 1368 10 1409 11 147
10 12 151
esempio 1
3
diagrammi di dispersionediagrammi di dispersione
• un diagramma di dispersione è una rappresentazione grafica in cui si rappresentano i valori di due variabili
• i valori della variabile indipen-dente (X) vengono rappresentati sull’asse orizzontale (asse delle ascisse)
• i valori della variabile dipendente (Y) vengono rappresentati sull’asse verticale (asse delle ordinate)
• ciascuna coppia di valori (X,Y) viene rappresentata sul grafico con un punto
4
110
115
120
125
130
135
140
145
150
155
5 6 7 8 9 10 11 12 13
Età (anni)
Altezza (cm)
esempio 1(2)
Riportando i valori su un diagramma di dispersione otterremo il seguente grafico:
5
y = 5,5879x + 83,685R2 = 0,9735
110
115
120
125
130
135
140
145
150
155
5 6 7 8 9 10 11 12 13
Età (anni)
Altezza (cm)
esempio 1(3)
Si evidenzia una netta tendenza, tale per cui al crescere dell’età, si registra un aumento dell’altezza:
6
esempio 2
Fonte: www.venganza.org
7
tipi di relazionitipi di relazioni
8
• il coefficiente di correlazione (li-neare) misura l’intensità della rela-zione (lineare) tra due variabili X e Y;
• i valori che esso assume sono compresi tra –1 e +1;
• quando vale +1 significa perfetta correlazione positiva: i valori della Y si dispongono esattamente su una retta con pendenza positiva;
• quando vale –1 significa perfetta correlazione negativa: i valori della Y si dispongono esattamente su una retta con pendenza negativa
coefficiente di correlazionecoefficiente di correlazione
9
da un punto di vista matematico, il coefficiente di correlazione (Bravais-Pearson) è definito come
coefficiente di correlazionecoefficiente di correlazione
YX
XY
ssr
cov=
in cui:
è la covarianza tra X e Y;
è la deviazione standard di X
è la deviazione standard di Y
XYcov
Xs
Ys
10
• la covarianza esprime l’intensità con cui due variabili “variano insieme”
• matematicamente si esprime con
covarianzacovarianza
€
covXY =X − X ( ) Y −Y ( )∑
Nin cui:
è la media di X;
è la media di Y;
è la numerosità del campione
XYN
11
• la covarianza si può calcolare più comodamente con la formula semplificata:
covarianzacovarianza
€
covXY =XY −
X Y∑∑N
∑N
in cui:
è la somma dei prodotti XY;
è la somma dei valori di X;
è la somma dei valori di Y
€
XY∑
€
X∑∑Y
12
Dalla tabella dell’esempio 1 ricaviamo i seguenti valori:
esempio 1(3)
11723=∑XY
87=∑X
1323=∑Y
Con questi possiamo calcolare la covarianza:
87 132311723
10cov 21.2910XY
⋅−= =
13
Ora calcoliamo le deviazioni standard:
esempio 1(4)
87=∑X
1323=∑Y
7952 =∑X
( )287
79510 2,057
10xs−
= =
1762552=∑Y
( )21323
17625510 11,65
10ys−
= =
14
A questo punto possiamo calcolare il coefficiente di correlazione:
esempio 1(5)
cov
21.290.973
2.05 11.65
XY
X Y
rs s
= =
= =⋅
abbiamo ottenuto un’alta correlazione positiva.
15
10 soggetti di età superiore ai 60 anni sono stati sottoposti ad un test di abilità motorie con i seguenti risultati:
esempio 2
soggetto età abilità (anni) motorie
X Y1 60 40
2 65 253 72 164 80 185 67 356 75 147 77 108 79 159 81 1210 77 18
16
Si calcoli la correlazione tra età e punteggio di abilità motorie.
esempio 2
soggetto età abilità (anni) motorie
X Y1 60 40
2 65 253 72 164 80 185 67 356 75 147 77 108 79 159 81 1210 77 18
17
esempio 2
733=∑X 541832 =∑X
203=∑Y 50192 =∑Y
14325=∑ YX
prima calcoliamo le somme:
poi, da questi valori possiamo ricavare le deviazioni standard e la covarianza:
10,7=Xs 99,9=Ys66,61cov −=XY
infine otteniamo la correlazione:
87,0cov
−==YX
XY
ssr
18
esempio 2
Riportando i valori su un diagramma di dispersione otteniamo:
19
Si calcoli il coefficiente di correlazione tra le due variabili riportate in tabella.
esercizio
soggetto X Y1 1 7
2 3 43 5 134 7 165 9 106 11 227 13 8
20
esercizio
49=∑X 4552 =∑X
80=∑Y 11382 =∑Y
632=∑ YX
prima calcoliamo le somme:
poi, le deviazioni standard e la covarianza:
32,4=Xs 11,6=Ys12cov =XY
infine otteniamo la correlazione:
45,0cov
==YX
XY
ssr
21
ATTENZIONE ATTENZIONE
Il coefficiente r misura l’intensità della relazione lineare;
se r è basso (vicino a zero) vuol dire che non c’è relazione lineare ma potrebbe esserci una relazione di altro genere.
22
esempio 3
In questo caso, anche se r = -0,2, risulta evidente che esista una relazione tra le due variabili.