statistica descrittiva

73
Statistica Statistica descrittiva descrittiva Testi e figure liberamente tratti da Testi e figure liberamente tratti da dispense di dispense di Prof. Elisa Francini Prof. Elisa Francini (Università di Firenze) (Università di Firenze) Prof. Alberto Morabito Prof. Alberto Morabito (Università di Milano) (Università di Milano)

Upload: tiger-nolan

Post on 30-Dec-2015

67 views

Category:

Documents


2 download

DESCRIPTION

Statistica descrittiva. Testi e figure liberamente tratti da dispense di Prof. Elisa Francini (Università di Firenze) Prof. Alberto Morabito (Università di Milano). - PowerPoint PPT Presentation

TRANSCRIPT

Statistica descrittivaStatistica descrittiva

Testi e figure liberamente tratti da dispense diTesti e figure liberamente tratti da dispense diProf. Elisa Francini Prof. Elisa Francini (Università di Firenze)(Università di Firenze)

Prof. Alberto Morabito Prof. Alberto Morabito (Università di Milano)(Università di Milano)

La La StatisticaStatistica si occupa dell’analisi si occupa dell’analisi quantitativa dei quantitativa dei fenomeni collettivifenomeni collettivi

(cioè fenomeni composti da un (cioè fenomeni composti da un grande numero di unità elementari).grande numero di unità elementari).

Esempi di fenomeni collettivi:Esempi di fenomeni collettivi: L’insieme degli studenti di un corso L’insieme degli studenti di un corso

universitario. universitario. Quali sono le loro caratteristiche?Quali sono le loro caratteristiche?

L’insieme dei potenziali pazienti che soffrono di L’insieme dei potenziali pazienti che soffrono di ipertensione. ipertensione.

Il farmaco A è più efficace del farmaco B?Il farmaco A è più efficace del farmaco B?

Gli scopi della statistica sonoGli scopi della statistica sono

DescrivereDescrivere GeneralizzareGeneralizzare PrevederePrevedere

La statistica è l’insieme dei metodi, fondati sul calcolo delle probabilità, che

consentono, da un lato la corretta programmazione di un esperimento o di una osservazione pianificata e, dall’altro,

l’elaborazione dei dati così raccolti.

La statistica moderna può essere La statistica moderna può essere divisa in tre parti:divisa in tre parti:

Statistica descrittivaStatistica descrittiva

Statistica matematicaStatistica matematica

Statistica inferenzialeStatistica inferenziale

La Statistica descrittivaLa Statistica descrittiva

Lo scopo della statistica descrittiva è Lo scopo della statistica descrittiva è quello di quello di descriveredescrivere efficacemente efficacemente una grande massa di dati mediante una grande massa di dati mediante tabelle e grafici e di tabelle e grafici e di sintetizzaresintetizzare le le informazioni in indici matematici in informazioni in indici matematici in modo da individuare le caratteristiche modo da individuare le caratteristiche fondamentali del campionefondamentali del campione

La Statistica matematicaLa Statistica matematica

La Statistica matematica si avvale del La Statistica matematica si avvale del Calcolo delle ProbabilitàCalcolo delle Probabilità e presenta le e presenta le distribuzioni teoriche per misure discrete distribuzioni teoriche per misure discrete e continuee continue

La Statistica inferenzialeLa Statistica inferenziale

La Statistica inferenziale si occupa di La Statistica inferenziale si occupa di dedurrededurre leggi generali disponendo di un leggi generali disponendo di un campione variabile. In pratica è l’insieme campione variabile. In pratica è l’insieme dei metodi che consentono di pervenire a dei metodi che consentono di pervenire a delle conclusioni che vanno al di là della delle conclusioni che vanno al di là della stretta evidenza empiricastretta evidenza empirica

Il linguaggio della Statistica Il linguaggio della Statistica descrittivadescrittiva

Popolazione statisticaPopolazione statistica: è l’insieme di tutti : è l’insieme di tutti i possibili oggetti dell’indagine statisticai possibili oggetti dell’indagine statistica

IndividuoIndividuo (o (o unità statisticaunità statistica): è un ): è un qualsiasi elemento della popolazionequalsiasi elemento della popolazione

VariabileVariabile: è una qualsiasi caratteristica di : è una qualsiasi caratteristica di ogni individuo della popolazione, soggetta ogni individuo della popolazione, soggetta a variazioni di valore da un individuo a variazioni di valore da un individuo all’altroall’altro

Indagine sulle domande di adozione nel Indagine sulle domande di adozione nel distretto della Corte d’Appello di Torino distretto della Corte d’Appello di Torino

nel 2003 (dati Istat)nel 2003 (dati Istat)

Tipo di indagineTipo di indagine: censimento : censimento PopolazionePopolazione: coppie che hanno presentato : coppie che hanno presentato

domanda di adozione nel distretto della domanda di adozione nel distretto della Corte d’Appello di Torino nel 2003 Corte d’Appello di Torino nel 2003

IndividuoIndividuo: una qualunque coppia: una qualunque coppia

VariabiliVariabili: domande poste alle coppie : domande poste alle coppie mediante un questionario:mediante un questionario:

Età dei coniugiEtà dei coniugi Titolo di studio dei coniugiTitolo di studio dei coniugi Reddito familiareReddito familiare Tipo di matrimonioTipo di matrimonio Numero di figliNumero di figli Tipo di adozione (nazionale o Tipo di adozione (nazionale o

internazionale)internazionale)

Classificazione delle variabiliClassificazione delle variabili

QualitativeQualitative

QuantitativeQuantitative

nominalinominali

ordinaliordinali

discretediscrete

continuecontinue

quantitativa discreta (?)

qualitativa ordinalequantitativa continuaqualitativa nominalequantitativa discretaqualitativa nominale

Età dei coniugiTitolo di studio dei coniugiReddito familiareTipo di matrimonioNumero di figliTipo di adozione

n. coppian. coppia 11 22 33 44 55 66

età maritoetà marito 3535 4242 3838 5151 3232 ……

età moglieetà moglie 3434 3636 3939 4545 3030 ……Tit.studio Tit.studio

maritomarito LAUREALAUREA DIP. SUP.DIP. SUP.DOTTODOTTORATORATO

LIC.LIC.MEDIAMEDIA DIP. SUP.DIP. SUP. ……

Tit. studio Tit. studio mogliemoglie LAUREALAUREA DIP. SUP.DIP. SUP. LAUREALAUREA DIP. SUP.DIP. SUP. LAUREALAUREA ……

Tipo diTipo dimatrimonimatrimoni

oo RELIG.RELIG. RELIG.RELIG. CIVILECIVILE RELIG.RELIG. RELIG.RELIG. ……

RedditoReddito 40.70040.700 35.85035.850 45.22545.225 35.00035.000 30.31530.315 ……

NumeroNumeroFigliFigli 00 11 00 11 00 ……

TipoTipoAdozioneAdozione INTERN.INTERN. INTERN.INTERN. NAZ.NAZ. INTERN.INTERN.

INTERN. E INTERN. E NAZ.NAZ. ……

Coppie che hanno presentato domanda di adozioneCoppie che hanno presentato domanda di adozione alla corte di appello di Torino – anno 2003alla corte di appello di Torino – anno 2003

FREQUENZAFREQUENZA

La La frequenzafrequenza di un valore è il numero di di un valore è il numero di individui della popolazione per i quali la individui della popolazione per i quali la variabile assume tale valorevariabile assume tale valore

TITOLO DI STUDIO DELLA MOGLIETITOLO DI STUDIO DELLA MOGLIE

TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA

Dottorato o specializ.Dottorato o specializ. 1515

LaureaLaurea 139139

Diploma universitario o Diploma universitario o laurea brevelaurea breve 2222

Diploma di scuola media Diploma di scuola media superioresuperiore 249249

Licenza di scuola media Licenza di scuola media inferioreinferiore 113113

Licenza elementareLicenza elementare 33

Non indicatoNon indicato 44

TotaleTotale 545545

TITOLO DI STUDIO DELLA MOGLIETITOLO DI STUDIO DELLA MOGLIE

TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA

Dottorato o specializ.Dottorato o specializ. 1515

LaureaLaurea 139139Diploma universitario Diploma universitario

o laurea breveo laurea breve 2222Diploma di scuola Diploma di scuola

media superioremedia superiore 249249Licenza di scuola Licenza di scuola

media inferioremedia inferiore 113113

Licenza elementareLicenza elementare 33

Non indicatoNon indicato 44

TotaleTotale 545545

TITOLO DI STUDIOTITOLO DI STUDIO FREQUENZAFREQUENZA

Dottorato o specializ.Dottorato o specializ. 1616

LaureaLaurea 6565Diploma universitario Diploma universitario

o laurea breveo laurea breve 1818Diploma di scuola Diploma di scuola media superioremedia superiore 160160Licenza di scuola Licenza di scuola media inferioremedia inferiore 7272

Licenza elementareLicenza elementare 44

Non indicatoNon indicato 22

TotaleTotale 337337

TORINO TORINO FIRENZEFIRENZE

FREQUENZA RELATIVAFREQUENZA RELATIVA

La La frequenza relativafrequenza relativa è il rapporto tra la è il rapporto tra la frequenza del valore e il numero di frequenza del valore e il numero di individui della popolazione:individui della popolazione:

freq. relat. = freq. ass. / totale individuifreq. relat. = freq. ass. / totale individui

La frequenza percentuale si ottiene normalizzando a 100 il totale della popolazione:

freq. percentuale = freq. relativa * 100

FREQUENZE RELATIVEFREQUENZE RELATIVETORINO FIRENZETORINO FIRENZE

TITOLO TITOLO DI DI STUDIOSTUDIO

FREQUENZAFREQUENZARELATIVARELATIVA

FREQUENZA FREQUENZA PERCENTUAPERCENTUALELE

Dott. o Dott. o spec.spec. 0,02750,0275 2,75%2,75%

LaureaLaurea 0,25500,2550 25,50%25,50%Diploma Diploma univers.univers. 0,04040,0404 4,04%4,04%Diploma Diploma superioresuperiore 0,45690,4569 45,69%45,69%LicenzaLicenza mediamedia 0,20730,2073 20,73%20,73%Licenza Licenza elem.elem. 0,00550,0055 0,55%0,55%Non Non indicatoindicato 0,00730,0073 0,73%0,73%

TotaleTotale 11 100%100%

TITOLO TITOLO DI DI STUDIOSTUDIO

FREQUENZAFREQUENZARELATIVARELATIVA

FREQUENZA FREQUENZA PERCENTUAPERCENTUALELE

Dott. o Dott. o spec.spec. 0,04750,0475 4,75%4,75%

LaureaLaurea 0,19290,1929 19,29%19,29%Diploma Diploma univers.univers. 0,05340,0534 5,34%5,34%Diploma Diploma superioresuperiore 0,47480,4748 47,48%47,48%LicenzaLicenza mediamedia 0,21360,2136 21,36%21,36%Licenza Licenza elem.elem. 0,01190,0119 1,19%1,19%Non Non indicatoindicato 0,00590,0059 0,59%0,59%

TotaleTotale 11 100%100%

FREQUENZE CUMULATIVE (TORINO)FREQUENZE CUMULATIVE (TORINO)TITOLO DI TITOLO DI STUDIOSTUDIO FREQFREQ

FREQ. FREQ. RELAT.RELAT.

FREQ. FREQ. PERC.PERC.

FREQ. FREQ. CUMUL.CUMUL.

FREQ. CUM. FREQ. CUM. %%

Dott. o Dott. o spec.spec. 1515 0,02750,0275 2,75%2,75% 0,0275 0,0275 2,75%2,75%

LaureaLaurea 139139 0,25500,2550 25,50%25,50% 0,28250,2825 28,25%28,25%Diploma Diploma univers.univers. 2222 0,04040,0404 4,04%4,04% 0,32290,3229 32,29%32,29%Diploma Diploma superioresuperiore 249249 0,45690,4569 45,69%45,69% 0,77980,7798 77,98%77,98%LicenzaLicenza mediamedia 113113 0,20730,2073 20,73%20,73% 0,98710,9871 98,71%98,71%Licenza Licenza elem.elem. 33 0,00550,0055 0,55%0,55% 0,99260,9926 99,26%99,26%Non Non indicatoindicato 44 0,00730,0073 0,73%0,73% 11 100%100%

TotaleTotale 545545 11 100%100%

DistribuzioneDistribuzione

La funzione che ad ogni valore della variabile La funzione che ad ogni valore della variabile associa la sua frequenza ( o frequenza associa la sua frequenza ( o frequenza relativa) si dice relativa) si dice distribuzione della variabiledistribuzione della variabile..

Attenzione: se la variabile è continua o se i possibili valori sono troppi, si possono dividere in classi

Esempio: etEsempio: età del maritoà del maritoCLASSE FREQ. FREQ. REL. FREQ. CUMUL.

Da 26 a 3011 2,02% 2,02% < 30

Da 31 a 35113 20,73% 22,75% < 35

Da 36 a 40214 39,27% 62,02% <40

Da 41 a 45 133 24,40% 86,42% <45

Da 46 a 50 49 8,99% 95,41% <50

Da 51 a 55 21 3,85% 99,27% <55

Non indicato 4 0,73% 100,00%

Totale 545 100,00%

Rappresentazioni graficheRappresentazioni grafiche

0

50

100

150

200

250

Marito

Moglie

Istogramma

Rappresentazioni graficheRappresentazioni grafiche

Dottorato

Laurea

Laurea breve

Diploma superiore

Licenza media

Licenza elementare

Non indicato

Diagramma a torta

INDICATORI SINTETICIINDICATORI SINTETICI

MISURE DI TENDENZA MISURE DI TENDENZA CENTRALECENTRALE

Sono quantità che individuano i valori Sono quantità che individuano i valori intorno ai quali i dati sono raggruppati.intorno ai quali i dati sono raggruppati.

MEDIAMEDIA MODAMODA

MEDIANAMEDIANA

Media Aritmetica SempliceMedia Aritmetica Semplice

Esempio: “Rossi ha la media del 25”Esempio: “Rossi ha la media del 25”

Popolazione: insieme degli esami sostenuti Popolazione: insieme degli esami sostenuti da Rossida Rossi

Variabile: voto ottenuto nell’esameVariabile: voto ottenuto nell’esame

Media aritmetica sempliceMedia aritmetica semplice = =

somma dei voti ottenuti / numero esami somma dei voti ottenuti / numero esami sostenutisostenuti

Media Aritmetica SempliceMedia Aritmetica Semplice

N = numero di individui di una popolazioneN = numero di individui di una popolazione

X = variabile numerica X = variabile numerica

xxi i == valore che la variabile assume sull’i-esimo valore che la variabile assume sull’i-esimo

individuo della popolazioneindividuo della popolazione

La media è definita daLa media è definita da

N

xxxx

NN

N

ii

)...(1 21

1

X

La media aritmetica può essere calcolata anche conoscendo solo la distribuzione della variabile.

Siano xj, per j=1,…, m, i valori che la variabile X può assumere e siano fj le corrispondenti frequenze. Allora

m

jj

j

m

jj

f

f

1

1

x

X

Voti ottenuti negli esamiVoti ottenuti negli esami

25 27 23 25 23 27 2525 27 23 25 23 27 25

M. aritm. =(25+27+23+25+23+27+25)/7=25M. aritm. =(25+27+23+25+23+27+25)/7=25

(23*2+25*3+27*2)/(2+3+2)=25(23*2+25*3+27*2)/(2+3+2)=25

Quando la variabile è suddivisa in classi, ad ogni Quando la variabile è suddivisa in classi, ad ogni classe si associa il valore medio dell’intervalloclasse si associa il valore medio dell’intervallo

CLASSE FREQ. VALORE MEDIO

Da 26 a 30 11 28

Da 31 a 35 113 33

Da 36 a 40 214 38

Da 41 a 45 133 43

Da 46 a 50 49 48

Da 51 a 55 21 53

Totale 541

4,39541

215349481334321438113331128

X

Media armonicaMedia armonica

Questa media è la stima più corretta per distribuzioni di dati dei quali devono essere usati gli inversi

NxxxNH

1...

1111

21

La città A dista 100 km dalla città B; La città A dista 100 km dalla città B; andiamo da A a B con un’auto che andiamo da A a B con un’auto che

viaggia a 50 km/h e torniamo con una viaggia a 50 km/h e torniamo con una che viaggia a 70 km/h.che viaggia a 70 km/h.

Quanto tempo impieghiamo?Quanto tempo impieghiamo?

T = 100/50 + 100/70 = 3,43 hT = 100/50 + 100/70 = 3,43 h

Media aritmetica delle velocità=60 km/hMedia aritmetica delle velocità=60 km/h

t = 2*100/60 = 3,33 ht = 2*100/60 = 3,33 h

Media armonica=2(1/50+1/70)Media armonica=2(1/50+1/70)-1-1=58,33 km/h=58,33 km/h

t = 2*100/58,33 = 3,43 ht = 2*100/58,33 = 3,43 h

Media geometricaMedia geometrica

Questa media è adatta, per esempio a stimare i tassi di interesse o di inflazione.

NNxxxG /1

21 ...

Supponiamo che un certo investimento abbia ottenuto un tasso annuale in quattro anni successivi pari al 5%, 4%, 1% e 2,8%.

Qual è il tasso nei quattro anni?

t = (1,05)*(1,04)*(1,01)*(1,028) = 1,1338

Media aritmetica = 1,032

T = (1,032)4 = 1,1343

Media geometrica = 1,0318

t = (1,0318)4 = 1,1338

Errore comuneErrore comune

T = 1 + 0,032*4 = 1,128T = 1 + 0,032*4 = 1,128

ModaModa

La La moda moda è il è il valore più frequente valore più frequente di una di una distribuzione. Può essere definita anche distribuzione. Può essere definita anche per variabili qualitative.per variabili qualitative.

Una distribuzione può avere due (o più) Una distribuzione può avere due (o più) massimi di frequenze paragonabili. Si massimi di frequenze paragonabili. Si parla allora di distribuzione bimodale.parla allora di distribuzione bimodale.

ModaModa

0

5

10

15

20

25

30

35

40

45

50

1 2 3 4 5 6

MedianaMediana

La La medianamediana è il valore che occupa la è il valore che occupa la posizione centrale in un insieme ordinato posizione centrale in un insieme ordinato di dati. E’ definita solo per variabili ordinali.di dati. E’ definita solo per variabili ordinali.

In una distribuzione o serie di dati, ogni In una distribuzione o serie di dati, ogni valore estratto a caso ha la stessa valore estratto a caso ha la stessa probabilità di essere inferiore o superiore probabilità di essere inferiore o superiore alla mediana.alla mediana.

Come si calcola la medianaCome si calcola la mediana

Si dispongono i dati in ordine crescente o Si dispongono i dati in ordine crescente o decrescente e se ne conta il numero totale decrescente e se ne conta il numero totale nn

Se Se n n è dispari la mediana corrisponde al è dispari la mediana corrisponde al valore che occupa la posizione centrale valore che occupa la posizione centrale (n+1)/2(n+1)/2

Se Se nn è pari la mediana è la media tra i valori è pari la mediana è la media tra i valori nelle posizioni nelle posizioni n/2n/2 e e (n+2)/2(n+2)/2

Confronto media e medianaConfronto media e mediana

Serie:23 45 67 73 96 108 132 156 177

medianaMedia = 97.44

Serie:1 1 1 2 96 560 754 930 1000

Media = 371.67

Centili Centili (percentili, frattili, quartili)(percentili, frattili, quartili)

Misure di dispersioneMisure di dispersioneLa La dispersione o variabilitdispersione o variabilitàà è la seconda importante è la seconda importante caratteristica di una distribuzione di dati. Essa misura caratteristica di una distribuzione di dati. Essa misura la forma più o meno raccolta della distribuzione la forma più o meno raccolta della distribuzione intorno al valore centrale.intorno al valore centrale.

1 3 5 7 9

11

13

15

17

19

21

23

25

27

S1

0

1

2

3

4

5

6

7

8

9

10

media = 15,47

deviazione standard = 6,45 / 4,76

Distribuzioni diverse

Serie1 Serie2

Range (campo di variazione)Range (campo di variazione)

Misura puramente descrittiva e poco informativaMisura puramente descrittiva e poco informativaminmax xxW

Es. Le altezze di 10 esemplari di una pianta sono:10 22 33 44 46 51 67 74 79 85

W=85-10=75Le altezze di altri 10 esemplari sono invece

10 11 11 12 13 14 15 16 20 85W=85-10=75

Varianza di una popolazioneVarianza di una popolazione È la mediaÈ la media dei quadrati degli scarti tra i valori dei quadrati degli scarti tra i valori

della variabile e la media.della variabile e la media.

2

1

1

N

iixN

V X

VSi chiama deviazione standard o scarto quadratico medio

Alcune formuleAlcune formule

Con la distribuzioneCon la distribuzione

m

jjjm

jj

ff

V1

2

1

1Xx

Teorema di KönigTeorema di König

2Xx

m

jjjm

jj

ff

V1

2

1

1

Variabili continueVariabili continue

Frequenza, distribuzione, densità di probabilità.Frequenza, distribuzione, densità di probabilità.

b

a

dxxfbXaP b

a

dxxfbXaP

Disuguaglianza di ČebiševDisuguaglianza di ČebiševUna variabile Una variabile XX con media con media μμ e deviazione standard e deviazione standard σσ verifica la disuguaglianza verifica la disuguaglianza

2k

1kσμXP

2k

1kσμXP

Dimostrazione: Se Dimostrazione: Se YY è una variabile positiva, allora è una variabile positiva, allora

Posto Posto YY = ( = (XX - - μμ))2 2 ed ed aa = = kk 22

σσ 22 risulta risulta

aYP adxxfadxxxfdxxxfYEaa0

aYP adxxfadxxxfdxxxfYEaa0

kσμ-XP σkσkμ-XP σkYEσ 22222222 kσμ-XP σkσkμ-XP σkYEσ 22222222

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di due dadi

00,020,040,060,08

0,10,120,140,160,18

1 2 3 4 5 6 7 8 9 10 11 12 13

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di tre dadi

0

0,02

0,04

0,06

0,08

0,1

0,12

0,14

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di quattro dadi

0

0,02

0,04

0,06

0,08

0,1

0,12

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di cinque dadi

0

0,02

0,04

0,06

0,08

0,1

0,12

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di sei dadi

0

0,02

0,04

0,06

0,08

0,1

1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39

Istogramma della Istogramma della distribuzione di probabilitàdistribuzione di probabilità

Lancio di venti dadi

0

0,01

0,02

0,03

0,04

0,05

0,06

1 8 15 22 29 36 43 50 57 64 71 78 85 92 99 106 113 120 127 134

Funzione GaussianaFunzione Gaussiana

2

2

2

2

1

y

eyf

Distribuzione normaleDistribuzione normale

Teorema centrale del limiteTeorema centrale del limite Se Se XX11, , XX22, … , , … , XXnn sono variabili indipendenti con media sono variabili indipendenti con media μμ e deviazione standard e deviazione standard σσ , allora la , allora la

distribuzione della variabiledistribuzione della variabile

nμXXX n21 nσ

nμXXX n21

Tende alla distribuzione normale standard al crescere di Tende alla distribuzione normale standard al crescere di nn (per (per n n che tende a +che tende a + ). ).

Correlazione lineareCorrelazione lineare

La La mediamedia e la e la deviazione standarddeviazione standard possono possono essere usate per descrivere una singola essere usate per descrivere una singola distribuzione di frequenza ma non ci dicono distribuzione di frequenza ma non ci dicono nulla sulle eventuali relazioni tra due variabili. nulla sulle eventuali relazioni tra due variabili. 

Potremmo, ad esempio, essere interessati a Potremmo, ad esempio, essere interessati a valutare il grado di valutare il grado di associazioneassociazione o o relazionerelazione tra tra l'altezza e il peso “della stessa persona” all’interno l'altezza e il peso “della stessa persona” all’interno di un gruppo di persone, tra il reddito medio pro-di un gruppo di persone, tra il reddito medio pro-capite di un Paese e il tasso di mortalità capite di un Paese e il tasso di mortalità neonatale, tra l’età della madre e il numero di nati neonatale, tra l’età della madre e il numero di nati affetti da sindrome di Down e così via.affetti da sindrome di Down e così via.

Il primo passo da compiere quando si vuole Il primo passo da compiere quando si vuole studiare una relazione tra due variabili consiste studiare una relazione tra due variabili consiste nel rappresentarle graficamente.nel rappresentarle graficamente.

Consideriamo un Consideriamo un insieme di coppieinsieme di coppie ((xxii, , yyii) di valori di ) di valori di uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uricemia, misurati con due metodi (X ed Y) in un gruppo di 10 uomini anziani. uomini anziani.

Si consideri che ciascun prelievo di sangue (uno per Si consideri che ciascun prelievo di sangue (uno per soggetto) è stato ripartito in due aliquote, l'una analizzata con soggetto) è stato ripartito in due aliquote, l'una analizzata con il metodo X e l'altra con il metodo Y.il metodo X e l'altra con il metodo Y.

Metodi soggetti 1 2 3 4 5 6 7 8 9 10 Metodo X 5.8 6.2 6.9 6.1 5.4 6.2 5.9 5.5 6.6 6.4 Metodo Y 6.0 6.3 6.8 6.2 5.4 6.4 6.1 5.4 6.8 6.6

EEsperimento 1sperimento 1

L'esame visivo del L'esame visivo del diagramma di dispersionediagramma di dispersione fornisce una prima idea dell'fornisce una prima idea dell'entitàentità e della e della formaforma della relazione.della relazione.

Ogni Ogni puntopunto rappresenta rappresenta una coppia (una coppia (xxii ,  , yyii), ),

la la linea verticale rossa linea verticale rossa

la media (la media (xx) delle ) delle xxii, e , e

La La linea orizzontale rossa linea orizzontale rossa la media (la media (yy) delle ) delle yyii..

5

6

7

5 6 7

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l)

5

6

7

5 6 7

URICEMIA (mg/dl): Metodo X

UR

ICE

MIA

(m

g/d

l):

Me

tod

o Y

x- / y+

x+ / y+

x+ / y-

x- / y-

Poiché ogni coppia di misure si riferisce ad uno Poiché ogni coppia di misure si riferisce ad uno stesso soggetto, ci si aspetta che, se una misura stesso soggetto, ci si aspetta che, se una misura xxii è è

maggiore della media, anche la corrispondente maggiore della media, anche la corrispondente misura misura yyii sia maggiore della media. sia maggiore della media.Ci aspettiamo che a scarti Ci aspettiamo che a scarti dalla media (dalla media (xxi i - - xx) positivi ) positivi

sull'asse sull'asse xx corrispondano corrispondano scarti dalla media (scarti dalla media (yyi i - - yy) )

positivi sull’asse positivi sull’asse yy, e che a , e che a scarti negativi sull’asse scarti negativi sull’asse xx corrispondano scarti negativi corrispondano scarti negativi sull’asse sull’asse yy.. In effetti, questo In effetti, questo è quanto accade per i punti è quanto accade per i punti ((xxii,,yyii) in figura.) in figura.

Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il Un singolo prelievo di sangue viene suddiviso in 10 provette, ed il contenuto di ogni provetta è ripartito in due aliquote, analizzate contenuto di ogni provetta è ripartito in due aliquote, analizzate l'una con il metodo X e l'altra con il metodo Y. l'una con il metodo X e l'altra con il metodo Y.

Nell'insieme di 10 coppie (Nell'insieme di 10 coppie (xxii ,  , yyii) di misure di ) di misure di un unico valoreun unico valore, le , le fluttuazioni attorno alle medie sono dovute solo ad errori di fluttuazioni attorno alle medie sono dovute solo ad errori di misura. misura.

Metodi provette 1 2 3 4 5 6 7 8 9 10 Metodo_X 5.1 4.9 5.0 4.9 5.0 5.1 5.0 5.3 4.9 4.8 Metodo_Y 4.9 4.6 5.1 4.8 4.8 4.8 4.9 5.0 4.9 5.2

EEsperimento 2sperimento 2

4.5

5

5.5

4.5 5 5.5

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l)

Come previsto i punti del Come previsto i punti del grafico non hanno direzioni grafico non hanno direzioni privilegiate e si dispongono privilegiate e si dispongono più uniformemente attorno più uniformemente attorno al loro baricentro.al loro baricentro.

Cerchiamo adesso un Cerchiamo adesso un metodo per quantificare metodo per quantificare questa disposizione nei questa disposizione nei grafici di dispersione.grafici di dispersione.

Regressione lineareRegressione lineare

L’idea è di scegliere la rettaL’idea è di scegliere la retta

yy = = axax + + b b

che che megliomeglio approssima i punti approssima i punti del grafico considerando la del grafico considerando la

somma degli scarti quadratici somma degli scarti quadratici tra i dati misurati e i datitra i dati misurati e i dati

previstiprevisti. . 0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl) M

eto

do

Y (

mg

/dl)

n

1i

2ii bxay

n

1ba,E

n

1i

2ii bxay

n

1ba,E

Si tratta dunque di minimizzare la funzioneSi tratta dunque di minimizzare la funzione

Il minimo sarà un punto critico della funzione Il minimo sarà un punto critico della funzione EE((aa,,bb).).

Quindi ...Quindi ...

0xbxay2b

E

0bxay2a

E

n

1iiii

n

1iii

n

1iii

n

1iii

xxxx

yyxx

b

xbya

n

1ii

n

1ii

yn

1y

xn

1x

da cui

con

= n var(xi)

= n cov(xi,yi)

xbya

QuindiQuindi

n

1i

2ii bxay

n

1ba,E

n

1i

2ii xxbyy

n

1

yx,cov 2bxxn

byy

n

1 n

1i

2i

2n

1i

2i

xvar

yx,covb

yvar xvar

yx,cov1yvar

xvar

yx,cov yvar

22

Coefficiente di correlazione lineare

yvar xvar

yx,cov

ESEMPIO DI CALCOLO (1)ESEMPIO DI CALCOLO (1)

Schema di calcolo degli indici di Correlazione Lineare per l'Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.esperimento 1.

x 61.0 10 6.1

y 62.0 10 6.2

xyC 2.05

xD 1.98

yD 2.26

r 2.05 1.98 2.26 0.9691

n ix iy ix-x iy-y 2i(x-x) 2

i(y-y) i i(x-x)(y-y) 1 5.8 6.0 -0.3 -0.2 0.09 0.04 +0.06 2 6.2 6.3 +0.1 +0.1 0.01 0.01 +0.01 3 6.9 6.8 +0.8 +0.6 0.64 0.36 +0.48 4 6.1 6.2 0.0 0.0 0.00 0.00 0.00 5 5.4 5.4 -0.7 -0.8 0.49 0.64 +0.56 6 6.2 6.4 +0.1 +0.2 0.01 0.04 +0.02 7 5.9 6.1 -0.2 -0.1 0.04 0.01 +0.02 8 5.5 5.4 -0.6 -0.8 0.36 0.64 +0.48 9 6.6 6.8 +0.5 +0.6 0.25 0.36 +0.30 10 6.4 6.6 +0.3 +0.4 0.09 0.16 +0.12 61.0 62.0 0.0 0.0 1.98 2.26 2.05

n xi yi xi2 yi

2 x yi i 1 5.8 6.0 33.64 36.00 34.80 2 6.2 6.3 38.44 39.69 39.06 3 6.9 6.8 47.61 46.24 46.92 4 6.1 6.2 37.21 38.44 37.82 5 5.4 5.4 29.16 29.16 29.16 6 6.2 6.4 38.44 40.96 39.68 7 5.9 6.1 34.81 37.21 35.99 8 5.5 5.4 30.25 29.16 29.70 9 6.6 6.8 43.56 46.24 44.88 10 6.4 6.6 40.96 43.56 42.24 61.0 62.0 374.08 386.66 380.25

x 61.0 10 6.1 2

x

61.0D 374.08 1.98

10

y 62.0 10 6.2 2

y

62.0D 386.66 2.26

10

xy

61.0 62.0C 380.25 2.05

10

r 2.05 1.98 2.26 0.9691

ESEMPIO DI CALCOLO (2)ESEMPIO DI CALCOLO (2)

Schema di calcolo degli indici di Correlazione Lineare per l'Schema di calcolo degli indici di Correlazione Lineare per l'esperimento 1.esperimento 1.

COME APPARE LA CORRELAZIONE:COME APPARE LA CORRELAZIONE: I dati si riferiscono alla correlazione tra i valori di I dati si riferiscono alla correlazione tra i valori di

uricemia rilevati con due metodi di misura (X e Y) su un uricemia rilevati con due metodi di misura (X e Y) su un campione di 100 soggetti anziani.campione di 100 soggetti anziani.

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l) r = 0.290

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l) r = 0.861

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl)

Me

tod

o Y

(m

g/d

l) r = 0.036

0

2

4

6

8

10

12

14

0 2 4 6 8 10 12 14

Metodo X (mg/dl) M

eto

do

Y (

mg

/dl) r = 0.661

uno studente alla 1° lezione

uno studentealla 2° lezione

uno studente all'ultima lezione

un analista esperto

r = 0.95

X

Y

r = 0.95

X

Y

r = 0.80Y

X

r = 0.80

X

Y

Il coefficiente di correlazione lineare è indice di quanto i punti Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una retta, e non risente dell'inclinazione della si allineano su di una retta, e non risente dell'inclinazione della

retta, salvo che per due importanti eccezioni.retta, salvo che per due importanti eccezioni.

Grafici di dispersione per variabili a correlazione elevata Grafici di dispersione per variabili a correlazione elevata o molto elevata.o molto elevata.

r = 0.99

X

r = 0.95

X

Y

Variabile X

Va

ria

bil

e Y

r = 0.80

X

Y

r = 0.60

X

Y

Grafici di dispersione per variabili a correlazione Grafici di dispersione per variabili a correlazione nulla o lieve.nulla o lieve.

r = 0.40

X

Y

r = 0.20

X

Y

Variabile X

r = 0.10

X

Y

r = 0.00

X

Y

Il coefficiente di correlazione ha il segno del coefficiente Il coefficiente di correlazione ha il segno del coefficiente angolare della migliore retta approssimante.angolare della migliore retta approssimante. Il coefficiente di Il coefficiente di

correlazione è indeterminato soltanto se la varianza di una serie è nullacorrelazione è indeterminato soltanto se la varianza di una serie è nulla ..

r = 0.99

r = 0.99

X

Y

r = 0.99

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.99

X

Y

Il coefficiente di correlazione lineare è indice di quanto i punti si Il coefficiente di correlazione lineare è indice di quanto i punti si allineano su di una allineano su di una rettaretta: vi possono essere associazioni forti non : vi possono essere associazioni forti non

lineari con coefficiente di correlazione quasi nullo.lineari con coefficiente di correlazione quasi nullo.

Variabile X

Va

ria

bil

e Y

r = -0.194

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.084

X

Y

Variabile X

Va

ria

bil

e Y

r = -0.158

Variabile X

Va

ria

bil

e Y

r = -0.041

X

Y