indici dispersione

37
1 Lez. 3 - Gli Indici di VARIABILITA’ - Campo di variazione - Scarto dalla media - Varianza - Scarto quadratico medio - Coefficiente di variazione Elementi di Statistica descrittiva

Upload: beatricecostanzo

Post on 17-Jan-2017

224 views

Category:

Engineering


0 download

TRANSCRIPT

Page 1: Indici dispersione

1

Lez. 3 - Gli Indici di VARIABILITA’

- Campo di variazione- Scarto dalla media- Varianza- Scarto quadratico medio- Coefficiente di variazione

Elementi di Statistica descrittiva

Page 2: Indici dispersione

2

Indici di Variabilità

I valori medi sono indici importanti per la descrizione sintetica di un fenomeno statistico

Hanno però il limite di non darci alcuna informazione sulla distribuzione dei dati

Page 3: Indici dispersione

3

EsempioIn tre differenti prove di matematica 4 studenti

hanno riportato le seguenti valutazioni

1a Prova 2a Prova 3a Prova1° studente 3 5 62° studente 5 7 73° studente 8 6 64° studente 9 7 6

media 6,25 6,25 6,25

In tutte e tre le prove la media è 6,25

ma i dati sono chiaramente distribuiti in modo diverso

Page 4: Indici dispersione

4

Diagramma di distribuzione delle tre prove

Diagramma dispersione dati

0123456789

10

0 1 2 3 4

num prova

valu

tazi

oni

1 studente

2 sttudente

3 studente

4 studente

media

Page 5: Indici dispersione

5

• nel caso della 1a prova e 2a prova sarà opportuno

fare un recupero per alcuni studenti• nel caso della 3a prova l’insegnante può ritenere

che gli obiettivi siano stati raggiunti dalla classe, anche se ad un livello solo sufficiente

Diagramma dispersione dati

0123456789

10

0 1 2 3 4

num prova

valu

tazi

oni

1 studente

2 sttudente

3 studente

4 studente

media

Page 6: Indici dispersione

6

• Campo di variazione (Range)• Scarto medio dalla media• Varianza e scarto quadratico medio• Coefficiente di variazione

In statistica è possibile valutare in modo sintetico la distribuzione dei dati mediante gli

indici di variabilità (o dispersione)

Vedremo i seguenti indici

Page 7: Indici dispersione

7

Campo variazione = x max – x min

Campo di variazione

E’ il più semplice degli indici di variazione:

Si calcola facendo la differenza tra il dato più grande e il dato più piccolo

Rappresenta l’ampiezza dell’intervallo dei dati

Page 8: Indici dispersione

8

Esempio

Consideriamo le valutazioni della prima prova

1a Prova1° studente 32° studente 53° studente 84° studente 9

media 6,25

Xmax = 9;

Xmin = 3 Range = 9 – 3 = 6

Page 9: Indici dispersione

9

Calcoliamo il Range per tutte le tre prove

1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6

media 6,25 6,25 6,25range 6 6 1

Range 1a prova = 6 dati più dispersi, risultati più eterogenei

Range 3a prova = 1 dati più concentrati, risultati più omogenei

Range 2a prova = Range 1a prova = 6 Stessa Distribuzione?

Page 10: Indici dispersione

10

Campo di variazione delle tre prove

0123456789

10

0 1 2 3 4

num prova

valu

tazi

oni

1 studente

2 sttudente

3 studente

4 studente

range

Vediamo graficamente

Page 11: Indici dispersione

11

Osservazioni:1. Il campo di variazione dà informazioni sulla distribuzione dei dati:

• più R è piccolo più i dati sono concentrati; • più R è grande più i dati sono dispersi.

2. R è espresso nella stessa unità di misura dei dati

3. Tuttavia R tiene conto solo dei dati estremi della distribuzione e non di tutti i dati, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova.

ma distribuzione 1a prova Distribuzione 2a prova

Page 12: Indici dispersione

12

Scarto medio dalla media aritmetica

Un altro modo per calcolare la variabilità dei dati (tenendo conto di tutti i dati) consiste nel calcolare la distanza di tutti i dati dalla media e fare la media aritmetica di tali distanze

Scarto medio = Distanza media dei dati dalla media

n

xxxxxx n

.....S medio Scarto

21

m

Page 13: Indici dispersione

13

Esempio

Consideriamo le valutazioni della prima prova

1a Prova1° studente 32° studente 53° studente 84° studente 9

media 6,25

x1 = 3 – 6,25 = 3,25; x2 = 5 – 6,25 = 1,25;

x3 = 8 – 6,25 = 1,75; x4 = 9 – 6,25 = 2,75;

Sm = 3,25 + 1,25 + 1,75 + 2,75 = 2,25 4

Page 14: Indici dispersione

14

Calcoliamo lo Scarto medio per tutte le tre prove

Scarto 1a prova = 2,25 dati più dispersi, risultati più eterogenei

Scarto 3a prova = 0,38 dati più concentrati, risultati più omogenei

Scarto 2a pr. Scarto 1a pr. “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6

media 6,25 6,25 6,25scarto medio 2,25 2,13 0,38

Page 15: Indici dispersione

15

Diagramma degli scarti dalla media

Diagramma degli scarti dalla media

-5,00-4,00-3,00-2,00-1,000,001,002,003,004,00

1 2 3

num. prova

Scar

to d

alla

med

ia stud.1

stud.2

stud.3

stud.4

Page 16: Indici dispersione

16

Osservazioni:1. Lo scarto medio dalla media dà informazioni sulla distribuzione dei dati:

• più SM è piccolo più i dati sono concentrati; • più SM è grande più i dati sono dispersi.

2. SM è espresso nella stessa unità di misura dei dati

3. Non ha l'inconveniente del “Campo di variazione” in quanto SM tiene conto di tutti i dati della distribuzione

Page 17: Indici dispersione

17

Varianza e Scarto quadratico medio

Sono gli indici di variabilità più utilizzati, e tengono conto della distribuzione di tutti i dati.

Varianza

Rappresenta la media aritmetica dei quadrati delle distanze dei dati dalla media M

n

xxxxxx n

22

2

2

12 ..... Varianza

Page 18: Indici dispersione

18

n

x

n

xxn

i

n

i

1

2

1

2

Varianza

Page 19: Indici dispersione

19

Esempio - Varianza

Consideriamo le valutazioni della prima prova

1a Prova1° studente 32° studente 53° studente 84° studente 9

media 6,25

(x1)2 = (3 – 6,25 )2 = 10,5625; (x2)2 = (5 – 6,25 )2 = 1,5625;

(x3)2 = (8 – 6,25 )2 = 3,0625; (x4)2 = (9 – 6,25 )2 = 7,5625;

2 = 10,5625+1,5625+3,0625+7,5625 = 5,6875 4

Page 20: Indici dispersione

20

Calcoliamo la Varianza per tutte le tre prove

Varianza 1aprova = 5,69 dati più dispersi, risultati più eterogenei

Varianza 3a prova = 0,19 dati più concentrati, risultati più omogenei

Varianza 2a pr. Varianza 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6

media 6,25 6,25 6,25varianza 5,69 6,19 0,19

Page 21: Indici dispersione

21

Scarto quadratico medio o Deviazione standard

È uguale alla radice quadrata della varianza

n

x

n

xxn

i

n

i

1

2

1

2

medioquadr Scarto

n

xxxxxx n

22

2

2

1 ..... medio quadr. Scarto

Page 22: Indici dispersione

22

Esempio - Scarto quadratico medio

Riprendiamo le valutazioni della prima prova1a Prova scarti da M scarti2

1° studente 3 -3,25 10,56252° studente 5 -1,25 1,56253° studente 8 1,75 3,06254° studente 9 2,75 7,5625

media 6,25 0,00 5,6875

3848,26875,521

2

n

xn

i

Page 23: Indici dispersione

23

Calcoliamo lo Scarto quadratico medio per tutte le prove

Scarto q. 1aprova = 2,38 dati più dispersi, risultati più eterogenei

Scarto q. 3aprova = 0,43 dati più concentrati, risultati più omogenei

Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6

media 6,25 6,25 6,25scarto quadratico 2,38 2,49 0,43

Page 24: Indici dispersione

24

Osservazioni:

1. La varianza 2 e lo scarto quadratico medio danno informazioni sulla distribuzione dei dati:

• più 2 e sono piccoli più i dati sono concentrati; • più 2 e sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati della distribuzione

Page 25: Indici dispersione

25

3. Entrambi si basano sulla proprietà della media per cui la somma dei quadrati degli scarti dalla media è minima

4. La varianza è espressa mediante il quadrato dell’unità di misura dei dati

5. Lo scarto quadratico nella stessa unità di misura dei dati e pertanto viene preferito alla varianza

Page 26: Indici dispersione

26

Il coefficiente di variazione CV

Il CV è una misura relativa di dispersione (le precedenti sono misure assolute) ed è una grandezza adimensionale.

E’ particolarmente utile quando si devono confrontare le distribuzioni di due gruppi con medie molto diverse o con dati espressi in scale differenti (es. confronto tra variazione del peso e variazione dell’altezza).

%100

xCV

Page 27: Indici dispersione

27

Se i valori di CV sono esterni a quelli indicati o si è in presenza di errori di rilevazione, oppure il fenomeno presenta aspetti particolari.• se CV è molto basso (2 – 3 %) bisogna sospettare

l’esistenza di fattori limitanti la variabilità,• se CV è molto alto (intorno al 40% o più) è molto

probabile l’esistenza di fattori che aumentano la variabilità

In natura il coeff. di variazione tende a rimanere costante per ogni fenomeno: i valori normalmente variano dal 5% al 15%

Page 28: Indici dispersione

28

Calcoliamo il Coeff. di variazione delle tre prove

CV 1a prova = 38,16% dati più dispersi, risultati più eterogenei

CV 3a prova = 6,93% dati più concentrati, risultati più omogenei

CV 2a pr. CV 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova1° studente 3 2 62° studente 5 7 73° studente 8 8 64° studente 9 8 6

media 6,25 6,25 6,25scarto quadratico 2,38 2,49 0,43coeff. variazione 38,16% 39,80% 6,93%

Page 29: Indici dispersione

29

Le misure di Forma

Sono indici sintetici utilizzati per evidenziare particolarità nella forma della distribuzione.

Noi esamineremo:• l’asimmetria• la curtosi

Page 30: Indici dispersione

30

AsimmetriaUna distribuzione è simmetrica quando la sua curva di frequenza presenta un asse di simmetriaIn una distribuzione simmetrica media, mediana e moda sono coincidenti.

Confronto di distrib. normali

0

0,05

0,1

0,15

0,2

0,25

0 2 4 6 8 10 12 14 16

valori della variabile

freq

uenz

a

1° distrib. normale

media = mediana = moda

In una distribuzione asimmetrica media, mediana e moda non sono più coincidenti

e proprio la differenza (distanza) tra la media e la moda può essere considerata una misura della asimmetria

Page 31: Indici dispersione

31

ii

ii

i

f

fxxa

3

3

1

Un altro coeff di asimmetria è il Coeff. di asimmetria (di Fisher)

= scarto quadratico medio

Se a = 0 distribuzione simmetrica

Se a > 0 asimmetria destra

Se a < 0 asimmetria sinistra

Sono state proposte diverse misure dell’ asimmetria, per esempio le più semplici sono:

modax

medio quadratico scartomodaeticamediaaritmasimmetria

mediana)x

medio quadratico scartoedianamtmetica3(mediaariasimmetria

(3)

Dette rispettivamente: primo e secondo coeff. di asimmetria di Pearson

Page 32: Indici dispersione

32

moda < mediana < media

Asimmetria positiva (as. Destra)La distribuzione è asimmetrica quando non presenta nessun asse di simmetria.Si ha un’asimmetria positiva o destra quando il ramo destro della curva è più lungo di quello sinistro

In questo caso si ha:

Asimmetria positiva o destra

0

2

4

6

8

10

12

0 20 40 60 80 100 120 140 160

valori

frequ

enza

media=63,65moda = 48

mediana =58

Page 33: Indici dispersione

33

media < mediana < moda

Asimmetria negativa (as. Sinistra)

Si ha un’asimmetria negativa o sinistra quando il ramo sinistro della curva è più lungo di quello destro

In questo caso si ha:

Asimmetria negativa o as. sinistra

0

2

4

6

8

10

12

14

0 20 40 60 80 100 120 140

valori

frequ

enza

media = 85,24

moda = 100mediana = 90

Page 34: Indici dispersione

34

CurtosiSe una distribuzione è simmetrica o quasi simmetrica allora può esser più o meno appuntita o più o meno appiattita rispetto alla distribuzione normale (o di Gauss)

Se la curva è • più appuntita si dice curva Leptocurtica• più appiattita si dice curva Platicurtica

ii

ii

i

f

fxxK

4

4

1

Coeff. di curtosi di Pearson

= scarto quadratico medio 0 K < + infSe K = 3 distribuzione normalese K > 3 curva leptocurticaSe K < 3 curva platicurtica.

Page 35: Indici dispersione

35

Curtosi

Confronto delle Curtosi

-0,05

0

0,05

0,1

0,15

0,2

0,25

0,3

0,35

0,4

0,45

0 2 4 6 8 10 12 14 16

valori della variabile

freq

uenz

a

leptocurtosi K = 8,57

platicurtosi K = 2,8

curva normale K = 3

Page 36: Indici dispersione

36

Curtosi

Spesso il coeff. di curtosi viene indicato con b2 che, come visto, nel caso della distribuzione normale è = 3 pertanto, talvolta, la curtosi viene indicata con (b2 – 3) Allora:

se la distribuzione è normale (b2 – 3 ) = 0

se la distribuzione è leptocurtica (b2 – 3 ) > 0

se la distribuzione è platicurtica (b2 – 3 ) < 0

Page 37: Indici dispersione

37

Fine Lezione