l’analisi - uniba.it · ricorre alle seguenti categorie di indici: • intervalli di variazione...

41
L’ANALISI MONOVARIATA: Variabilità e mutabilità Prof. Maria Carella

Upload: vukiet

Post on 15-Feb-2019

218 views

Category:

Documents


0 download

TRANSCRIPT

L’ANALISI

MONOVARIATA:

Variabilità e mutabilità

Prof. Maria Carella

Variabilità Le misure di tendenza centrale non sono

sufficienti alla comprensione dei fenomeni. Una sintesi appropriata deve tener conto del modo in cui si distribuiscono le diverse

modalità della variabile

VARIABILITA’

è l’attitudine del carattere a presentarsi con modalità fra loro diverse e distanti

Dalle misure di tipicità alle misure di variabilità (2)

caramelle

Xi

ni

0 9

10 1

N= 10

Osserviamo, ad esempio la distribuzione della variabile “caramelle” per N=10 consumatori: se sintetizzassimo con la media aritmetica (μ=1) diremmo che in media in U si mangia 1 caramella a testa dando una descrizione distorta della realtà.

Valore di sintesi con maggiore capacità informativa in questo caso sarebbe per es. la Moda=0 che ci dice che il 90% di U non consuma caramelle

Che cosa rende difficile la sintesi di questa variabile statistica? Qual è l’aspetto caratteristico di questa U che μ non riesce

a spiegare? Si tratta della variabilità di X

Dalle misure di tipicità alle misure di variabilità (2bis )

Xi Yi

18 3

20 6

20 9

20 16

21 20

23 30

25 63

147/7 147/7

Xi = 21 Yi = 21

Osserviamo le due distribuzioni della variabile “età”, possiamo notare che esse hanno la stessa media, pari a 21, ma notiamo anche che le modalità sono estremamente differenti.

Questa differenza viene colta attraverso gli indici di variabilità.

Come per le misure di tendenza centrale, indici di variabilità si differenziano a seconda del tipo di variabile sottoposta ad analisi.

Variabilità • Nella terminologia statistica la variabilità

fa riferimento a caratteri quantitativi, mentre per i caratteri qualitativi assume il nome di mutabilità

• La misura della variabilità del carattere deve sottostare a due importanti condizioni: 1. la variabilità deve risultare sempre nulla se tutti i termini osservati sono uguali; 2. la misura della variabilità deve crescere al crescere della differenza tra le modalità

Misure della variabilità

Per misurare la variabilità la metodologia statistica ricorre alle seguenti categorie di indici:

• Intervalli di variazione

• Indici di dispersione attraverso i quali si misura quanto le modalità di una distribuzione differiscono da un valore caratteristico della distribuzione stessa;

• Indici di disuguaglianza attraverso i quali si misura la distanza fra tutte le modalità della distribuzione stessa.

Variabilità

INDICI ASSOLUTI DI VARIABILITA’ sono espressi nella stessa unità di misura del fenomeno

INDICI DI VARIABILITA’ RELATIVI prescindono dall’unità di misura dei termini della distribuzione per cui sono più adeguati per eseguire il confronto tra fenomeni diversi

Misure della variabilità

A) INTERVALLI DI VARIAZIONE

Indici basati sulla differenza tra due valori posizionati significativamente

CAMPO DI VARIAZIONE

osservazione più grande –osservazione più piccola

W = xS – x1

DIFFERENZA INTERQUARTILICA

quartile superiore – quartile inferiore

Dq = Q3 – Q1

Consideriamo le valutazioni di una prova sostenuta da 4 studenti. Calcoliamo il campo di variazione

1a Prova

1° studente 3

2° studente 5

3° studente 8

4° studente 9

media 6,25

Xmax = 9;

Xmin = 3 Range W= 9 – 3 = 6

Esempio

Procediamo facendo la differenza tra il dato più grande e il dato più piccolo:

l’intervallo in cui sono compresi i valori del carattere è 6

Misure della variabilità:

SCARTO SEMPLICE MEDIO

SCARTO SEMPLICE MEDIO DALLA MEDIANA

SCARTO QUADRATICO MEDIO

VARIANZA

DEVIANZA

B) INDICI DI DISPERSIONE Indici basati sugli scarti dei singoli valori dalla media o dalla mediana

N

nMex

N

nMexnMexnMexS

n

iii

nnMe

12211 ...

Lo SCARTO SEMPLICE MEDIO è la media aritmetica dei valori assoluti degli scarti dalla media.

Misure della variabilità

N

nx

N

nxnxnxS

n

i

iinn

M

12211 ...

LO SCOSTAMENTO SEMPLICE MEDIO DALLA MEDIANA è la media aritmetica dei valori assoluti degli scarti dalla mediana.

Misure della variabilità

SCARTO SEMPLICE MEDIO

(nel caso di una serie)

(nel caso di una distribuzione)

N

N

i

i

1

N

ni

S

i

i

1

Misure della variabilità

SCARTO DALLA MEDIANA

(nel caso di una serie)

(nel caso di una distribuzione)

N

Me

Sme

N

i

i

1

N

nMe

Smei

S

i

i

1

Lo scarto quadratico medio è la media aritmetica dei quadrati degli scarti dalla media sotto radice

E’ anche uguale alla media quadratica degli scarti.

È uguale alla radice quadrata della varianza

N

xxxxxx n

22

2

2

1 ..... medio quadr. Scarto

Misure della variabilità

La varianza è la media aritmetica dei quadrati degli scarti dalla media

N

xxxxxx n

22

2

2

12 ..... Varianza

Misure della variabilità

SCARTO QUADRATICO MEDIO

(nel caso di una serie)

(nel caso di una distribuzione)

N

N

i

i

1

2

N

nS

i

ii

1

2

Misure della variabilità VARIANZA

(nel caso di una serie)

(nel caso di una distribuzione)

N

N

i

i

1

2

2

N

nS

i

ii

1

2

2

17

Esempio: calcolo variabilità (1) Si calcoli la varianza e lo scarto quadratico medio per la

variabile X che rappresenta il numero di posti letto presenti in 6 reparti ospedalieri.

Media=81/6= 13.5 X (xi-μ) (xi-μ)2

14 0.5 0.25

3 -10.5 110.25

2 -11.5 132.25

45 31.5 992.25

11 -2.5 6.25

6 -7.5 56.25

81 0 1297.5

25.216

6

5.1297 -∑

1

2

2

N

xn

i

i

71.1425.216

-∑1

2

N

xxn

i

i

Xi ni Xini (x-μ)^2*ni

18 1 18

10,89 =(18-21,30)2*1

19 5 95

26,45 =(19-21,30)2*5

20 3 60

5,07 =(20-21,30)2*3

21 2 42

0,18 =(21-21,30)2*2

22 3 66

1,47 =(22-21,30)2*3

23 1 23

2,89 =(23-21,30)2*1

24 3 72

21,87 =(24-21,30)2*3

25 2 50

27,38 =(25-21,30)2*2

TOT 20 Σ=426 Σ=96,20

Esempio: calcolo variabilità (2) Si calcoli la varianza e lo scarto quadratico medio per la variabile X nella distribuzione di voti per un collettivo di 20studenti

μ=426/20=21,30

81,420

20,96)(

1

2

2

N

nxk

i

ii

19,281,4

Misure della variabilità

DEVIANZA (numeratore della varianza)

(nel caso di una serie)

(nel caso di una distribuzione)

N

i

iDev1

2

S

i

ii nDev1

2

Var

N

Dev2

Calcolare la devianza dell’età, espressa in anni, di 6 bambini iscritti ad una scuola di pianoforte:

5; 6; 7; 7; 8; 10.

1) si deve calcolare prima la media:

16.76

43

6

1087765

2) in seguito la Somma dei Quadrati degli scarti di ogni valore dalla media: = (5 - 7.16)2+(6-7.16)2+(7-7.16)2+(7-7.16)2+(8-7.16)2+(10-7.16)2= =4.665 + 1.346 + 0.026 + 0.026 + 0.706 + 8.066 = 14.835

Esempio: calcolo devianza

La varianza: formula alternativa (1)

La varianza si può calcolare anche come differenza fra la media quadratica al quadrato e il quadrato della media aritmetica.

222 qM

1) Partiamo dalla 2 proprietà della media aritmetica

ovvero

La varianza: formula alternativa (2)

2) Dividendo tutto per N e semplificando si ricava:

N

Nd

N

nk

N

ns

i

iii

s

i

i 2

1

2

1

2

21

2

2 dN

nks

i

ii

3) Sapendo che d=μ – k si ricava

4) Ponendo K= 0

spostando Mq2 a primo membro, possiamo anche scrivere che Mq2=μ2+ σ2

ovvero

La varianza: formula alternativa (3)

La scelta delle misure di variabilità/dispersione

Le misure di variabilità/indici di dispersione (caratteri quantitativi) di uso più frequente nello studio dei fenomeni sociali sono: Il campo di variazione La differenza interquartile Lo scarto quadratico medio e la varianza

Come scegliere tra le diverse misure della dispersione?

Come scegliere tra le diverse misure della dispersione?

• Il Campo di Variazione non è una buona misura della variabilità sebbene sia di facile comprensione.

• Ha una bassa capacità informativa perché dipende soltanto dai valori estremi della distribuzione, non tiene conto dei valori intermedi che sono in generale i più numerosi.

• Poco robusta perché risente dei valori anomali della distribuzione (cioè quando Xmin è molto piccolo o X max è molto grande).

Campo di variazione(1)

Età Primo gruppo Secondo gruppo

Terzo gruppo

18 37 37 37

22 29 30 30

23 21 20 20

24 23 23 23

25 23 23 18

64 0 0 5

Totale 133 133 133

Campo di variazione 25-18=7 25-18=7 64-18=46

Distribuzioni di tre diversi gruppi secondo l’età

CAMPO DI VARIAZIONE: misura con scarsa capacità informativa e non robusta

27

Calcoliamo il campo di variazione (W) per tre prove sostenute da 4 studenti

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

range 6 6 1

Range (W) 1a prova = 6 dati più eterogenei

Range (W ) 3a prova = 1 dati più omogenei

Range (W) 2a prova = W 1a prova = 6 Stessa Distribuzione?

Campo di variazione(1bis)

Osservazioni:

1. Il campo di variazione fornisce informazioni sulla distribuzione dei dati :

• più W è piccolo più i dati sono omogenei; • più W è grande più i dati sono dispersi.

3. Tuttavia W tiene conto solo dei dati estremi della distribuzione, pertanto distribuzioni diverse ma con gli stessi valori estremi hanno range uguali Es. Range 1aprova = Range 2a prova. ma distribuzione 1a prova Distribuzione 2a prova

Campo di variazione(1bis)

Come scegliere tra le diverse misure della dispersione?

• La differenza interquartilica: • Misura che ha una bassa capacità

informativa perché non tiene conto di tutti i valori della distribuzione e molto robusta perché non risente dei valori anomali della distribuzione.

• È più adattabile come misura della

dispersione rispetto allo s.q.m. quando ci sono outlier o dati asimmetrici.

Differenza interquartile(2)

Età Primo gruppo (ni)

Ni Secondo gruppo (ni)

Ni

Terzo gruppo (ni)

Ni

18 37 37 37 37 37 37

22 29 66 30 67 30 67

23 21 87 20 87 20 87

24 23 110 23 110 23 110

25 23 133 23 133 18 128

64 0 - 0 - 5 133

Totale 133 133 133

Q1 Caso 33 X=18 Caso 33 X=18 Caso 33 X=18

Q3 Caso 100 X=24 Caso 100 X=24 Caso 100 X=24

Distribuzioni di tre diversi gruppi secondo l’età

DIFFERENZA INTERQUARTILE: misura robusta (non risente dei valori anomali presenti nella terza distribuzione) con scarsa capacità informativa (non tiene conto delle differenze presenti nelle distribuzioni)

Come scegliere tra le diverse misure della dispersione?

• Lo scarto quadratico medio (σ) si usa quando i dati non sono troppo asimmetrici o quando, come valore medio, si è usata la media aritmetica

Misura che ha un’elevata capacità informativa perché tiene conto di tutti i valori della distribuzione

Ha un basso grado di robustezza perché è influenzata dai valori anomali

Risente della grandezza della media della variabile

Scarto quadratico medio(3)

Età Primo gruppo

Secondo gruppo

Terzo gruppo

18 37 37 37

22 29 30 30

23 21 20 20

24 23 23 23

25 23 23 18

64 0 0 5

Totale 133 133 133

Scarto quadratico medio 2,617 2,615 8,424

Media 21,91 21,90 23,37

Distribuzioni di tre diversi gruppi secondo l’età

Scarto quadratico medio: misura con elevata capacità informativa e non robusta

33

Calcoliamo lo Scarto quadratico medio per tutte le prove

Scarto q. 1aprova = 2,38 dati più eterogenei

Scarto q. 3aprova = 0,43 dati più omogenei

Scarto q. 2a pr. Scarto q. 1a pr “Le Distribuzioni Differiscono”

1a Prova 2a Prova 3a Prova

1° studente 3 2 6

2° studente 5 7 7

3° studente 8 8 6

4° studente 9 8 6

media 6,25 6,25 6,25

scarto quadratico 2,38 2,49 0,43

Scarto quadratico medio(3bis)

Osservazioni:

1. Lo scarto quadratico medio e la varianza 2 danno

informazioni sulla distribuzione dei dati :

• più 2 e sono piccoli più i dati sono concentrati;

• più 2 e sono grandi più i dati sono dispersi.

2. Entrambi gli indici tengono conto di tutti i dati della distribuzione

3. La varianza è espressa mediante il quadrato dell’unità di misura dei dati

4. Lo scarto quadratico è espresso nella stessa unità di misura dei dati e pertanto viene preferito alla varianza

Scarto quadratico medio(3bis)

Misure della variabilità

LA DIFFERENZA MEDIA

è la media delle differenze tra ciascuna quantità e tutte le altre

misura la diseguaglianza media tra i termini della distribuzione

C) Indici basati sulle differenze tra i termini (MISURE DI DISEGUAGLIANZA)

Differenza media

La differenza media è calcolata utilizzando le differenze tra i termini della distribuzione in valore assoluto :

hiih xxd

Tali differenze possono essere:

• con ripetizione, quando si considerano tutte le differenze possibili, quindi anche quelle ripetute (le differenze tra ciascuno termine e se stesso );

• senza ripetizione, quando si considerano solo le differenze diverse.

Differenza media

)1(

1 1

NN

N

i

N

h

hi

DIFFERENZA SEMPLICE MEDIA (senza ripetizione)

)1(

1 1

NN

nnS

i

hi

S

h

hi

al denominatore si considera il numero di tutte le differenze ad eccezione di quelle nulle (ovvero si escludono le differenze con termini uguali)

Differenza media

DIFFERENZA MEDIA (con ripetizione)

al denominatore si considera il numero di tutte le differenze incluse quelle con termini uguali (si calcolano anche le differenze ripetute)

2

1 1

N

nnS

i

hi

S

h

hi

R

2

1 1

N

N

i

N

h

hi

R

Esempio calcolo: Differenze medie Calcolare il valore della differenza media con e senza

ripetizione sui seguenti dati: xi= 1; 2; 4; 7

La somma dei valori assoluti di tutte le differenze sarà quindi:1+3+6+1+2+5+3+2+3+6+5+3=40

La differenza media è 40/12=3,3 con ripetizione 40/16=2,5

)1(

1 1

NN

N

i

N

h

hi

)14(4

......14724212714121

Esempio calcolo: Differenze medie Calcolare il valore della differenza media con e senza

ripetizione sui seguenti dati:

xi= 1; 2; 4; 7

1 2 4 7 Tot righe

1 1-1=0 2-1=1 4-1=3 7-1=6 10

2 1-2=1 2-2=0 4-2=2 7-2=5 8

4 1-4=3 2-4=2 4-4=0 7-4=3 8

7 1-7=6 2-7=5 4-7=3 7-7=0 14

Tot.col 10 8 8 14 40

La differenza media senza ripetizione è :

2*(1+3+6+2+5+3)/12=40/12=3,3

La differenza media con ripetizione è 40/16=2,5

Esempio calcolo: Differenze medie Caso distribuzione: calcolare il valore della differenza

media sui seguenti dati:

Xh Xi

ni

1 4

2 6

3 2

4 5

17

Xi,h 1 2 3 4 TOT RIGA

1 --- 24 16 60 100

2 24 --- 12 60 96

3 16 12 --- 10 38

4 60 60 10 --- 130

TOT COL 100 96 38 130 364

11717

...243164214411

1617

...16240