misure di sintesi - laboratorio di statistica 2014/2015...73 quantili sono un’estensione del...

Post on 12-Feb-2020

7 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

54

MISURE DI SINTESI

55

MISURE DESCRITTIVE D I SINTESI 1. MISURE DI TENDENZA CENTRALE 2. MISURE DI VARIABILITÀ

0

30

Le due distribuzioni hanno uguale tendenza centrale, ma diversa variabilità.

0

30

Le due distribuzioni hanno diversa tendenza centrale, ma uguale variabilità.

µ

56

MISURE DI TENDENZA CENTRALE

57

MISURE DI TENDENZA C ENTRALE Un insieme di dati numerici può essere sintetizzato da alcuni valori tipici, che indicano la posizione sull’asse orizzontale di punti importanti della distribuzione studiata

“Punti centrali”

MISURE di TENDENZA

CENTRALE MEDIA (coordinata orizzontale del baricentro) MODA (coordinata orizzontale del punto più alto) MEDIANA

58

MEDIA CAMPIONARIA

SOMMA delle osservazioni di una variabile divisa per il numero totale di osservazioni. NB: x indica la media campionaria;

µ indica la media della popolazione. Esempio Date le età, in anni, di 5 soggetti si calcoli l’età media. 19 21 18 22 28

annix 6.215

108

5

2822182119 ==++++=

n

xx

n

ii∑

== 1

59

MEDIA PESATA

Età (anni) = xi f i xif i

18 2 18 · 2 = 36 19 25 19 · 25 = 475 20 30 20 · 30 = 600 21 22 21 · 22 = 462 22 20 22 · 20 = 440 23 12 23 · 12 = 276 24 10 24 · 10 = 240 25 8 25 · 8 = 200 129 2729

annin

fxx

n

iii

155.2112927291 ===

∑=

n

fxx

n

iii∑

== 1

60

MEDIA PER DATI RAGGR UPPATI IN CLASSI

Età (anni) xk fk xkfk

[15-20) 17.5 10 17.5 · 10 = 175 [20-25) 22.5 15 22.5 · 15 = 337.5 [25-30) 27.5 30 27.5 · 30 = 825 [30-35) 32.5 12 32.5 · 12 = 390 [35-40) 37.5 11 37.5 · 11 = 412.5 78 2140

xk = valore centrale della classe = = media degli estremi di classe

Si assume che i soggetti appartenenti alla stessa classe abbiano tutti uguale altezza, calcolata come media degli estremi di classe.

fk = frequenza di classe

n

fxx

K

kkk∑

== 1

annin

fxx

K

kkk

44.2778

21401 ===∑

=

61

PROPRIETÀ DELLA MEDIA

• Non corrisponde necessariamente ad un valore

che la variabile studiata può assumere; • è unica: per un dato insieme di dati vi è una sola

media; • è facile da calcolare; • usa tutta l’informazione contenuta nei dati (tutti

i dati concorrono al calcolo della media); • è molto sensibile agli OUTLIERS*; • è impiegata in molti test statistici inferenziali. *Outlier = valore estremo, che giace molto perifericamente rispetto alla restante distribuzione dei dati.

62

MEDIANA

È l’osservazione che divide a metà la serie ordinata delle osservazioni. Per individuare la mediana occorre: • ordinare (in senso crescente o decrescente) le

osservazioni; • determinare la posizione della mediana con la

seguente formula:

• individuare la mediana come l’osservazione che

occupa la posizione precedentemente calcolata.

posizione della mediana = (n+1)/2

n = no di osservazioni

63

Distinguiamo 2 casi:

1. Le osservazioni sono in numero dispari Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 Posizione della mediana (n+1)/2=10/2=5 Ordino le osservazioni 23 28 28 31 32 34 42 50 61

La mediana è 32 anni perché occupa la 5a posizione.

2. Le osservazioni sono in numero pari Età (in anni) di 10 soggetti: 42 28 28 61 31 23 50 34 32 37 Posizione della mediana (n+1)/2=11/2=5.5 Ordino le osservazioni 23 28 28 31 32 34 37 42 50 61

La mediana è 33 anni (media aritmetica dei valori che occupano la 5a e la 6a posizione).

64

Esempio Calcolare la mediana dei dati in tabella:

Età (anni) = xi f i Frequenza cumulata 18 2 2 19 25 27 20 30 57 21 22 79 22 20 99 23 12 111 24 10 121 25 8 129

129

Posizione della mediana (129+1)/2=65

La mediana occupa la 65a posizione.

Dalla colonna delle frequenze cumulate risulta che: 18 anni → 1a-2a osservazione 19 anni → 3a-27a osservazione 20 anni →28a-57a osservazione 21 anni→58a-79a osservazione

La mediana è 21 anni, perché quando tutti i 129 dati vengono ordinati, 21 anni occupa la posizione centrale.

65

DATI RAGGRUPPATI IN CLASSI: LA CLASSE MEDIANA

Età (anni) fk Frequenza cumulata [15-20) 10 10 [20-25) 15 25 [25-30) 30 55 [30-35) 12 67 [35-40) 11 78

78

Posizione della mediana (n+1)/2=(78+1)/2 = 39,5 consideriamo la 39a e la 40a posizione

La classe che contiene la 39a e la 40a osservazione è la classe mediana.

Dalla colonna delle frequenze cumulate risulta che: 1a classe: [15-20)→ 1a-10a osservazione 2a classe: [20-25)→11a-25a osservazione 3a classe: [25-30)→26a-55a osservazione

La classe [25-30) anni contiene la 39a e la 40a osservazione e quindi è la classe mediana.

66

PROPRIETÀ DELLA MEDIANA • È unica: per un dato insieme di dati vi è una

sola mediana; • è facile da calcolare; • non è influenzata dai valori estremi (stima

“robusta” di localizzazione).

67

MODA È l’osservazione che si presenta con la massima frequenza. Esempio Età (in anni) di 9 soggetti: 42 28 28 61 31 23 50 34 32 La moda è 28, perché è l’osservazione che si presenta più frequentemente.

DATI RAGGRUPPATI IN CLASSI: LA CLASSE MODALE

Età (anni) fk

[15-20) 10 [20-25) 15 [25-30) 30 [30-35) 12 [35-40) 11

78 La classe modale è [25-30) anni, perché con essa si registra la massima frequenza.

68

PROPRIETÀ DELLA MODA

• Semplicità concettuale;

0

30

10 20 30 40 50 60 70

Può essere letta direttamente dal grafico: la moda è il valore che ha massima frequenza, cioè il valore corrispondente alla colonna più alta. In questo caso la moda è 40.

• a differenza di media e mediana è determinabile

anche per variabili qualitative; • può non esistere; • ne può esistere più di una:

1 valore modale → distribuzione unimodale; 2 valori modali → distribuzione bimodale.

69

Distribuzione unimodale moda = 40

0

30

10 20 30 40 50 60 70

Distribuzione bimodale moda1 = 60 moda2 = 100

0

30

60

10 40 50 60 70 80 90 100 110 120 130 140 Esempio Distribuzione del peso in un campione casuale di 100 studenti di cui 50 femmine e 50 maschi.

La distribuzione può essere bimodale:

2 picchi

peso più frequente nelle ♀ peso più frequente nei ♂

70

FORMA DI UNA DISTRIB UZIONE Come la forma di una distribuzione influenza le misure di tendenza centrale

DISTRIBUZIONE UNIMODALE SIMMETRICA

Distribuzione SIMMETRICA:

le “code” hanno uguale lunghezza.

MEDIA, MODA E MEDIANA COINCIDONO

La curva è definita “a campana”.

µ= moda=mediana

71

DISTRIBUZIONI ASIMMETRICHE Nelle distribuzioni ASIMMETRICHE, le cui “code” hanno diversa lunghezza MEDIA, MODA E MEDIANA NON COINCIDONO: in particolare, la media tende ad essere spinta verso la coda. La misura di tendenza centrale più appropriata per distribuzioni molto asimmetriche è la mediana (non influenzata dai valori estremi).

Asimmetria positiva Asimmetria negativa

• La distribuzione è “tirata” verso destra, verso i valori positivi. • La media (M) è maggiore della mediana (Me). • Esempio: distribuzione dei punteggi di un test difficile.

• La distribuzione è “tirata” verso sinistra, verso i valori negativi. • La media (M) è minore della mediana (Me) • Esempio: distribuzione dei punteggi di un test facile.

72

MEDIA, MEDIANA E MODA sono definite sia misure di tendenza centrale sia

MISURE DI POSIZIONE

individuano la posizione della distribuzione sull’asse orizzontale quando questa viene rappresentata graficamente. Altre misure di posizione sono i QUANTILI.

73

QUANTILI Sono un’estensione del concetto di MEDIANA (ricordiamo che la mediana divide la serie ordinata di dati in 2 parti, ciascuna contenente il 50% delle osservazioni). QUARTILI ���� sono 3 (Q1, Q2, Q3). Dividono la serie ordinata di dati in 4 parti, ciascuna contenente il 25% delle osservazioni.

25% Q1 25% Q2 25% Q3 25%

MEDIANA

DECILI ���� sono 9 (D1, D2, D3, …, D9). Dividono la serie ordinata di dati in 10 parti, ciascuna contenente il 10% delle osservazioni.

PERCENTILI ���� sono 99 (P1, P2, P3,…, P99). Dividono la serie ordinata di dati in 100 parti, ciascuna contenente l’1% delle osservazioni. Il calcolo dei percentili risente della limitatezza del campione: vengono normalmente calcolati per grandi insiemi di dati.

74

QUARTILI

25% Q1 25% Q2 25% Q3 25% Q1 → Primo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 25% delle osservazioni e dopo di sé il 75%. Q2 → Secondo quartile Valore che, nella serie ordinata dei dati, lascia sia prima che dopo di sé il 50% delle osservazioni (vedi mediana). Q3 → Terzo quartile Valore che, nella serie ordinata dei dati, lascia prima di sé il 75% delle osservazioni e dopo di sé il 25%.

75

POSIZIONE DEI QUARTILI Q1 = (n+1)/4 Q2 = 2(n+1)/4 =(n+1)/2 Q3 = 3(n+1)/4 n = no di osservazioni

COME INDIVIDUARE I QUARTILI Esempio Daniel pag.45 es. 2.6.2

I dati seguenti riportano i diametri (in cm) di neoplasie mammarie di 20 soggetti con sarcoma:

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Individuare il primo, il secondo (mediana) e il terzo quartile.

Q1

Posizione di Q1 = (20+1)/4 = 5.25 Q1 = osservazione situata in 5a posizione + 0,25 della differenza tra le osservazioni situate in 6a e 5a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q1 = 2,5 + (3-2,5)·0,25 = 2,5 + 0,5·0,25 = 2,625

76

Q2 (Mediana) Posizione di Q2 = (20+1)/2 = 10,5 Q2 = osservazione situata in 10a posizione + 0,5 della differenza tra le osservazioni situate in 10a e 11a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q2 = 4,5 + (5-4,5)·0,5 = 4,5 + 0,5·0,5 = 4,75

Q3

Posizione di Q3=3·(20+1)/4=15.75 Q3 = osservazione situata in 15a posizione + 0,75 della differenza tra le osservazioni situate in 15a e 16a posizione

0,5 1,2 2,1 2,5 2,5 3,0 3,8 4,0 4,2 4,5 5,0 5,0 5,0 5,0 6,0 6,5 7,0 8,0 9,5 13,0

Q3= 6 + (6,5-6)·0,75 =6 + 0,5·0,75 = 6,375

77

PERCENTILI

top related