dati e tabelle - unical · 2018. 9. 18. · dati e tabelle 16 distribuzioni in classi di modalità...
TRANSCRIPT
Capitolo 2
DDaattii ee TTaabbeellllee
Dati e Tabelle
2
La Descrizione della Popolazione
La descrizione di una popolazione passa attraverso due fasi:
1. la formazione dei dati statistici
2. la sintesi dei dati
La formazione del dato statistico prevede:
(i) l’osservazione del fenomeno oggetto di studio sulle unità del collettivo statistico;
(ii) l’annotazione sistematica, unità per unità, della modalità rilevata.
Il processo di rilevazione dei dati sulle unità statistiche si realizza
usualmente tramite la compilazione di questionari.
Per ogni unità statistica si dispone, in generale, di un’ingente mole
di informazioni che occorre organizzare sistematicamente al fine
di renderne agevole l’elaborazione.
Data Set Insieme dei dati relativi ai caratteri rilevati su una stessa popolazione.
Dati e Tabelle
3
Un data set può essere assimilato ad una tabella, chiamata Matrice dei Dati, formata da n righe e r colonne, in cui:
(a) ogni riga riporta le informazioni alfanumeriche relative
alla singola unità statistica;
(b) ogni colonna riporta i valori dei caratteri osservati sulle
diverse unità statistiche;
(c) ogni cella contiene il valore di una singola variabile
rilevato su una determinata unità statistica
Caratteri
X1 X2 … Xj … Xr
Uni
tà S
tatis
tiche
u1 x11 x12 … x1j … x1r
u2 x21 x22 … x2j … x2r
...
...
...
...
...
...
...
ui xi1 xi2 … xij … xir
...
...
...
...
...
...
...
un xn1 xn2 … xnj … xnr
Se 1r = → Analisi Descrittiva Univariata
Se 2r = → Analisi Descrittiva Bivariata
Matrice dei Dati
{ }ij
)rn(x=
×X
Dati e Tabelle
4
Esempio 2.1______Matrice dei Dati ___________________
Indagine sulla Struttura e Produzione delle Aziende Agricole in Calabria
Caratteristiche dell’indagine • Natura della rilevazione: campionaria
• Unità statistiche: aziende agricole della Calabria
• Numero di aziende agricole rilevate: 2984
• Variabili rilevate: 200
• Natura della variabili: qualitative e quantitative
Variabili Presentate 1. Comune e Provincia in cui si trova l’azienda 2. Comune di residenza del titolare dell’azienda 3. Estensione (in ettari) della superficie di proprietà dell’azienda 4. Estensione della superficie concessa in affitto all’azienda 5. Estensione della superficie concessa a titolo gratuito all’azienda 6. Estensione totale della superficie dell’azienda 7. Estensione della SAU (Superficie Agricola Utilizzata) totale
dell’azienda 8. Estensione della SAU concessa in affitto all’azienda 9. Estensione della SAU concessa a titolo gratuito all’azienda 10. Estensione della SAU investita a seminativi 11. Estensione della SAU destinata a coltivazioni
Dati e Tabelle
5
Dati e Tabelle
6
Dati e Tabelle
7
Problemi
La presentazione delle informazione sotto forma di matrice dei
dati non consente di far luce in maniera immediata su alcuni
aspetti delle variabili in esame.
Proviamo, ad esempio, a rispondere alle seguenti domande:
Qual è la forma di conduzione più frequente?
Qual è la percentuale di aziende che hanno una superficie totale pari al più a 50 ettari e si presentano come ditte individuali?
Tra le aziende individuali, qual è la percentuale di quelle che hanno una superficie pari al più a 50 ettari?
Per dare una risposta occorre organizzare i dati in maniera più
sintetica
COME?!?!
Dati e Tabelle
8
Accorpando in classi omogenee le diverse modalità
del carattere e associando ad ognuna di essa il numero di volte che è stata
rilevata sulle unità statistiche
Dati e Tabelle
9
Lo Spoglio dei Dati
L’operazione di accorpamento dei casi identici corrisponde ad
una fase ben precisa dell’indagine statistica. Tale fase è nota
come
CCllaassssiiffiiccaazziioonnee oo SSppoogglliioo ddeeii DDaattii
Per semplicità, consideriamo il caso in cui si è interessati
all’analisi di un solo carattere ( 1r = ).
Allora, è facile rendersi conto che lo spoglio dei dati
rappresenta il primo processo di sintesi dei dati perché consente
di passare da un elenco grezzo di modalità ad un prospetto
organizzato.
Dati e Tabelle
10
Operativamente lo spoglio dei dati si realizza in due passi:
1. la predisposizione di una lista esaustiva delle diverse modalità del carattere in esame
2. il conteggio delle unità che presentano la medesima modalità
Sempre nel caso di un solo carattere in esame, il risultato
dell’operazione di spoglio è una tabella costituita da due colonne e
da tante righe quante sono le diverse modalità del carattere in
esame.
In particolare:
sulla prima colonna si riporteranno le k diverse modalità del carattere, ki21 x,...,x,x,x ..., , ji xx ≠ ;
sulla seconda colonna si riporteranno, in corrispondenza di ogni modalità, il numero di volte che questa si è presentata nel collettivo.
Il prospetto ottenuto è detto
DDiissttrriibbuuzziioonnee ddii FFrreeqquueennzzee
Dati e Tabelle
11
Esempio 2.2_______Distribuzione di Frequenze_________
Indagine sulla Struttura e Produzione delle Aziende Agricole in Calabria
Proviamo a dare una risposta al primo quesito che ci siamo posti.
Lo spoglio dei dati relativo alla variabile qualitativa Forma di
Conduzione dell’Azienda Agricola, ha dato luogo alla seguente
distribuzione di frequenze
Forma di Conduzione Dell’Azienda
Numero Aziende
Colonia parziaria appoderata 10
Con salariati 294
Diretta con manodopera extrafamiliare prevalente 515
Diretta con manodopera familiare prevalente 393
Diretta con solo manodopera familiare 1772
Totale 2984
TTaabbeellllaa 22..11
Dati e Tabelle
12
La distribuzione delle frequenze ha permesso di sintetizzare un
elenco di 2984 dati (le modalità per ogni singola azienda,
2854i21 x,...,x,x,x ..., ) in una tabella di ridotte dimensioni e di
facile lettura.
TTuuttttaavviiaa,, ooggnnii pprroocceessssoo ddii ssiinntteessii pprreesseennttaa uunn pprreezzzzoo ddaa
ppaaggaarree iinn tteerrmmiinnii ddii ppeerrddiittaa ddii iinnffoorrmmaazziioonnii..
DDaallllaa ttaabbeellllaa nnoonn èè ppiiùù ppoossssiibbiillee rriissaalliirree aallll’’aazziieennddaa ssuu ccuuii èè
ssttaattaa rriilleevvaattaa uunnaa ddeetteerrmmiinnaattaa mmooddaalliittàà !!!!!!
________________________________________________________________________________________________________________________
Dati e Tabelle
13
Esempio 2.3_______Distribuzione di Frequenze_________
Su un collettivo statistico costituito da 50 famiglie è stato rilevato
il carattere “Numero di Figli”, ottenendo il seguente elenco
grezzo di modalità:
3 1 3 2 2 0 2 1 5 4 2 2 3 1 1 2 2 0 2 1 4 2 1 2 1
4 3 2 1 3 0 4 3 2 0 3 2 2 1 2 3 1 0 2 2 1 2 2 1 3
La distribuzione di frequenze è la seguente:
Numero di figli
Numero di famiglie
0 5 1 12 2 19 3 9 4 4 5 1
Totale 50
Tabella 2.2
UUnnaa ddiissttrriibbuuzziioonnee ddii ffrreeqquueennzzee iinnddiiccaa ccoommee llee uunniittàà ddeell ccoolllleettttiivvoo
ssttaattiissttiiccoo ssii ddiissttrriibbuuiissccoonnoo ttrraa llee ddiivveerrssee mmooddaalliittàà ddeell ccaarraatttteerree..
________________________________________________________________________________________________________________________
Frequenze Assolute Modalità
Distinte
Numerosità del collettivo
Distribuzione semplice per unità o elenco grezzo
di modalità
Dati e Tabelle
14
In generale, una distribuzione di frequenze per un carattere con k
modalità distinte si presenta nella forma:
X in 1x 1n
2x 2n … …
ix in ... …
kx kn Totale n
Nel prosieguo indicheremo con:
ix la i-esima modalità del carattere, i=1,2,…,k;
in la i-esima frequenza assoluta, i=1,2,…,k.
La frequenza assoluta in indica equivalentemente:
• il numero di volte che la modalità ix è stata rilevata sul collettivo statistico formato da n unità;
•• il numero di unità statistiche che presentano le stessa modalità ix .
i-esima modalità
i-esima frequenza assoluta
∑=
=k
1iinn
Dati e Tabelle
15
Distribuzione di frequenze
Si definisce distribuzione di frequenze del carattere X la successione del numero di unità statistiche che si hanno in corrispondenza delle diverse modalità del carattere, ovvero l’insieme costituito delle coppie:
{ })n,x(),...,n,x(),n,x( kk2211
Dati e Tabelle
16
Distribuzioni in classi di modalità
Nel caso in cui le modalità di una variabile siano molto numerose,
può essere utile determinare classi di modalità a cui assegnare le
unità
Tale procedimento consente di effettuare un’ulteriore sintesi
dei dati
Generalmente, alla suddivisione in classi di modalità si ricorre
quando il carattere è quantitativo:
continuo
discreto con numerose modalità
Nella costruzione delle classi occorre attenersi ad alcuni aspetti:
1. nessuna classe deve essere vuota;
2. le classi devono essere contigue, disgiunte ed esaustive;
3. devono avere possibilmente la stessa ampiezza;
4. il numero di classi deve essere tale da consentire un’adeguata sintesi dei dati senza comportare una eccessiva perdita di informazioni;
Dati e Tabelle
17
Esempio 2.4__Classi di Modalità per un Carattere Continuo
Su un collettivo statistico formato da 200 individui è stato rilevato
il carattere continuo Altezza (espresso in cm.), ottenendo il
seguente elenco grezzo di modalità:
81,46 73,02 87,89 96,97 96,54 98,75 70,43 82,22 95,90 74,16
199,43 200,17 190,08 196,08 204,52 209,08 208,04 196,49 195,45 194,70183,18 174,61 168,53 169,05 175,86 167,22 144,52 161,84 146,02 128,10182,67 159,04 139,88 197,58 207,99 166,99 149,72 140,62 139,87 173,42176,50 183,91 158,27 121,00 157,38 176,95 187,96 177,16 164,94 171,75203,27 198,59 200,71 199,29 191,21 195,01 207,38 201,73 205,98 196,20165,69 117,11 184,28 147,32 154,99 141,96 200,60 157,27 140,33 144,39208,43 128,65 181,60 145,80 141,88 127,86 199,38 199,03 165,53 190,84165,00 161,63 166,90 163,46 174,68 185,09 185,24 186,48 158,18 142,17128,92 119,61 155,29 178,83 168,23 147,93 112,49 128,74 163,55 121,86
77,35 71,36 70,97 74,92 76,59 70,51 78,55 80,29 86,61 80,72176,85 179,01 165,26 171,93 213,43 216,30 181,64 154,06 177,58 162,62163,94 166,20 177,60 165,01 128,75 201,33 162,90 170,66 156,95 201,21199,69 147,06 155,00 167,72 179,37 156,51 208,00 197,84 158,19 212,91188,48 165,99 215,25 183,18 129,08 116,86 153,66 133,90 189,07 174,83192,04 208,89 203,64 198,20 203,88 191,26 208,52 190,57 196,71 209,99192,21 138,04 147,00 172,53 169,92 167,42 139,43 150,04 139,08 196,55149,78 178,11 181,38 194,63 157,36 163,88 195,21 167,63 162,88 119,97155,16 144,50 144,12 123,98 188,78 166,56 188,45 186,68 169,16 172,41126,57 146,26 161,36 114,21 123,79 190,42 184,53 170,87 107,27 169,40
Ampiezza classe
Estremo Superiore Classe – Estremo Inferiore Classe
i1ii xxa −= +
Dati e Tabelle
18
Distribuzioni in classi di ampiezza diversa
Classe 1ii x|x +− in Ampiezza
ia 70 -| 100 20 30 100 -| 120 7 20 120 -| 140 18 20 140 -| 170 65 30 170 -| 180 21 10 180 -| 200 45 20 200 -| 220 24 20
Totale 200 Tabella 2.3
Distribuzioni in classi di uguale ampiezza
Classe 1ii x|x +− in Ampiezza
ia 70 -| 85 14 15 85 -| 100 6 15
100 -| 115 3 15
115 - | 130 16 15
130 -| 145 15 15
145 -| 160 25 15
160 -| 175 41 15
175 -| 190 29 15
190 -| 205 37 15
205 -| 220 14 15
Totale 200 Tabella 2.4
Per un carattere continuo suddiviso in classi, l’ampiezza della classe rappresenta il numero di intervalli unitari che ricadono nella classe medesima.
Dati e Tabelle
19
Notazione
Nello stabilire gli estremi della classe occorre tenere presente che
ognuna delle determinazione osservate del carattere deve essere
compresa in una sola classe. Nel caso di caratteri continui si rende
allora necessario includere nella stessa classe uno solo dei due
estremi dell’intervallo.
Notazione Estremo Inferiore
Estremo Superiore
Ampiezza Classe
1ii x|x +− Escluso Incluso i1i xx −+
( 1ii x,x + ]
1ii x|x +− Incluso Escluso i1i xx −+
[ 1ii x,x + )
Tuttavia, da un punto di vista teorico, per un carattere continuo
indicare specificamente quale estremo considerare è di scarsa
rilevanza.
Dati e Tabelle
20
Esempio 2.5__Classi di Modalità per un Carattere Discreto_
Ad gruppo di studenti iscritti al Corso di Laurea Triennale in
Economa Aziendale è stato chiesto il Numero di Crediti Formativi
ottenendo il seguente elenco grezzo di modalità:
0 26 67 19 16 71 10 180 24 5 19 10 79 113 3 27 27 12 30 10 9 52 18 114 179
10 18 90 56 68 18 6 21 84 86 27 9 9 104 26 10 48 81 114 39 17 123 141 66 82 18 78 13 99 91 18 72 13 144 14 84 41 130 36 136 27 60 169 132 41 9 120 84 90 139
30 72 6 16 116 33 48 12 12 152 30 12 30 6 110 48 117 33 9 141 66 171 75 6 50 58 45 84 6 24 30 13 60 9 143 15 13 99 39 15 36 53 180 36 73
156 60 10 51 150 18 13 19 72 55 18 57 32 36 18 92 103 62 150 18 41 169 55 42 24
179 9 10 171 10
Classe in Ampiezza
ia 0 |−| 20 50 21 20 −| 50 33 30 50 −| 100 37 50 100 −| 125 10 25 125 −| 155 11 30 155 −| 180 9 25
Totale 150 Tabella 2.5
L’ampiezza della classe rappresenta il numero di modalità distinte che ricadono nella classe.
Dati e Tabelle
21
La tabella precedente poteva essere anche riportata nel modo
seguente:
Classe in Ampiezza ia
0 - 20 50 (20-0)+1=21 21 − 50 33 (50-21)+1=30 51 − 100 37 (100-51)+1=50 101 − 125 10 (125-101)+125 126 − 155 11 (155-126)+1=29 156 − 180 9 (180-156)+1=25
Totale 150 Tabella 2.6
in cui entrambi gli estremi della classe sono inclusi.
Riepilogando
Notazione Estremo Inferiore
Estremo Superiore
Ampiezza Classe
1ii x|x +− Escluso Incluso i1i xx −+
( 1ii x,x + ]
1||
+−
iixx
Incluso Incluso 1)xx( i1i +−+[ 1ii x,x + ]
___________________________________________
Dati e Tabelle
22
Determinazione del numero delle classi
Come ogni processo di sintesi, la suddivisione del collettivo
statistico in classi di modalità comporta una perdita di
informazione.
In particolare, il raggruppamento delle unità statistiche non
consente di conoscere le “vere” modalità del carattere che le unità
ricadenti in una classe assumono.
Così, ad esempio, relativamente distribuzione riportata
nella tabella 2.5, non è dato conoscere la vera altezza dei
65 individui che ricadono nella classe 140 -| 170.
Inoltre, per quanto già detto in precedenza, non è possibile
risalire agli individui che hanno un’altezza compresa tra
140 e 170 cm.
Dati e Tabelle
23
L’ammontare della perdita di informazioni e il livello della sintesi
determinati dal raggruppamento dipendono dal numero delle
classi:
Numero Classi
Ampiezza Classe
Perdita di Informazioni
Livello della Sintesi
Grande Si riduce Scarsa Scarso
Piccolo Aumenta Elevata Elevato
Occorre pertanto trovare un giusto compromesso che consenta
di sintetizzare opportunamente i dati senza pregiudicare
eccessivamente la perdita di informazioni.
Dati e Tabelle
24
Prima di concludere è opportuno far presente che raggruppamenti
in classi più ampie, possono rendersi necessari anche per i
caratteri qualitativi.
Si pensi, ad esempio, alla classificazione ATECO della attività
economiche (http://www.istat.it/Definizion/index.htm) oppure alle
alla classificazione delle professioni di cui si riporta il seguente
prospetto (Fonte: http://www.istat.it/Definizion/index.htm)
Grandi Gruppi Gruppi Classi Categorie Voci Professionali
I – Legislatori, dirigenti e imprenditori 3 8 48 319
II – Professioni intellettuali, scientifiche e di elevata
specializzazione 6 17 69 679
III – Professioni tecniche 4 17 92 901 IV – Impiegati 2 6 37 185
V – Professioni qualificate nelle attività commerciali e
nei servizi 5 11 47 478
VI – Artigiani, operai specializzati e agricoltori 6 24 108 1778
VII – Conduttori di impianti e operai semiqualificati
addetti a macchinari fissi e mobili
4 22 89 1431
VIII – Professioni non qualificate 6 15 28 440
IX – Forze Armate 1 1 1 89 Totale 37 121 519 6300
Dati e Tabelle
25
Le Frequenze Relative
Le frequenze assolute dipendono dalla numerosità del collettivo in
esame, nel senso che saranno piccole se il collettivo presenta una
dimensione ridotta, mentre saranno certamente maggiori se il
collettivo è grande.
Da ciò discendono alcuni inconvenienti. In particolare, le
frequenze assolute
non consentono di confrontare, rispetto al medesimo carattere, due o più collettivi di numerosità diversa;
non forniscono una percezione immediata del “peso” che ogni singola modalità ha all’interno della distribuzione di frequenze.
Per ovviare a questi inconvenienti si considerano le frequenze
relative, che si ottengono rapportando le frequenze assolute alla
dimensione del collettivo.
La i-esima frequenza relativa è definita come:
k,...,2,1i,nnf i
i == ..
Dati e Tabelle
26
OOvvvviiaammeennttee vvaallee qquuaannttoo sseegguuee::
11.. 1f0 i ≤≤
22.. 1fk
1ii =∑
=
IInnffaattttii::
( ) 1nn1n...n...nn
n1
nn...
nn...
nn
nn
f...f...fff
ki21
ki21
ki21
k
1ii
==+++++=
+++++=
+++++=∑=
Se si moltiplicano le frequenze relative per 100 si ottengono le
frequenze relative percentuali:
k,...,2,1i,f100p ii =×=
Per costruzione le if e le ip non dipendono dalla numerosità del
collettivo
Dati e Tabelle
27
Se si considerano solo la frequenze relative (percentuali) si perde
un’informazione. Quale?
Dati e Tabelle
28
EEsseemmppiioo 22..66________________DDiissttrriibbuuzziioonnee ddii FFrreeqquueennzzee________________
Riprendiamo l’esempio precedente e indichiamo il collettivo
esaminato di 50 famiglie come COLLETTIVO A.
Supponiamo ora che lo stesso carattere sia stato rilevato anche su
un secondo altro collettivo, che chiameremo COLLETTIVO B.
Poniamo a confronto le due distribuzioni:
X Ain X B
in
CO
LL
ET
TIV
O A
0 5 0 20
CO
LL
ET
TIV
O B
1 12 1 10 2 19 2 35 3 9 3 15 4 4 4 10 5 1 5 10
Totale 50 Totale 100 Tabella 2.7 Tabella 2.8
E’ corretto affermare che la famiglie con un figlio sono più numerose nel collettivo A?
E’ corretto affermare che la famiglie con due figli sono più numerose nel collettivo B?
Dati e Tabelle
29
Costruiamo anzitutto le frequenze relative e quelle percentuali:
Collettivo A Collettivo B X A
in Aif A
ip Bin B
if Bip
0 5 0.10 10% 20 0.20 20% 1 12 0.24 24% 10 0.10 10% 2 19 0.38 38% 35 0.35 35% 3 9 0.18 18% 15 0.15 15% 4 4 0.08 8% 10 0.10 10% 5 1 0.02 2% 10 0.10 10%
Totale 50 1 100% 100 1 100%
Tabella 2.9
Nel collettivo A, le famiglie con un solo figlio rappresentano il 24% del totale delle famiglie del collettivo, mentre nel collettivo B rappresentano il 10%. Pertanto, le famiglie con un solo figlio sono più numerose nel collettivo A. L’affermazione è corretta.
Nel collettivo A, le famiglie con due figli rappresentano il 38% del totale delle famiglie del collettivo, mentre nel collettivo B rappresentano il 35%. Pertanto, le famiglie con due figli sono più numerose nel collettivo A. L’affermazione è errata.
_______________________________________________________________________________
Dati e Tabelle
30
LLee FFrreeqquueennzzee CCuummuullaattee
Nel caso in cui le modalità del carattere in esame sono ordinate
(ossia il carattere è qualitativo ordinale o quantitativo) può essere
interessante considerare la frequenza con cui si presentano nel
collettivo in esame modalità inferiori o uguali ad un certa
modalità.
Relativamente al Collettivo A, proviamo a rispondere alle seguenti domande:
D1. Quante sono le famiglie che hanno al più un figlio?
D2. Qual è la percentuale di famiglie che hanno al massimo due figli?
D3. Qual è la percentuale di famiglie che hanno almeno due figli?
D4. Quante sono le famiglie che hanno meno di tre figli?
D5. Quante sono le famiglie che hanno non meno di 4 figli?
Dati e Tabelle
31
X Ain A
ifAip
0 5 0.10 10% 1 12 0.24 24% 2 19 0.38 38% 3 9 0.18 18% 4 4 0.08 8% 5 1 0.02 2%
Totale 50 1 100%
Tabella 2.10
R1 Quante sono le famiglie che hanno al più un figlio?
{ } 171251XFreq =+=≤
R2 Qual è la percentuale di famiglie che hanno al massimo due figli?
{ } %721005036100
50191252X%Freq =×=×
++=≤
oppure in maniera equivalente:
{ }
{ } %72%38%24%102X%Freq
%72100)3224.010.0(2X%Freq
=++=≤
=×++=≤
Dati e Tabelle
32
R3 Qual è la percentuale di famiglie che hanno almeno due figli?
{ }
%6610066,0
100)02.008.018.038.0(2X%Freq
=×=
×+++=≥
oppure, in alternativa:
{ } { }
{ }
%665033100
50171100
10050171001X%Freq100
2X%Freq1002X%Freq
==⎟⎠⎞
⎜⎝⎛ −=
−=≤−=
<−=≥
R4 Quante sono le famiglie che hanno meno di tre figli?
{ } 36191253XFreq =++=<
R5 Quante sono le famiglie che hanno non meno di 4 figli?
{ } 5144XFreq =+=≥
Dati e Tabelle
33
Dato un carattere X con k modalità ordinate in senso crescente, sia
( ){ }k,...,2,1i,n,x ii = la corrispondente distribuzione di
frequenze.
Possiamo allora definire le seguenti frequenze:
Frequenze Cumulate Assolute
∑=
==i
jji kinN
1,...,2,1
Frequenze Cumulate Relative
∑=
===i
j
iji ki
nNfF
1,...,2,1
Frequenze Retrocumumale Assolute
kiNnR ii ,...,21 =−= −
Frequenze Retrocumumale Relative
kinRr i
i ,...,2==
Dati e Tabelle
34
TTaabbeellllaa RRiieeppiillooggaattiivvaa ddeellllee DDiivveerrssee TTiippoollooggiiee ddii FFrreeqquueennzzee
X in Assolute
if Relative
ip Percentuali
iN Cumulate Assolute
iF Cumulate Relative
iR Retrocumulate
Assolute
ir Retrocumulate
Relative
1x 1n n/nf 11 = 100fp 11 ×= 11 nN = 11 fF = 1R n= 1 1r =
2x 2n n/nf 22 = 100fp 22 ×= 2 1 2N N n= + 2 2F N /n= 2 1R n N= − 2 2r R /n=
… … … … … … … …
ix in n/nf ii = 100fp ii ×= 1i i iN N n−= + i iF N /n= 1i iR n N −= − i ir R /n=
... … ... … ... … …
kx kn n/nf kk = 100fp kk ×=kN n= 1kF = k kR n= k kr f=
Tot. n 1
Dati e Tabelle
35
Relazioni Ricorsive
Tra le frequenze assolute [relative, percentuali] e quelle cumulate
assolute [relative, percentuali] esistono semplici relazioni,
esprimibili nelle forme:
i1ii nNN += −
1iii NNn −−=
Infatti, per definizione
i1iiN
1i21i nNnn...nnN
1i
+=++++= −−
−
444 3444 21
Dalla precedente relazione segue subito che 1−−= iii NNn .
Identiche relazioni valgono, ovviamente, per iF
Inoltre dalle retrocumulate
ii RnN −=−1
Dati e Tabelle
36
Le Frequenze Specifiche o Densità di
Frequenze
Per un carattere quantitativo suddiviso in classi oltre alle
frequenze assolute, relative e cumulate (assolute e relative) si
possono definire ulteriori tipologie di frequenze:
Densità di Frequenza Assolute
kianH
i
i
i,...,2,1, ==
Densità di Frequenza Relative
kiafh
i
i
i,...,2,1, ==
Densità di Frequenza Percentuali
kihhi
p
i,...,2,1,100 =×=
Queste ultime, risultano più semplici da trattare e da interpretare rispetto alle
ih
Dati e Tabelle
37
Interpretazione delle frequenze specifiche
Le frequenze specifiche servono a valutare il grado di addensamento delle unità statistiche
all’interno delle classi.
Carattere iH
ih p
ih Ipotesi
Discreto
Esprime la frequenza assoluta imputabile
ad ogni singola modalità che ricade
nella classe
Esprime la frequenza relativa imputabile ad ogni singola modalità
che ricade nella classe
Esprime la percentuale di unità imputabile ad ogni
singola modalità che ricade nella classe
Uniforme distribuzione delle unità all’interno della classe
Continuo
Esprime la frequenza assoluta imputabile ad ogni intervallo unitario che ricade
nella classe
Esprime la frequenza relativa imputabile ad
ogni intervallo unitario che ricade
nella classe
Esprime la percentuale di unità imputabile ad ogni
intervallo unitario che ricade nella classe
Dati e Tabelle
38
EEsseemmppiioo 22..77__________________________________________FFrreeqquueennzzee CCuummuullaattee __________________________________________
Riprendiamo gli esempi 2.4 e 2.5 relativi alle distribuzioni in classi di modalità per i caratteri
Altezza e Numero di Crediti Formativi.
1ii x|x +− in if iN iF iP 70 -| 100 20 0,1 20 0,1 0,1 100 -| 120 7 0,035 27 0,135 14% 120 -| 140 18 0,09 45 0,225 23% 140 -| 170 65 0,325 110 0,55 55% 170 -| 180 21 0,105 131 0,655 66% 180 -| 200 45 0,225 176 0,88 88% 200 -| 220 24 0,12 200 1 100%
Totale 200 1 Tabella 2.11
Il 55% degli individui è alto al massimo 170 cm.
45 individui su 200 hanno un’altezza pari al più a 140 cm.
Dati e Tabelle
39
1ii x|x +− in if iN iF iP 0 |-| 20 50 0,3333 50 0,3333 33,33% 20 -| 50 33 0,2200 83 0,5533 55,33% 50 -| 100 37 0,2467 120 0,8000 80,00% 100 -| 125 10 0,0667 130 0,8667 86,67% 125 -| 155 11 0,0733 141 0,9400 94,00% 155 -| 180 9 0,0600 150 1,0000 100,00%
Totale 150 1,000 Tabella 2.12
Dati e Tabelle
40
EEsseemmppiioo 22..88________________________________________FFrreeqquueennzzee SSppeecciiffiicchhee____________________________________________ Completiamo la tabella relativa al carattere Altezza
1ii x|x +− in if ia iH
ih p
ih 70 -| 100 20 0,1 30 0,667 0,0033 0,33%100 -| 120 7 0,035 20 0,350 0,0018 0,18%120 -| 140 18 0,09 20 0,900 0,0045 0,45%140 -| 170 65 0,325 30 2,167 0,0108 1,08%170 -| 180 21 0,105 10 2,100 0,0105 1,05%180 -| 200 45 0,225 20 2,250 0,0113 1,13%200 -| 220 24 0,12 20 1,2 0,0060 0,60%
Totale 200 1 Tabella 2.13
1. Qual è il significato delle frequenze evidenziate?
2. Determinare il numero di individui che hanno un altezza compresa tra 170 e 171 cm;
3. Determinare la percentuale di individui che hanno un’altezza compresa tra 110 e 111 cm;
4. Determinare la percentuale di individui che hanno un’altezza compresa tra 110 e 115 cm;
5. Determinare la percentuale di individui
Dati e Tabelle
41
Completiamo la tabella relativa al carattere Numero di Crediti
1ii x|x +− in if ia i
H i
h pih
0 |-| 20 50 0,3333 21 2,381 0,0159 1,59%20 -| 50 33 0,2200 30 1,100 0,0073 0,73%50 -| 100 37 0,2467 50 0,740 0,0049 0,49%100 -| 125 10 0,0667 25 0,400 0,0027 0,27%125 -| 155 11 0,0733 30 0,367 0,0024 0,24%155 -| 180 9 0,0600 25 0,360 0,0024 0,24%
Totale 150 1 Tabella 2.14
1. Qual è il significato delle frequenze evidenziate?
2. Determinare il numero di studenti che hanno 7 crediti;
3. Determinare la percentuale di studenti un numero di crediti compreso tra 50 e 55 (estremi inclusi);
4. Determinare la percentuale di studenti che hanno meno di 7 crediti;
5. Determinare la percentuale di studenti che hanno almeno 175 crediti.
Dati e Tabelle
42
Tabelle riassuntive per gli esempi sui caratteri
Numero di Crediti e Altezza
crediti ei es ni fi Ni Fi Ri ri amp hi Hi 0.0 20.0 50 0.333 50 0.33 150 1.00 21.0 0.0159 2.3810 20.0 50.0 33 0.220 83 0.55 100 0.67 30.0 0.0073 1.1000 50.0 100.0 37 0.247 120 0.80 67 0.45 50.0 0.0049 0.7400 100.0 125.0 10 0.067 130 0.87 30 0.20 25.0 0.0027 0.4000 125.0 155.0 11 0.073 141 0.94 20 0.13 30.0 0.0024 0.3667 155.0 180.0 9 0.060 150 1.00 9 0.06 25.0 0.0024 0.3600
150 1.000 altezza ei es ni fi Ni Fi Ri ri amp hi Hi
70.0 100.0 20 0.100 20 0.10 200 1.00 30.0 0.0033 0.6667 100.0 120.0 7 0.035 27 0.14 180 0.90 20.0 0.0018 0.3500 120.0 140.0 18 0.090 45 0.23 173 0.87 20.0 0.0045 0.9000 140.0 170.0 65 0.325 110 0.55 155 0.78 30.0 0.0108 2.1667 170.0 180.0 21 0.105 131 0.66 90 0.45 10.0 0.0105 2.1000 180.0 200.0 45 0.225 176 0.88 69 0.35 20.0 0.0113 2.2500 200.0 220.0 24 0.120 200 1.00 24 0.12 20.0 0.0060 1.2000
200 1.000
quali frequenze vanno confrontate tra le assolute e le specifiche per avere informazioni sul reale “peso” da attribuire alle classi
evidenziate?
Dati e Tabelle
43
Distribuzioni di Quantità
La tabella che segue riporta il valore (in milioni di euro) delle
esportazioni della Regione Calabria relative all’anno 2003 e
distinte per settore.
Settori Valori
(in milioni di euro)
Prodotti agricoli, dell’allevamento e della pesca 45 Prodotti industria estrattiva 2 Alimentari, bevande e tabacco 49 Prodotti tessili 14 Articoli di abbigliamento 4 Calzature e prodotti in pelle cuoio 1 Prodotti in legno e sughero (esclusi mobili) 3 Prodotti in carta, stampa ed editoria 1 Prodotti petroliferi raffinati 0 Prodotti chimici e farmaceutici 59 Prodotti in gomma e plastica 28 Vetri, ceramica e materiali non metallici per l’edilizia 5 Metalli e prodotti in metallo 7 Macchine e apparecchi metallici 53 Macchine e apparecchi elettrici di precisione 12 Autoveicoli 4 Altri mezzi di trasporto 4 Mobili 5 Altri manufatti 2 Altri prodotti 12 Totale 310
Tabella 2.15 (Fonte: http://www.ice.gov.it/studi/bollettino/menu.htm)
Dati e Tabelle
44
La differenza con le tabelle analizzate in precedenza, in cui è stata
considerata la distribuzione del totale delle unità statistiche fra le
modalità del carattere (distribuzioni di frequenze), è notevole.
Infatti, nell’esempio delle esportazioni, il totale che viene ripartito
non riguarda il numero delle unità statistiche, bensì la somma del
valore delle esportazioni (309 milioni di euro).
Lo scopo che si vuole raggiungere con la tabella è quello di
analizzare la ripartizione del valore complessivo delle
esportazioni in base al settore di appartenenza
Ad una tabella di questo tipo si da il nome di distribuzione di
quantità.
Una distribuzione di quantità è il risultato di due operazioni
1. Classificazione
Si suddivide il collettivo in classi
Dati e Tabelle
45
2. Misurazione
Si quantifica, per ogni classe creata, l’ammontare di un
carattere.
Il carattere rispetto a cui si fa la classificazione può essere diverso
da quello che viene misurato e poi sommato in ogni classe.
Il nome “distribuzione” fa riferimento al modo in cui
l’ammontare globale di un carattere si ripartisce tra le
classi/modalità del carattere di classificazione.
Per una distribuzione di quantità, detto Q il carattere oggetto di
studio, QT il suo totale e iQ la misurazione (intensità) di esso
in corrispondenza della i-esima occorre tenere presente che le iQ
non sono frequenze assolute e, quindi, non ha alcun senso
calcolare le frequenze relative e percentuali.
Il rapporto
Q
ii T
Qq =
Dati e Tabelle
46
indica la “quota parte” dell’ammontare complessivo QT spettante
alla i-esima classe.
Dati e Tabelle
47
Settori iQ iq iq % Prodotti agricoli, dell’allevamento e della pesca 45 0,145 14,5% Prodotti industria estrattiva 2 0,006 0,6% Alimentari, bevande e tabacco 49 0,158 15,8% Prodotti tessili 14 0,045 4,5% Articoli di abbigliamento 4 0,013 1,3% Calzature e prodotti in pelle cuoio 1 0,003 0,3% Prodotti in legno e sughero (esclusi mobili) 3 0,010 1,0% Prodotti in carta, stampa ed editoria 1 0,003 0,3% Prodotti petroliferi raffinati 0 0,000 0,0% Prodotti chimici e farmaceutici 59 0,190 19,0% Prodotti in gomma e plastica 28 0,090 9,0% Vetri, ceramica e materiali non metallici per l’edilizia 5 0,016 1,6% Metalli e prodotti in metallo 7 0,023 2,3% Macchine e apparecchi metallici 53 0,171 17,1% Macchine e apparecchi elettrici di precisione 12 0,039 3,9% Autoveicoli 4 0,013 1,3% Altri mezzi di trasporto 4 0,013 1,3% Mobili 5 0,016 1,6% Altri manufatti 2 0,006 0,6% Altri prodotti 12 0,039 3,9% Totale 310 1 100%
Tabella 2.16
Dati e Tabelle
48
In alcuni casi il confine tra distribuzioni di quantità e distribuzioni
di frequenze è molto sottile.
Consideriamo, ad esempio, la tabella seguente in cui viene
riportato il numero di Immatricolati in alcune Università Italiane
nell’a.a. 2002/2003
Ateneo Immatricolati Incidenza relativa
Incidenza%
Bari 7922 0,103 10,3%
Bologna 18013 0,235 23,5%
Calabria 5939 0,077 7,7%
Catania 9859 0,129 12,9%
Firenze 9547 0,124 12,4%
Lecce 5502 0,072 7,2%
Messina 6144 0,080 8,0%
Milano Bicocca 4855 0,063 6,3%
Milano Bocconi 2639 0,034 3,4%
Milano Politecnico 6281 0,082 8,2%
Totale 76701 1 100,0%
Tabella 2.17 (Fonte: Il Sole-24 Ore del 28/06/2004)
Dati e Tabelle
49
Se si assume come unità statistica il “singolo immatricolato”
rilevando su di esso il carattere “Ateneo di iscrizione” allora
la tabella è una distribuzione di frequenze
Se si assume come unità statistica il “singolo Ateneo” e si
rileva il carattere “Numero di Immatricolati”, allora la
tabella si configura una distribuzione di quantità
Dati e Tabelle
50
Consideriamo, ancora, la tabella successiva in cui viene riportato
il numero di ricoveri registrati in Italia per i primi 10 gruppi di
patologie:
Patologia Ricoveri Incidenza relativa
Incidenza%
Malattie del sistema circolatorio 1458726 0,194 19,4%
Malattie dell’apparato digerente 933156 0,124 12,4%
Traumatismi e avvelenamenti 786625 0,105 10,5%
Tumori 779503 0,104 10,4%
Complicazioni della gravidanza, parto e puerperio 771000 0,103 10,3%
Malattie dell’apparato respiratorio 672739 0,090 9,0%
Malattie dell’apparato genito-urinario 588548 0,078 7,8%
Malattie del sistema nervoso e degli organi dei sensi 544031 0,072 7,2%
Malattie del sistema osteomuscolare 531811 0,071 7,1%
Sintomi, segni e stati morbosi mal definiti 441072 0,059 5,9%
Totale 7507211 1 100%
Tabella 2.18 (Fonte: Il Sole-24 Ore del 22/03/2004)
Dati e Tabelle
51
Se si pone l’accento sul singolo ricovero, considerandolo
come una unità statistica, allora la tabella altro non è che la
distribuzione dei 7507211 ricoveri tra le 10 forme di
patologie. La tabella si presenta pertanto come distribuzione
di frequenze del carattere Patologia;
Se invece assumiamo come l’unità statistica la singola
patologia e come carattere oggetto di studio il numero di
ricoveri, allora la tabella si presenta come una distribuzione
di quantità, in quanto il numero dei ricoveri viene
considerato come una caratteristica delle patologie.
Unita
Statistica
Carattere di
studio
Distribuzione di
frequenze
singolo
ricovero patologia
Distribuzione di
quantità
singola
patologia
numero di
ricoveri
Dati e Tabelle
52
Serie Storiche
Serie Storica o Temporale Successione di valori di una variabile quantitativa rilevata in diversi istanti temporali.
EEsseemmppiioo 22..99__________________SSeerriiee SSttoorriicchhee__________________________________
Valore (in milioni di euro) delle esportazioni di merci della
Regione Calabria
Anno Valore delle Esportazioni
1999 230,7
2000 310,7
2001 296,3
2002 290,9
2003 309,2
Tabella 2.19 (Fonte: http://www.ice.gov.it/studi/bollettino/menu.htm)
Dati e Tabelle
53
Andamento dei mutui a tasso fisso e variabile
Anno Tasso Fisso
Tasso Variabile
1990 15,8 14,7
1991 14,6 13,5
1992 19,1 10
1993 12,4 11,3
1994 12,3 11,2
1995 12,7 11,6
1996 12,9 11,7
1997 10 9
1998 7,2 6,9
1999 5,8 4,6
2000 7,2 5,9
2001 6,7 5,5
2002 6,1 4,6
2003 5,13 3,85
Tabella 2.20 (Fonte: Il Sole-24 Ore del 26/04/2004)
Dati e Tabelle
54
Spesa per R&S in Italia e Germania (milioni di dollari)
Anno Italia Germania
1991 13449,5 42019
1992 13083,7 40864,9
1993 12347,5 39464,8
1994 11780,1 38773,2
1995 11522,8 39451,5
1996 11735,8 39728,3
1997 12500,4 40894,2
1998 12909,2 42134,5
1999 12798,7 45253,1
2000 13566,5 47653,3 Tabella 2.21 (Fonte: Il Sole-24 Ore del 3/05/2004)
____________________________________________________________________
Uno strumento utile per valutare le variazione del fenomeno
nel corso del tempo è costituito dai Numeri Indici
Dati e Tabelle
55
Serie Territoriali Serie Territoriale Successione di valori di una variabile quantitativa riferiti ad aree geografiche diverse.
EEsseemmppiioo 22..1100__________________SSeerriiee TTeerrrriittoorriiaallii______________________________
PIL procapite (in dollari) e popolazione (in milioni) di alcuni paesi africani
Paese PIL Popolazione
Angola 660 13,1
Camerun 560 15,7
Eritrea 160 4,4
Etiopia 100 70,7
Kenia 360 31,6
Mali 240 11,6
Nigeria 290 12,1
Tabella 2.22 (Fonte: Il Sole-24 Ore del 22/03/2004)
Dati e Tabelle
56
Costo totale (in euro) dei ricoveri al 31/12/2002 sostenuto dalle regioni del Mezzogiorno d’Italia
Regione Costo Totale
Abruzzo 881.090.047
Molise 221.097.047
Campania 3.658.239.238
Puglia 2.399.922.865
Basilicata 408.984.770
Calabria 1.304.265.423
Sicilia 3.352.720.395
Sardegna 1.192.752.570
Tabella 2.23 (Fonte: Corriere della Sera del 22/09/2004)
____________________________________________________________________
Dati e Tabelle
57
Esercizio
1. Scrivere 2 distribuzioni di frequenze
ricavando tutte le frequenze presentate;
2. Scrivere 2 distribuzioni di frequenze in classi
di modalità e ricavare tutte le frequenze
presentate
3. Cercare sui quotidiani o su Internet due
distribuzioni di quantità, due serie storiche e
due serie territoriali.
Consiglio: fate l’esercizio e memorizzatelo !!!