accesso economia e management - dispense statistica
Post on 13-Sep-2015
65 Views
Preview:
DESCRIPTION
TRANSCRIPT
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
1
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Luigi Bollani Luca Bottacin
Appunti di
statistica
descrittiva
ad uso del Corso di Statistica
Marzo 2013
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
2
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Contenuti
1. Primi elementi ...............................4
1. Introduzione ......................................... 4
1. Il metodo statistico ................................ 4 2. Aree di interesse della statistica .................. 4 3. Fasi dellindagine statistica ....................... 5 4. Fonti dei dati ...................................... 7 5. Serie e distribuzioni ............................... 8 6. Rapporti statistici ................................ 10 7. Cenni storici sulla statistica ..................... 17
2. Caratteri, modalit e frequenze ..................... 20
8. Tipologie di carattere ............................. 20 9. Frequenze semplici ................................. 22 10. Frequenze cumulate ................................ 24 11. Grafici di distribuzioni di frequenza ............. 27 12. Frequenze congiunte ............................... 33
2. Misure di un carattere statistico ...........39
3. Misure di posizione ................................. 39
13. Media aritmetica .................................. 39 14. Mediana e quantili ................................ 46 15. Moda (o norma) .................................... 55
4. Misure di variabilit ............................... 57
16. Misure di variabilit ............................. 58 17. Misure di dispersione ............................. 61 18. Misure di concentrazione .......................... 66
5. Misure di forma ..................................... 71
19. Asimmetria ........................................ 71 20. Disuguaglianza di Thcebyceff ...................... 73
3. Studio congiunto di due caratteri statistici 76
6. Metodi per la perequazione .......................... 76
21. Retta dei minimi quadrati ......................... 81 22. Covarianza e correlazione ......................... 87 23. Parabola dei minimi quadrati ...................... 97
7. Studio della connessione ...........................103
24. Tabelle di contingenza ...........................106 25. Tabelle di tipo misto ............................114 26. Tabelle di correlazione ..........................118
4. Analisi di una serie di tempo ............. 125
27. Movimenti di una serie di tempo ..................125 28. Tassi di incremento ..............................129
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
3
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
29. Analisi delle componenti di una serie di tempo ...130
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
4
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
1. Primi elementi
1. Introduzione
1. Il metodo statistico
La statistica studia i fenomeni collettivi, fenomeni che
possono essere osservati o posseduti da una pluralit di
individui presso i quali si manifestano con differenti
modalit o intensit. La finalit di studio di un fenomeno
collettivo raggiunta osservando con metodo scientifico i
singoli individui che costituiscono la popolazione di
riferimento in cui il fenomeno si manifesta. I metodi di
analisi, essenzialmente di tipo quantitativo, sono
impiegati per sintetizzare i dati rilevati, scoprire
regolarit statistiche e descrivere relazioni.
La statistica descrittiva quando si rilevano le
caratteristiche di un fenomeno collettivo desumendole
dallosservazione di tutte le unit della popolazione;
inferenziale quando si analizzano le caratteristiche di un
fenomeno collettivo osservando un campione di unit
selezionate allo scopo. Sulla base dei risultati di questa
analisi, mediante il calcolo delle probabilit si possono
formulare delle ipotesi sulle caratteristiche del fenomeno
nel suo complesso.
2. Aree di interesse della statistica
La statistica metodologica linsieme delle possibili
metodologie utilizzate nello studio dei fenomeni
collettivi. La statistica applicata linsieme delle
applicazioni delle metodologie di analisi allo studio dei
diversi fenomeni sociali, economici e demografici oggetto
di indagine. Nellambito della statistica applicata sono
presenti numerosi campi di indagine:
Statistica sociale: si occupa della formulazione di metodi
statistici per le scienze del sociale, affrontando le
problematiche che riguardano ad esempio la progettazione e
la gestione dei sondaggi di opinione, la programmazione e
la valutazione dei servizi sociali e sanitari e, pi in
generale, lanalisi dei comportamenti della collettivit.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
5
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Statistica economica: si occupa di sviluppare analisi
quantitative legate a temi tipici della macroeconomia.
Sulla base dei dati forniti della contabilit nazionale e
dai maggiori istituti di ricerca pubblici privati, consente
di formulare previsioni sullandamento delleconomia,
verificando limpatto delle decisioni e, pi in generale,
delle scelte politiche del governo sul sistema economico.
Statistica aziendale: si occupa della realt aziendale,
fornendo analisi ottenute elaborando sia dati di fonte
interna contabile o gestionale, sia dati attinti
dallambiente sociale ed economico in cui lazienda opera.
I temi tipici di questa disciplina sono le ricerche di
mercato, il controllo statistico della qualit dei
prodotti, la statistica per il management, la statistica
per l'auditing1 e, in campo attuariale, la statistica per le
compagnie di assicurazione.
Statistica sanitaria: si occupa di formulare metodi
statistici legati alla sperimentazione clinica. L'ambiente
di riferimento naturalmente quello medico, ma le analisi
si estendono al contesto sociale e lavorativo per quanto
riguarda lo studio della prevenzione delle malattie, le
analisi sullo stato di salute della popolazione, la
verifica dei livelli di inquinamento e, pi in generale, la
tutela dell'ambiente.
Demografia: studia la popolazione umana al fine di metterne
in luce le caratteristiche strutturali e ne descrive la
distribuzione geografica e levoluzione nel corso del
tempo. La demografia impiega t specifiche per lo sviluppo
di statistiche sulla popolazione e questa peculiarit la
rende una disciplina fortemente autonoma e caratterizzata
da propri metodi di analisi.
3. Fasi dellindagine statistica
Lindagine statistica un processo che si articola nelle
fasi seguenti:
Definizione degli obiettivi della ricerca: si individuano i
soggetti dello studio, definendo quali informazioni si
intendono ottenere e con quali modalit tecniche. Le
indagini possono essere estese ad una collettivit di
individui, oppure concentrarsi su di un campione di dati.
Formulazione delle ipotesi: l'ipotesi una spiegazione
provvisoria su una certa caratteristica di un fenomeno
1 Funzioni interne allazienda preposte al controllo ispettivo.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
6
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
statistico. Lipotesi sar confermata oppure rigettata in
conseguenza degli esiti dellindagine che si intende
compiere.
Elaborazione del piano di ricerca: in questa fase si decide
come studiare le variabili che descrivono il fenomeno,
estendendo eventualmente lanalisi alle relazioni con altri
fenomeni collegati ed oggetto di interesse.
Raccolta dei dati: si procede operativamente alla
rilevazione dei dati. Si distingue tra rilevazione diretta
se il fenomeno osservato l dove nasce oppure indiretta
se sia desunto dallosservazione di altri fenomeni ad
esso collegati. La rilevazione diretta garantisce
certamente una migliore affidabilit rispetto a quella
indiretta, ma pu risultare pi difficile da realizzare. La
rilevazione pu inoltre essere occasionale se riferita a un
certo istante o a una certa data, oppure periodica se tende
a ricercare landamento del fenomeno nel corso del tempo.
Spoglio dei dati: in questa fase si procede alla
classificazione dei dati raccolti, che possono presentarsi
sotto forma di schede, questionari, moduli o altro
supporto. Il materiale raccolto va esaminati per mettere in
luce eventuali omissioni o incongruenze e in seguito
immesso in un file per le successive elaborazioni.
Elaborazione dei dati: il processo prosegue con la
trasformazione dei dati in altri pi espressivi del
fenomeno studiato. In questa fase si calcolano rapporti, si
tracciano grafici e si realizzano tabelle descrittive degli
aspetti pi significativi di quanto emerso nel corso delle
elaborazioni.
Analisi dei dati e verifica delle ipotesi: sulla base dei
risultati finali si traggono le considerazioni utili per
confermare oppure rigettare le ipotesi inizialmente
formulate.
Si riporta uno schema riassuntivo del processo descritto,
che si conclude con la conferma oppure con la rimozione
dellipotesi di partenza.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
7
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Le fasi del processo di elaborazione dei dati
4. Fonti dei dati
La raccolta, lanalisi e la diffusione dei dati statistici
sono da tempo ritenuti un indice di democrazia per ogni
paese del mondo e il patrimonio informativo statistico
nazionale ovunque considerato un bene da regolamentare e
tutelare per legge. In Italia, la Costituzione riconosce il
valore dei dati statistici come patrimonio della
collettivit e riserva allo Stato il compito di
coordinamento dellinformazione statistica relativa ai dati
dellamministrazione statale, regionale e locale.
Sono da tempo fissati a livello internazionale i requisiti
necessari per raggiungere la necessaria qualit
dellinformazione statistica prodotta dagli Stati. I dati
statistici devono essere completi, affidabili e accurati.
Gli enti incaricati di elaborare dati statistici ufficiali
devono possedere il necessario rigore metodologico al fine
di fornire informazioni rilevanti, coerenti e tempestive
sui fenomeni di interesse sociale.
Le fonti dei dati statistici possono essere di tre tipi:
Dirette: i dati sono rilevati direttamente da chi conduce
lindagine;
Secondarie: si utilizzano dati provenienti da altre fonti
dirette oppure indirette;
Indirette: i dati provengono da raccolte e pubblicazioni di
enti ed istituzioni pubbliche e private che mettono a
disposizione dati ed altro materiale con finalit di
informazione statistica.
Gli enti e le istituzioni che si occupano di fornire
informazioni a carattere statistico si distinguono in:
Enti ufficiali: preposti a tale funzione dalla normativa
vigente;
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
8
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Enti privati: istituti di ricerca, aziende e fondazioni che
producono in modo organizzato dati e informazioni
statistiche di vario tipo.
Tra gli enti ufficiali lIstat e, pi di recente, il Sistan
sono tra le istituzioni italiane incaricate di elaborare,
conservare e divulgare i dati statistici sulla popolazione
e sul territorio. Il Sistema Statistico Nazionale (Sistan)
nasce con il decreto legislativo 322 del 6 settembre 1989,
ed costituito da una rete di soggetti pubblici e privati
incaricati di fornire linformazione statistica ufficiale
nel nostro Paese. Ne fanno parte lIstituto nazionale di
statistica (Istat), gli uffici di statistica delle
amministrazioni centrali dello Stato, gli uffici di
statistica di Regioni, Province, Comuni, Aziende Sanitarie
locali e Camere di Commercio e, infine, gli uffici di
statistica di soggetti privati che svolgono funzioni di
interesse pubblico.
Il Sistan coordina lattivit di rilevazione, elaborazione,
analisi, diffusione e archiviazione dei dati statistici
garantendo luso razionale delle risorse e dei flussi di
informazione statistica a livello sia locale sia centrale.
Controlla che linformazione statistica sia
qualitativamente e quantitativamente rispondente ai bisogni
del Paese e che sia in linea con gli standard
internazionali di settore.
LIstituto nazionale di statistica (Istat) un ente di
ricerca pubblico nato nel 1926. Ha il compito di produrre e
diffondere informazioni capaci di descrivere le condizioni
sociali, economiche e ambientali del Paese e i cambiamenti
che lo hanno riguardato nel corso del tempo. Un aspetto
particolarmente rilevante della sua attivit la
realizzazione dei censimenti decennali generali della
popolazione e abitazioni, industria e servizi e
agricoltura.
Allinterno del Sistan, lIstat si occupa di coordinare
lattivit di tutti gli enti incaricati della raccolta e
della pubblicazione di dati statistici a livello nazionale
e locale. Le pubblicazioni dellIstat riguardano oggi una
molteplicit di settori. Tra quelle a carattere generale si
citano in particolare le seguenti: Noi Italia, Italia in
Cifre, il Rapporto Annuale, lAnnuario Statistico Italiano
e il Compendio Statistico Italiano.
5. Serie e distribuzioni
Serie
Le informazioni raccolte in fase di rilevazione dei dati
sono sistemate in tabelle, che rappresentano la base di
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
9
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
partenza per le successive analisi. Una tabella contiene la
serie statistica delle osservazioni compiute.
Serie statistica. Una serie statistica linsieme di
coppie iia, che rappresentano il risultato del processo
di osservazione di un fenomeno collettivo: il primo
elemento individua loggetto di esame, il secondo registra
il risultato dellosservazione compiuta.
Con riferimento alla tipologia di carattere osservato, le
serie si distinguono in serie (in senso stretto) se
riferite ad un carattere qualitativo, sconnesso oppure
ordinato; seriazioni se riferite ad un carattere
quantitativo, discreto o continuo. E una serie la tabella
che contiene le modalit di un carattere e il numero dei
casi (frequenza assoluta) osservati per ciascuna modalit.
E detta serie dei dati individuali la registrazione dei
risultati dellosservazione del collettivo statistico, in
cui la prima informazione rappresenta il soggetto
esaminato, la seconda la modalit del carattere rilevata
sul soggetto. E una seriazione la tabella in cui la prima
informazione lintensit del carattere osservato e la
seconda informazione un valore associato alle unit
statistiche raccolte per ciascuna modalit. Le serie si
distinguono in:
Serie di tempo: riportano le intensit osservate in
corrispondenza del tempo;
Serie di spazio: riportano le intensit osservate in
relazione ad una partizione di un territorio;
Serie di fatto: tutti gli altri casi.
Distribuzione
A seguito delle operazioni di spoglio si ottengono tabelle
in cui la prima informazione della serie costituita dalle
possibili modalit del carattere, la seconda dal numero
(frequenza) dei casi per ciascuna modalit. Rispetto al
tipo di fenomeno osservato, si distinguono le
Le seriazioni pi comuni riguardano tabelle in cui sono
riportate la frequenza oppure lammontare del carattere dei
casi riferiti a ciascuna intensit del carattere osservato.
Le seriazioni di frequenza o di quantit sono dette
distribuzioni:
Distribuzione. La distribuzione di frequenza del carattere
la serie iin, che rappresenta linsieme costituito dalle
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
10
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
modalit del carattere i
e dalla frequenza oppure dalla
quantit di carattere.
Si distingue tra distribuzione di frequenza se riporta il
numero di casi in associati ad ogni modalit del carattere e
distribuzione di quantit se riporta la quantit di
carattere associata ad ogni rispettiva modalit.
La distinzione tra i diversi tipi di serie non sempre
facile. Ad esempio, una tabella che contiene un elenco di
capitali con il numero di abitanti di ciascuna capitale, da
un punto di vista formale pu essere classificata sia come
una serie di spazio, sia come una distribuzione di
frequenza. In casi come questi per risolvere lambiguit si
deve tenere presente lintento della ricerca. Nellesempio
proposto, la tabella contiene una serie di spazio se
interessa mettere in luce limportanza di ogni capitale
(unit statistica) rispetto alle altre. E invece una
distribuzione di frequenza se interessa sapere come gli
abitanti (unit statistiche) si distribuiscono rispetto
alla citt di residenza (modalit del carattere).
6. Rapporti statistici
I rapporti statistici pongono a confronto due fenomeni, uno
almeno dei quali di tipo statistico. Sono strumenti di
indagine di grande utilit per lindagine statistica, oltre
che di grande diffusione.
I rapporti statistici possono essere raggruppati in
tipologie. Si citano quelle principali:
Rapporti di composizione
Si confronta la numerosit di un sottoinsieme di soggetti
con la numerosit del collettivo a cui il sottoinsieme
appartiene. Se n un sottoinsieme di individui
appartenenti ad un collettivo di N elementi, il rapporto di
composizione vale Nn . Se moltiplicato per 100, il
rapporto indica il numero di soggetti del sottoinsieme per
100 soggetti del collettivo.
Sono esempi di rapporti di composizione la percentuale di
polveri sottili nellaria, lincidenza del numero di
dirigenti sul totale dei dipendenti di una grande industria
e la percentuale di anziani di una citt.
Rapporti di coesistenza
Si confronta la numerosit in di un primo insieme i con la
numerosit kn di un secondo insieme k , sapendo che
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
11
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
entrambi sottoinsiemi appartengono allo stesso collettivo
di riferimento: kinn . Se moltiplicato per 100, il
rapporto esprime quanti soggetti dellinsieme i esistono
per 100 soggetti dellinsieme k .
Ad esempio lindice di mascolinit relativa, dato dal
rapporto tra il numero di maschi e il numero di femmine di
un collettivo ad una certa data un indice di coesistenza:
fmNN100 I .
Rapporti di derivazione
Si confronta la numerosit di un fenomeno con quella di un
altro fenomeno che la premessa logica al primo. Se n un
insieme di soggetti che deriva in qualche modo da un
collettivo composto da N soggetti, il rapporto di
derivazione vale Nn . La formula esattamente quella del
rapporto di composizione, ma la premessa in questo caso
diversa. I rapporti possono essere di derivazione generica
se il numeratore dipende in modo generico dal denominatore
oppure di derivazione specifica se il numeratore legato
in modo diretto al suo denominatore.
Ad esempio un indice di derivazione generica il quoziente
di fecondit, pari al rapporto tra il numero di nati e il
numero di donne della popolazione nella stessa classe di
et, moltiplicato in questo caso per 1.000.
Rapporti di frequenza
Si confronta la numerosit di un collettivo con una
dimensione del fenomeno che si intende analizzare.
Ne un esempio lindice di densit abitativa, pari al
rapporto tra la popolazione e la superficie del territorio.
Lindice esprime il numero di individui presenti per unit
di superficie.
Rapporto di durata
Il rapporto di durata pone a confronto lo stock (fondo)
medio di un fenomeno nel periodo di osservazione con il suo
flusso medio di rinnovamento:
periodo nel nesostituzio di Flusso
medio Fondodurata di R.
Quando si conoscono solo la consistenza iniziale e finale e
i flussi di entrata ed uscita, il rapporto di durata pu
essere stimato in via approssimata dalla formula:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
12
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
UE
CC
UE
CC
10
10
2
2durata di R.
dove la consistenza a numeratore del rapporto data dalla
semisomma delle consistenze iniziale 0
C e finale 1C e il
flusso medio a denominatore dato dalla semisomma del
totale dei flussi in entrata E e del totale flussi in
uscita U .
Il rapporto di durata indica per quanto tempo ununit
statistica permane in media nel collettivo.
Esempio. Se in un tubo vi sono 10 palline e il flusso di
sostituzione medio di 2 palline ogni ora, 10/2=5 indica
che la pallina permane mediamente 5 ore nel tubo:
Si osserva che il rapporto di durata quindi espresso
nella stessa unit di misura del flusso.
Esempio. Una piccola pensione dispone di 3 camere. Nel
corso del mese di giugno vengono registrati i seguenti
movimenti:
Ingresso h 1
h 2
h 3
h 4
Uscita h 5
0C
1C
Ospite Dal Al GG Stanze
Movim. 1 2 3
A 15/05 04/06 5 5 U B 02/06 04/06 2 2 E/U C 03/06 10/06 7 7 E/U D 06/06 26/06 20 20 E/U E 10/06 15/06 5 5 E/U F 13/06 30/06 17 17 E/U G 16/06 04/07 14 14 E
Giorni medi 12,5 7 12
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
13
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Si osservi che il cliente A, arrivato il 15 maggio e
partito il 4 giugno, conta per soli 5 giorni in giugno.
Allo stesso modo, il cliente G arrivato il 16 giugno ma
ha lasciato la pensione il 4 luglio e quindi i giorni di
permanenza in giugno sono solo 14.
Mediamente in giugno le stanze sono state occupate per
10232
2123725,12
giorni
Per arrivare ad analogo risultato senza conoscere nel
dettaglio i movimenti in entrata e uscita della pensione,
si pu considerare che per 7 volte la pensione ha ospitato
qualcuno, facendo registrare 6 entrate e 6 uscite nel mese.
Di conseguenza, in prima approssimazione, gli ospiti si
sono fermati per
25,066
7
mesi
Considerando che in un mese ci sono 30 giorni, il risultato
equivale a 5,73025,0 giorni medi. Si osservi che vi differenza rispetto al risultato esatto (10 giorni) in
conseguenza dellapprossimazione adottata.
Numeri indice
I numeri indice sono utilizzati nellambito delle serie di
tempo e delle serie di spazio. Si distinguono in:
Numeri indice a base fissa: rapporto tra lintensit del
fenomeno tX al tempo t e lintensit del fenomeno
0X al
tempo 0 scelto come periodo base: 0
100X
XI
t
t . Lindice
esprime la variazione del fenomeno nel periodo t rispetto a
quello del periodo scelto come base. Assume valori sopra
100 se il fenomeno cresciuto, sotto 100 se si ridotto.
La differenza 100% tI tra lindice e 100 pari alla
variazione percentuale del fenomeno rispetto al periodo
scelto come base.
Numeri indice a base mobile: rapporto tra lintensit del
fenomeno tX al tempo t e lintensit del fenomeno nel
periodo precedente 1tX :
1
100
t
t
tX
XI . Lindice a base
mobile esprime la variazione del fenomeno nel periodo t
rispetto a quello del periodo 1t . Assume valori sopra 100 se il fenomeno cresciuto, sotto 100 se si ridotto. La
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
14
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
differenza 100% tI tra lindice e 100 pari alla
variazione percentuale del fenomeno rispetto al periodo
precedente.
Cambiamento di base. Per passare dalla serie di indici a
base fissa con base 0
X alla serie di indici con base fissa
0XX
k si deve moltiplicare la prima serie di indici per
il rapporto tra le due basi
kX
X1 . Lo schema il seguente:
it iX
Base
1000X
Base
100k
X
0 0X 100100
0
0
0
X
XI
kX
XI
0
0100
1 1X 1000
1
1
X
XI
kkX
XI
X
XI
0
1
1
1
k kX 1000
X
XI
k
k 100kI
1k 1kX 1000
1
X
XI
k
k 1001
1
k
k
kX
XI
Per passare dalla serie degli indici a base fissa alla
corrispondente serie degli indici a base mobile, si devono
dividere tra loro i due indici a base fissa che precedono e
moltiplicare il risultato per 100. Lo schema il seguente:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
15
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
it iX
Base
1000X
Base
mobile
0 0X 1001000
0
0
X
XI n.d.
1 1X 1000
1
1
X
XI 1
0
1
1100 I
X
XI
2 2X 1000
2
2
X
XI
100
100
1
2
1
2
2
I
I
X
XI
k kX 1000
X
XI
k
k
100
100
1
1
k
k
k
k
k
I
I
X
XI
Per passare dalla serie degli indici a base mobile alla
corrispondente serie degli indici a base fissa 1000X , si
deve moltiplicare ciascun indice a base mobile che lo
precede, fino allindice a base mobile che ha a
denominatore lintensit 0
X del fenomeno osservato. Lo
schema il seguente:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
16
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
it iX
Base
mobile
Base
1000X
0 0X n.d. 1001000
0
0
X
XI
1 1X 1000
1
1
X
XI 1
0
1
1100 I
X
XI
3 3X 1002
3
3
X
XI
100100100100
100
321
0
3
3
III
X
XI
k kX 1001
k
k
kX
XI
100100
...100100
100
21
0
k
k
k
III
X
XI
Esempio. Si calcolano i numeri indice a base mobile e a
base fissa 1978 della seguente tabella di prezzi di un bene
di largo consumo:
Anno Prezzo
Numeri
indice
a base
mobile
Numeri
indice
a base
fissa
1978
1975 113,00 - 100,893
1976 151,00 133,628 134,821
1977 162,00 107,285 144,643
1978 112,00 69,136 100,000
1979 111,00 99,107 99,107
1980 200,00 180,180 178,571
1981 223,00 111,500 199,107
1982 234,00 104,933 208,929
1983 200,00 85,470 178,571
1984 291,00 145,500 259,821
1985 300,00 103,093 267,857
1986 330,00 110,000 294,643
1987 339,00 102,727 302,679
1988 390,00 115,044 348,214
1989 475,00 121,795 424,107
1990 580,00 122,105 517,857
Ad esempio, lindice a base mobile del 1982 pari al
rapporto tra il prezzo del 1982 ed il prezzo del 1981
moltiplicato 100. Lindice a base fissa del 1982 pari al
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
17
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
rapporto tra il prezzo del 1982 e il prezzo del 1978, anno
scelto come base, moltiplicato 1002.
Esempio. Si calcola lindice a base mobile del 1984 sulla
base degli indici a base fissa 1978. Per calcolare lindice
a base mobile del 1984, si moltiplica lindice a base fissa
del 1978 per il rapporto
500,145571,178
821,259100
100100
1983
1984
19781983
19781984
P
P
PP
PP
Esempio. Si calcola lindice a base fissa 1978 per il 1986
sulla base degli indici a base mobile.
6,294100
107,99
100
180,180...
100
093,103
100
00,110100
...100
100
1978
1979
1979
1980
1984
1985
1985
1986
1978
1986
P
P
P
P
P
P
P
P
P
P
Esempio. Sulla base degli indici a base fissa e a base
mobile calcolati, quanto vale lincremento percentuale del
prezzo del 1990 rispetto al 1978 ? E rispetto al 1989?
Lindice a base fissa del 1990 con base 1978 (517,857)
indica che il prezzo del bene nel 1990 supera del 417,857%
il prezzo del bene nel 1978.
Lindice a base mobile del 1990 (122,105) indica che il
prezzo del bene nel 1990 supera del 22,105% il prezzo del
bene nel 1987.
7. Cenni storici sulla statistica
La nascita della statistica legata al bisogno, espresso
fin dalle prime organizzazioni sociali stanziali, di
conoscere il numero di uomini adatti alle armi, il numero
di capi di bestiame, quanti abitanti sono assoggettabili a
tributi ed altre notizie sul territorio e sulla
popolazione. Tracce primordiali di enumerazione a fini
statistici sono stati scoperti nei nuraghi della Sardegna e
nei papiri dellantico Egitto, riferiti principalmente ai
movimenti della popolazione e delle merci. Gli antichi
2 Lindice a base mobile del 1975 non calcolabile perch non si conosce il prezzo del bene nel 1974.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
18
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Egizi veneravano la dea Sefchet, protettrice dei libri e
dei conti.
Anche nellantica Roma il bisogno di dati statistici
divenne una necessit sempre pi evidente a seguito dello
sviluppo demografico e territoriale. Furono indetti i primi
censimenti tra la popolazione, tra i quali quello ricordato
dalla Bibbia e voluto dal re Davide allepoca della nascita
di Ges.
Durante tutto il Medio Evo le comunit religiose e il clero
in genere si incaricarono di enumerare e catalogare i beni
della Chiesa, le nascite, i battesimi e le sepolture.
Questa importante attivit trova la sua definitiva
collocazione nel 1545 con lintroduzione dei registri
parrocchiali per volont del Concilio di Trento.
Nella medesima epoca Francesco Sansovino (1521 1586) e
Giovanni Botero (1540 1617) danno vita alle prime
sistematiche raccolte di dati statistici e sono oggi
considerati dei precursori della nuova disciplina. In
Germania, a met del XVII secolo, Hermann Conring (1606
1681) tiene il primo corso universitario finalizzato a
analizzare le cose notevoli degli Stati. Il suo
successore alla cattedra, Goffredo Achenwall (1719 1772),
chiama per primo statistik la nuova disciplina.
Il termine coniato dallAchenwall rimane tuttavia di
incerta etimologia per lungo tempo: secondo alcuni deriva
da status, stato in senso politico; altri gli attribuiscono
il significato di conditio rerum, stato delle cose,
situazione attuale. Questo duplice significato del termine
permea la statistica fino ad anni recenti: alle soglie del
XX secolo i suoi praticanti che oggi chiamiamo
statistici erano ancora definiti statisti.
NellInghilterra del XVII secolo John Graunt chiama
aritmetici politici gli studiosi delle leggi empiriche
che riguardano i fatti sociali. Sulla base delle prime
sistematiche rilevazioni censuarie, gli aritmetici politici
constatano leccedenza delle nascite maschili su quelle
femminili, la stagionalit dei delitti, la falsit di
alcune credenze popolari come quella che attribuiva
linsorgere di pestilenze al passaggio di meteoriti. La
loro opera mette in luce limportanza della statistica come
strumento di indagine, in cui taluni fatti sono posti in
relazione con altri dei quali possono essere causa oppure
conseguenza. Ne La peste di Londra, Daniel Defoe cita le
statistiche parrocchiali sul crescente numero di funerali
celebrati allinizio del 1665, come prova dal serpeggiare
del contagio nella popolazione londinese.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
19
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Nel 1838 il belga Adophe Quetelet (1796 1874),
considerato da molti il fondatore della statistica moderna,
pubblica il suo Essai de physique sociale, dove giunge ad
interessanti conclusioni sui fenomeni sociali e dove
descrive luomo medio, i cui caratteri corrispondono alla
media aritmetica dei caratteri posseduti da tutti gli
individui della popolazione. Queste idee lo spingono
tuttavia a descrivere le dinamiche sociali secondo una
concezione meccanica che oggi ritenuta del tutto
superata.
La progressiva sistemazione ed organizzazione della nuova
disciplina in differenti aree di studio porta a separare la
statistica metodologica, che si occupa del metodo per la
raccolta e lelaborazione matematico-probabilistica dei
dati, dalla statistica applicata, che a sua volta si divide
in molteplici aree di interesse tra cui la demografia, la
psicometria, lantropometria, e leconometria.
La storia del 900 caratterizzata da una pluralit di
contributi dei quali si fa un rapido cenno3: Karl Pearson
(1857 1936), Francis Galton (1822 - 1911) e Ronald Fisher
(1890 1964) introducono nuovi metodi analitici di
indagine dei fenomeni sociali. In campo economico si
ricordano i contributi di F. Y. Edgeworth, A. L. Bowley e
Vilfredo Pareto. In Italia Roldolfo Benini (1862 1956) si
distingue per i suoi studi sulla popolazione. Importanti
figure della cosiddetta scuola italiana di statistica
sono Corrado Gini (1884 1965), M. Boldrini, L. Livi e A.
Niceforo.
3 Per approfondimenti consultare Theodore M. Porter, Le origini del moderno pensiero statistico (1820-1900) a cura di Giorgio Alleva e Enzo Lombardo, La Nuova Italia
Editrice, Firenze, 1993.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
20
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
2. Caratteri, modalit e frequenze
8. Tipologie di carattere
Un fenomeno statistico si manifesta sotto forma di
propriet o carattere che si articola secondo le rispettive
modalit. I caratteri qualitativi hanno modalit descritte
mediante qualit, attributi o modi di essere. Si
distinguono in sconnessi se le modalit sono prive di un
ordine naturale intrinseco, ordinati nei restanti casi. I
caratteri quantitativi hanno modalit (o per meglio dire
intensit) espresse da numeri. Si distinguono in discreti
se rappresentati da numeri interi, continui nei restanti
casi.
Sono caratteri qualitativi sconnessi il colore dei capelli,
il sesso (maschio o femmina) oppure la squadra di calcio
preferita. Sono caratteri qualitativi ordinati i gradi
dellesercito o il giudizio di preferenza (per nulla, poco,
abbastanza, molto, moltissimo) di un consumatore nei
confronti di un bene di largo consumo. Sono caratteri
quantitativi discreti il numero di esami sostenuti oppure
il numero di figli in famiglia. Infine, sono caratteri
quantitativi continui il numero di millimetri di pioggia
caduti in una certa giornata oppure la statura e il peso
degli individui.
Non si deve escludere la possibilit di considerare, a
seconda dei casi, un medesimo carattere come appartenente a
due diverse categorie. I colori sono certamente un naturale
esempio di carattere qualitativo sconnesso. Tuttavia
nellindustria i colori si ottengono sulla base dei c.d.
colori semplici, luci costituite da una sola radiazione
elettromagnetica con differente lunghezza donda.
Combinando opportunamente le differenti fonti
elettromagnetiche si generano le diverse tonalit di colore
che si ritrovano nei vestiti, nelle automobili e negli
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
21
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
altri oggetti di uso comune. In questo specifico caso il
colore del tutto assimilabile ad un carattere
quantitativo continuo.
Talvolta i caratteri possono essere trasformati in
caratteri di altra categoria. I caratteri qualitativi
dicotomici, rappresentati da due sole modalit, possono
diventare caratteri quantitativi discreti attribuendo il
numero 1 ad una modalit e il numero 0 allaltra. Ad
esempio, se il carattere osservato il sesso di un
collettivo, si pu attribuire il numero 1 ai maschi e il
numero 0 alle femmine. Questa trasformazione conserva le
informazioni sulla distribuzione del carattere ed
particolarmente utile nel corso delle elaborazioni al
computer.
Definizione operativa del carattere
Per definire un carattere occorre innanzitutto stabilire in
che modo una determinata propriet dovr essere rilevata
nel soggetto esaminato. Ad esempio nel caso di caratteri
fisici (peso, altezza) la rilevazione del carattere
determinata dalla sua misurazione. In questo caso si deve
indicare quale strumento di misurazione adottare, con quale
unit di misura registrare le rilevazioni, a quale decimale
arrotondare i numeri ed altri aspetti analoghi. Se il
carattere da osservare invece lopinione di un collettivo
nei confronti di una iniziativa del Governo la rilevazione
pu avvenire mediante intervista o, nel caso di indagini
strutturate, mediante questionario. In entrambi i casi si
devono scegliere le domande da porre, il tipo di risposta
attesa (a risposta aperta oppure chiusa, da scegliere in
una lista di possibilit).
Per effettuare la registrazione del carattere osservato, il
ricercatore deve prevedere la lista degli stati possibili
(modalit) che rappresentano il carattere nel suo
complesso. Nel caso di caratteri qualitativi, ad esempio il
sesso degli individui, si tratta di stendere la lista delle
sue possibili manifestazioni. Nel caso di un carattere
quantitativo con infiniti stati possibili, ad esempio la
statura di un gruppo di individui, occorre prevedere delle
classi a cui attribuire le intensit osservate. Le modalit
sono scelte in funzione della conoscenza del fenomeno
studiato e degli interessi della ricerca; pu comunque
accadere che alcune di esse non siano presenti nel
collettivo osservato.
Infine, il ricercatore deve fissare le regole con cui
assegnare ogni unit statistica ad una e una sola modalit
o intensit. Ad esempio, nel caso della statura di un
gruppo di individui, occorre stabilire se un individuo con
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
22
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
statura rilevata di 180 cm esatti appartiene alla classe
170 180 oppure alla 180 190 successiva. Nel caso di
caratteri qualitativi, si pone ad esempio il problema di
classificare correttamente la risposta aperta fornita da un
intervistato.
Variabile e mutabile statistica
Il processo che conduce losservazione compiuta nel
collettivo ad una determinata di modalit del carattere
osservato detta variabile statistica:
Variabile statistica: assegnazione di una intensit del
carattere ad ogni individuo osservato.
Una variabile statistica dunque una funzione in quanto
definita per lintero collettivo e funzionale, ovvero
nessun individuo pu possedere due diverse modalit del
carattere osservato. A stretto rigore la variabile
statistica attribuisce ad ogni unit statistica un numero.
Per analogia nel caso di caratteri qualitativi si definisce
la
Mutabile statistica: assegnazione di una modalit di un
carattere qualitativo ad ogni individuo osservato.
La variabile e la mutabile statistica identificano e
sintetizzano il processo in precedenza descritto. Le
elaborazioni statistiche conseguenti alla rilevazione del
carattere sono basate su queste due definizioni.
9. Frequenze semplici
Si consideri un generico collettivo composto da n unit
statistiche, per ognuna delle quali stata rilevata la
corrispondente modalit ia del carattere A :
Individui Modalit
diA
1 1
~a
2 2
~a
n na
~
Se una modalit posseduta da pi individui, lelenco
delle modalit rilevate contiene delle ripetizioni. Inoltre
vi possono essere modalit non rilevate in quanto non
possedute da alcun individuo osservato.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
23
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Al fine di ottenere la distribuzione di frequenza degli
individui del collettivo secondo il carattere esaminato si
riportano in una nuova tabella le singole modalit del
carattere con accanto la frequenza di individui per
ciascuna modalit:
Modalit
di A
frequenza
assoluta
1a 1n
2a 2n
3a 0
ka 3n
n
In questa nuova tabella le modalit sono riportate in modo
univoco. Non compaiono le modalit prive di individui ma,
nel caso di caratteri quantitativi, bene tenerne conto.
Per questo motivo stato aggiunta a titolo
esemplificativo la modalit 3a con frequenza pari a zero.
Nel nuovo schema proposto accanto alle modalit del
carattere compare la frequenza, ovvero il numero o la
percentuale di unit statistiche rispettivamente maschio e
femmina nel collettivo considerato.
Vale la definizione seguente:
La frequenza assoluta in il numero di unit statistiche
che possiedono la modalit ia del carattere.
La frequenza relativa if la proporzione di unit
statistiche che possiedono la modalit ia del carattere. Pu
essere espressa in percentuale (%).
Lo schema di riferimento per i due casi il seguente:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
24
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Modalit Frequenza
assoluta Frequenza relativa
1a 1n nnf 11
2a 2n nnf 22
3a 0 03 f
ka kn nnf kk
n 1
Le frequenze non possono essere negative: 0in e 0if .
Il totale delle frequenze
k
i
inn
1
pari alla numerosit
del collettivo.
La somma delle frequenze relative vale 1:
11
111
n
nn
nn
nf
k
i
i
k
i
i
k
i
i
10. Frequenze cumulate
Caratteri quantitativi discreti. Dato un carattere
quantitativo discreto A con intensit 1x , 2x , , rx , si
pongono a confronto le intensit osservate con un valore
reale x liberamente scelto. Si indica con xxn i il numero di casi con intensit minore o uguale del valore
reale x.
La frequenza cumulata condizionata a x vale
iinnnxxn ...
21 .
La frequenza cumulata funzione del valore scelto x .
Infatti calcolabile per ogni x (relazione ovunque
definita). Inoltre, per ogni x si pu ottenere un solo
valore (relazione funzionale). In particolare quando x
inferiore alla minima intensit osservata xxn i pari a zero. Quando x superiore alla massima intensit
osservata, la frequenza cumulata pari alla numerosit del
collettivo stesso.
Per quanto evidenziato si pu scrivere semplicemente
innnxN ...
21
dove N indica la sommatoria dei valori della frequenza che
soddisfano la condizione xxi .
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
25
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La frequenza pu essere calcolata anche per frequenze
relative.
Funzione di ripartizione. La funzione di ripartizione la
somma
iifffxxF ...
21
Si osservi il disegno sottostante:
La funzione di ripartizione di un carattere quantitativo
discreto X indica la frequenza delle intensit del
carattere minori o uguali ad un qualunque valore in
ascissa.
Caratteri quantitativi continui. Nel caso di dati raccolti
in classi generalmente non si conosce lesatta
distribuzione dei dati allinterno di ciascuna classe. Si
ipotizza allora che le intensit osservate si dispongano in
modo uniforme al suo interno e la funzione di ripartizione
della classe assume laspetto di una spezzata crescente con
gradini regolari di altezza pari a in1 per una frequenza di
classe pari ad in (grafico a). Se la frequenza di classe
non esigua, la funzione di ripartizione della classe pu
essere correttamente approssimata con una retta che
congiunge i valori della funzione di ripartizione tra i due
limiti della classe (grafico b). La distanza tra la retta e
i gradini, ovvero lerrore di approssimazione compiuto, non
pu superare la quantit i
n21 .
F(X)
0 X
- F monotona non
decrescente (le frequenze non
possono essere negative);
- F ha dei punti di discontinuit in
corrispondenza con i valori di X.
La funzione pari a 1 per x > xMax
La funzione pari
a 0 per x < xmin1x 2x 3x 4x 5x
1xf
4xf
5xf
2xf 03 xf
32 xFxF 43214 xfxfxfxfxF
15 xF
11 xfxF
1min xx 5xx Max
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
26
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
grafico (a)
grafico (b)
La funzione di ripartizione per dati raccolti in classi
assume la forma di una spezzata crescente. Si esamini il
grafico seguente:
Propriet della funzione di ripartizione. La funzione di
ripartizione xF definita sullintero asse reale: XF esiste per ogni x interno oppure esterno ai valori
Maxxxx
min del carattere X osservato. In particolare, se
minxx la funzione di ripartizione vale zero e se
Maxxx
la funzione di ripartizione vale 1. La funzione
crescente: se xx 1 allora xFxF 1 , dove luguaglianza vale nel caso particolare in cui 0xf . La funzione XF continua a destra in ixx : XF vale ixF , cos come in
0ixx si ha che ii xFxF 0 . E infine discontinua
nei soli punti nxxx ,...,, 21 : XF discontinua in corrispondenza delle intensit del carattere X osservato.
Nel punto di discontinuit x il limite da destra xx e
il limite da sinistra xx della funzione in quel punto
esistono ma non coincidono.
F(X)
Xx x
1 2
F(X)
Xx x
1 2
F(X)
0 X
- F monotona non
decrescente (le frequenze non
possono essere negative);
- F ha dei punti di discontinuit in
corrispondenza con i limiti di classe di X.
La funzione pari a 1 per x > xMax
La funzione pari
a 0 per x < xminampiezza della
classe x2 - x3
frequenza della
classe x2 - x3
1x 2x 3x 4x 5x
15 xF
1min xx 5xx Max
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
27
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
11. Grafici di distribuzioni di frequenza
Un grafico utile a rappresentare le caratteristiche del
fenomeno studiato ed ha una notevole portata divulgativa.
Per questo deve essere sempre corredato da un titolo, da
indicazioni sul significato degli assi, dalle unit di
misura e dalle scale adottate.
Nel caso delle distribuzioni di frequenza, il grafico serve
a rappresentare le frequenze (assolute oppure relative)
legate alle modalit del carattere osservato.
Frequenze di caratteri qualitativi. Per rappresentare le
frequenze delle modalit di un carattere qualitativo
sconnesso si utilizza un diagramma a barre, indicando in
ascissa le modalit del carattere (ad esempio il sesso, M e
F) e in ordinata le frequenze assolute oppure relative
rilevate per le due modalit.
Quando si intende mettere in specifica evidenza la
ripartizione del collettivo rispetto alle modalit del
carattere osservato, si ricorre a un diagramma a settori
circolari (o a torta), in cui ciascun settore
proporzionale alle frequenze delle modalit rappresentate.
Nel caso di caratteri qualitativi ordinati si pu comunque
utilizzare il diagramma a barre.
Diagramma a barre
Diagramma a torta
60%
40%
M F
M; 60%
F; 40%
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
28
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Ortogramma
Frequenze di caratteri discreti. Nel caso di caratteri
quantitativi discreti si utilizza lortogramma, diagramma
caratterizzato da linee che partono dal valore della
modalit discreta posta in ascissa e che terminano con un
breve tratto orizzontale.
Frequenze per dati raccolti in classi. Si ricorre al
raccoglimento in classi allo scopo di ottenere delle
frequenze significative con cui descrivere il comportamento
complessivo di un fenomeno che, per sua natura, si
manifesta con intensit sempre differenti. Si pu ricorrere
al raccoglimento in classi delle intensit di un carattere
quantitativo discreto quando il numero di casi elevato.
E necessario effettuare il raccoglimento in classi nel
caso di caratteri quantitativi continui.
Nel raccoglimento in classi una intensit appartiene alla
classe se compresa tra i rispettivi limiti di classe. Se
una certa intensit esattamente pari ad uno dei due
limiti occorre stabilire in quale classe collocarla. Si
possono avere classi aperte a destra (simbolo 1 ii xx ) se
lintensit pari a ix appartiene alla classe e lintensit
pari a 1ix appartiene alla classe successiva; oppure classi
aperte a sinistra (simbolo 1 ii xx ) se lintensit pari a ix
appartiene alla classe che precede e lintensit pari a 1ix
appartiene alla classe stessa.
Esempio. Si considerano le seguenti stature (espresse in
metri) riferite ad un gruppo di 10 individui:
1,75 1,80 1,68 1,58 1,90
1,82 1,73 1,75 1,92 1,65
Il carattere rilevato, quantitativo continuo, richiede il
raccoglimento in classi. Infatti tutte le intensit hanno
20% 20%
30%
0%
5%
10%
15%
20%
25%
30%
35%
0 1 2 3 4 5
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
29
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
frequenza unitaria e sarebbe altrimenti impossibile
descrivere landamento complessivo delle frequenze.
Considerando le seguenti classi di intensit:
1,50 1,60
1,60 1,70
1,70 1,80
1,80 1,90
1,90 2,00
Il raccoglimento in classi delle stature porta al seguente
risultato:
Classi frequenze
1,50 1,60 1
1,60 1,70 2
1,70 1,80 3
1,80 1,90 2
1,90 2,00 2
10
Dopo il raccoglimento in classi possibile rilevare una
certa omogeneit delle frequenze rispetto a ciascuna classe
di altezza.
Istogramma. Le frequenze di caratteri quantitativi continui
raccolti in classi sono rappresentate mediante istogramma4,
grafico areale nel quale in ascissa compaiono le classi e
in ordinata le altezze dei rettangoli che rappresentano con
la loro area la frequenza di classe.
Per rappresentare listogramma di frequenza si disegnano in
ascissa gli intervalli di classe scelti per il
raccoglimento in classi e, in corrispondenza a ciascun
intervallo, si traccia il perimetro di rettangolo la cui
area deve essere proporzionale alla frequenza
dellintervallo. Laltezza del rettangolo calcolata per
rapporto:
4 Il termine fu coniato nel XIX secolo dallo statistico scozzese William Playfair, che
not la somiglianza del nuovo grafico con la sagoma dei telai meccanici in uso allora. In
Excel non sono presenti n lortogramma, che viene normalmente disegnato mediante un
grafico a barre, n listogramma, che pu essere rappresentato mediante un diagramma a
dispersione.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
30
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Esempio. Si disegna listogramma di frequenza per la
distribuzione seguente:
Le aree dei rettangoli disegnati corrispondono alle
frequenze if delle classi. Nellesempio, le aree valgono
rispettivamente 30, 25, 10 e 2.
Densit media di frequenza. La densit media di frequenza
di classe data dal rapporto
ii
i
ixx
fh
1
dove h la frequenza media di casi presenti in un
qualsiasi punto interno allintervallo di classe ed anche
laltezza dei rettangoli dellistogramma. Se la
densit media
di frequenza
intervalli
di classe
limite inferiore limite superiore
di classe di classe
frequenzaii
i
ixx
fh
1
Da A fr. h
0 40 30,0 0,750
40 60 25,0 1,250
60 80 10,0 0,500
80 100 2,0 0,100
0 8040 60 100100
0,750
1,25
0,5
0,10-
X
30
25
10
2
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
31
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
distribuzione dellintensit del carattere fosse uniforme
allinterno di ogni classe, in ciascun punto
dellintervallo la frequenza dei casi sarebbe proprio pari
ad h.
La Regola di Sturges. La scelta del numero e dellampiezza
delle classi dipende dal numero e dalla natura del fenomeno
studiato. Negli anni 20 fu proposta una regola di natura
empirica, la c.d. regola di Sturges5, secondo cui per
calcolare il numero di classi in cui raccogliere un insieme
di n intensit di un carattere quantitativo continuo,
occorrono nk 2log1 classi. Riscrivendo la formula con
il logaritmo in base 10 si ottiene
nk10
log3
101
In anni recenti questa regola empirica stata oggetto di
severe critiche a causa della sua scarsa fondatezza
teorica. E tuttavia ancora oggi spesso utilizzata.
Esempio. Calcolare le frequenze assolute e relative del
carattere seguente, ottenuto rispondendo alla domanda con
chi ha rapporti pi frequenti?:
genitori amici insegnanti
estranei insegnanti genitori
genitori amici amici
amici estranei amici
genitori estranei genitori
amici estranei estranei
Per fare il calcolo occorre contare quanti casi si
ottengono per ciascuna modalit:
modalit fr.
assolute
fr.
relative
estranei 5 0,278
amici 6 0,333
genitori 5 0,278
insegnanti 2 0,111
18 1,000
Esempio. Data la seguente distribuzione di frequenza di X :
iX in if
0 1 0,1
5 Sturges, H. (1926), The choice of a class-interval, J.A.S.A., 21, 65-66.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
32
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
1 5 0,5
2 2 0,2
3 1 0,1
4 1 0,1
10 1,0
Si disegna il grafico della funzione di ripartizione:
Il grafico ha la forma di una scalinata con gradini
proporzionali alle frequenze di X . I tratti verticali della
funzione di ripartizione rappresentano le frequenze
unitarie ed i tratti orizzontali sono dovuti al fatto che
nulla la frequenza tra due modalit successive.
La funzione di ripartizione consente di individuare i
quantili di una distribuzione. Scelto ad esempio il valore
in ascissa 1,2X , la funzione di ripartizione indica che l80% delle unit statistiche possiede un carattere con
intensit minore o uguale al valore scelto.
Esempio. Si considera la distribuzione di frequenza della
statura degli iscritti alle liste di leva in Piemonte per
lanno di nascita 1979 (dati in centimetri). Alla tabella
stata aggiunta una colonna con le altezze dei rettangoli
che formano listogramma.
iX %if %iF ih
150 160 1,10 1,1 1,10/(160-150) = 0,11
160 170 22,10 23,2 2,21
170 175 27,90 51,1 5,58
175 180 26,70 77,8 5,34
180 190 18,87 96,7 1,89
190 195 2,22 98.9 0,44
195 220 1,11 100 0,04
100,00
0
1
2
3
4
5
6
7
8
9
10
-1 1 3 5 7
X
N
2,1
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
33
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Listogramma il seguente:
La funzione di ripartizione la seguente:
12. Frequenze congiunte
Si prende in esame il caso di due generici caratteri A e B
con modalit naaa ,...,, 21 e mbbb ,...,, 21 , presenti in un
collettivo di n individui. Si indica con ijn il numero di
individui che possiedono la coppia di modalit ia e jb .
Linsieme di queste informazioni costituisce la tabella a
doppia entrata seguente:
175140 150 160 170 180 190 200 210 220 230
X
1,10%
22,10%
27,9
0%
26,7
0%
18,87%
2,22%
1,11%
0%
25%
50%
75%
100%
140 150 160 170 180 190 200
X
F(X)
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
34
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Modalit di A
Frequenze
congiunte 1a 2a 3a Totali
Modalit
di B
1b 11n 12n 13n .1n
Frequenze
marginali
di B
2b 21n 22n 23n .2n
3b
31n
32n
33n
.3n
4b 41n 42n 43n .4n
Totali 1.
n 2.
n 3.
n n
Frequenze marginali di A
Totale
frequenze
Il corpo della tabella raccoglie le frequenze congiunte ijn
sopra descritte; lultima riga contiene la distribuzione
univariata (marginale) del carattere A ; la colonna a destra
contiene la distribuzione univariata (marginale) del
carattere B .
Sulla base della tabella delle frequenze congiunte ijn si
pu ottenere la tabella delle corrispondenti frequenze
relative dividendo per il totale delle frequenze n:
Modalit di A
Frequenze
congiunte 1a 2a 3a Totali
Modalit
di B
1b 11f 12f 13f .1f
Frequenze
marginali
di B
2b 21f 22f 23f .2f
3b
31f
32f
33f
.3f
4b 41f 42f 43f .4f
Totali 1.
f 2.
f 3.
f 1
Frequenze marginali di A
Totale
frequenze
Esempio. La seguente tabella riporta il numero di esercizi
ricettivi (alberghi, campeggi, villaggi turistici e altre
strutture ricettive) presenti nel 2001 nel Nord, Centro e
Sud Italia (fonte: Istat, LItalia in Cifre 2002):
Nord Centro Sud Italia
Alberghi 21.568 6.324 5.536 33.428
Campeggi e villaggi
turistici 992 494 885 2.371
Alloggi agro turistici 3.194 3.392 1.183 7.769
Altri esercizi e alloggi 57.978 3.334 1.415 62.727
Totale 83.732 13.544 9.019 106.295
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
35
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La corrispondente tabella delle frequenze relative la
seguente:
Nord Centro Sud Italia
Alberghi 20% 6% 5% 31%
Campeggi e villaggi
turistici 1% 0% 1% 2%
Alloggi agro turistici 3% 3% 1% 7%
Altri esercizi e alloggi 55% 3% 1% 59%
Totale 79% 13% 8% 100%
Si osserva che la voce Altri esercizi e alloggi
predominante rispetto al totale ed la soluzione ricettiva
preferita nel Nord Italia. La voce ricomprende gli ostelli
per la giovent, le case per ferie, i rifugi alpini, le
camere e gli appartamenti iscritti al Registro esercenti il
commercio.
Profili di riga e profili di colonna
I profili di riga si ottengono dividendo la frequenza
congiunta per la frequenza marginale di riga; i profili di
colonna si ottengono dividendo la frequenza congiunta per
la frequenza marginale di colonna:
profili riga:
... i
ij
i
ij
i
ij
f
f
n
n
n
n
n
n
profili colonna:
j
ij
j
ij
j
ij
f
f
n
n
n
n
n
n
...
Tabella dei profili riga
Modalit di A
1a 2a 3a Totali
Modalit
di B
1b .111 nn .112 nn .113 nn 1
2b .221 nn .222 nn .223 nn 1
3b
.331nn
.332nn
.333nn 1
4b .441 nn .442 nn .443 nn 1
Totali nn 1. nn 2. nn 3. 1
Tabella dei profili colonna
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
36
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Modalit di A
1a 2a 3a Totali
Modalit
di B
1b 1.11 nn 2.12 nn 3.13 nn nn .1
2b 1.21 nn 2.22 nn 3.23 nn nn .2
3b
1.31nn
2.32nn
3.33nn nn
.3
4b 1.41 nn 2.42 nn 3.43 nn nn4
Totali 1 1 1 1
Media dei profili
I marginali di riga sono la media ponderata dei profili
riga ponderati con le frequenze marginali di colonna. I
marginali di colonna sono la media ponderata dei profili
colonna ponderati con le frequenze marginali di riga:
r
i
i
i
ijr
i
iijin
n
n
nfff
1
.
.1
..
p
j
j
j
ijc
j
jijjn
n
n
nfff
1
.
.1
..
Esempio. Con riferimento allesempio precedente, i profili
riga sono i seguenti:
Nord Centro Sud Italia
Alberghi 65% 19% 17% 100%
Campeggi e villaggi
turistici 42% 21% 37% 100%
Alloggi agro turistici 41% 44% 15% 100%
Altri esercizi e alloggi 92% 5% 2% 100%
Totale 79% 13% 8% 100%
E i profili colonna i seguenti:
Nord Centro Sud Italia
Alberghi 26% 47% 61% 31%
Campeggi e villaggi
turistici 1% 4% 10% 2%
Alloggi agro turistici 4% 25% 13% 7%
Altri esercizi e alloggi 69% 25% 16% 59%
Totale 100% 100% 100% 100%
Dallanalisi dei profili riga si osserva ad esempio che il
65% degli alberghi sono al Nord; consultando la tabella dei
profili colonna emerge invece ad esempio che gli alberghi
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
37
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
sono la struttura ricettiva pi presente al Centro e al Sud
rispetto alle restanti forme.
Si osserva infine che i profili marginali di riga sono
uguali alle frequenze marginali di riga nella tabella delle
frequenze congiunte; analogamente i profili marginali di
colonna sono uguali alle frequenze marginali di colonna
nella tabella delle frequenze congiunte.
Si verifica infine la propriet di media dei profili:
%59%92%7%41%2%42%31%65%791.
f
%59%5%7%44%2%21%31%19%132.
f
%59%2%7%15%2%37%31%17%83.
f
Tipi di tabelle a doppia entrata. A seconda dei caratteri
osservati le tabelle a doppia entrata si distinguono in:
tabelle di contingenza. I due caratteri sono entrambi
qualitativi.
tabelle miste. I due caratteri sono uno quantitativo
laltro qualitativo.
tabelle di correlazione. I due caratteri sono entrambi
quantitativi, discreti oppure continui.
Uno schema riassuntivo dei tre tipi di tabella a doppia
entrata il seguente:
Carattere
qualitativo
Carattere
quantitativo
Carattere
qualitativo
Tabelle di
contingenza
Tabelle
miste
Carattere
quantitativo
Tabelle
miste
Tabelle di
correlazione
Esempio. Numero di addetti delle imprese per settore di
attivit economica nel 1999 (fonte: Istat, LItalia in
cifre 2002):
1-19
addetti
20
addetti e
pi
Totale
Industria 1.961.847 3.006.293 4.968.140
Costruzioni 1.140.135 271.703 1.411.838
Servizi 5.488.238 2.439.421 7.927.659
Totale 8.590.220 5.717.417 14.307.637
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
38
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La tabella precedente una tabella mista che indica il
numero di addetti per settore e per classe dimensionale
delle imprese ove lavorano. Si osserva che le imprese sotto
i 20 addetti sono soprattutto imprese di servizi, mentre
quelle sopra i 20 addetti caratterizzano soprattutto il
settore industriale in senso stretto.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
39
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
2. Misure di un carattere statistico
3. Misure di posizione
Le misure di posizione o medie rappresentano la prima
sintesi di un fenomeno statistico.
La tradizione statistica italiana distingue le medie in
ferme, in cui il valore dipende da tutti i dati, e in
lasche per i restanti casi. La media aritmetica un
esempio di media ferma perch calcolata su tutti i dati
disponibili e lingresso di un nuovo dato modifica il
risultato precedentemente ottenuto. Altre misure di
tendenza centrale come la mediana e la moda sono lasche in
quanto pu accadere che lingresso di un nuovo dato non
modifichi affatto o modifichi in misura ridotta il loro
valore iniziale.
Media, mediana e moda esprimono la tendenza centrale del
fenomeno studiato. Sono misure di tendenza non centrale i
quantili, intensit che ripartiscono il collettivo in
ragione della frequenza cumulata.
13. Media aritmetica
Media aritmetica semplice. La media aritmetica semplice di
n termini nXXX ,..,, 21 vale:
n
i
i
n Xnn
XXXM
1
21
1
1...
La media aritmetica ponderata di n termini mXXX ,..,, 21 con
frequenze rnnn ,...,, 21 data dallespressione:
r
i
ii
rr nXnn
nXnXnXM
1
2211
1
1... nn
r
i
i
1
La media aritmetica ponderata di m termini mXXX ,..,, 21 con
frequenze relative6 rfff ,...,, 21 data dallespressione:
r
i
iirrfXfXfXfXM
1
22111... 1
1
r
i
if
6 O normalizzate.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
40
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
Accanto alla media ponderata con frequenze si pu definire
la generica media ponderata con pesi rppp ,...,, 21 che
contempla come caso particolare la media con frequenza
sopra definita:
n
i
i
n
i
ii
p
pX
M
1
1
1
Nel caso di m pesi normalizzati
rppp ,...,,
21 si ottiene
lespressione
r
i
irrpXpXpXpXM
1
*
1
**
22
*
111... 1
1
r
i
ip
Esempio. Si calcola la media aritmetica della distribuzione
di X :
iX -1 0 1 2
in 5 6 3 5
421053,05365
523160514
1
4
1
i
i
i
ii
n
nX
X
La media calcolata un punto in ascissa nel grafico della
distribuzione di X :
Media di rapporti. Si considerano due caratteri
quantitativi X e Y riferiti alle medesime unit
statistiche i , per i quali sia utile calcolare il rapporto t tra le rispettive intensit, come evidenziato nella
tabella seguente:
Unit
statistiche X Y iii YXt
0,421053
5
3
6
5
-2 -1 0 1 2 3
X
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
41
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
1 1X 1Y 111 YXt
2 2X 2Y 222 YXt
n 2X nY nnn YXt
Lultima colonna contiene la serie dei rapporti it ottenuti
dividendo lintensit del carattere X per lintensit del
carattere Y .
Per calcolare il rapporto medio t riferito a tutte le unit
statistiche oggetto di indagine, appare naturale dividere
la somma delle intensit di X con la somma delle intensit
di Y :
n
i
i
n
i
i
Y
X
t
1
1
Con un passaggio algebrico t risulta anche pari alla media
aritmetica ponderata dei singoli rapporti it :
n
i
i
n
i
ii
n
i
i
n
i
i
Y
tY
Y
X
t
1
1
1
1
Alternativamente si pu notare che il rapporto medio t
anche pari alla media armonica ponderata dei singoli
rapporti it :
n
i i
i
n
i
i
n
i
i
n
i
i
t
X
X
Y
X
t
1
1
1
1
Esempio. Si calcola la media della seguente serie di
rapporti, riferiti allattivit settimanale di tre filiali
di un call-center:
Fil. A Fil. B Fil. C Media
N clienti contattati 104 253 77 434
N addetti 10 22 9 42
Rapporto 10,4 11,5 7,7 10,33
I 42 addetti delle tre filiali hanno contattato
complessivamente 434 clienti con un rapporto medio di 10,33
clienti pro capite contattati. Per arrivare a questo
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
42
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
risultato utilizzando i rapporti riferiti a ogni filiale si
scrive:
33,10
7,7
77
5,11
253
4,10
104
434
t
Media per dati raccolti in classi. Nel caso di dati
raccolti in classi la media si calcola moltiplicando i
centri di classe (c.d.c.) per le rispettive frequenze.
Indicando i centri di classe con iX , la media ponderata con
pesi assoluti data dallespressione:
r
i
iinX
nM
1
1
1
La media ponderata con pesi normalizzati la seguente:
r
i
iifXM
1
1
La media aritmetica calcolata utilizzando i valori centrali
di classe, implica lipotesi di uniforme distribuzione dei
dati individuali allinterno di ogni classe ed in
generale differente dalla media aritmetica calcolata sui
dati individuali. Questa differenza detta effetto di
raggruppamento.
Esempio. La media aritmetica semplice di 1,2 1,4 2,4 2,5
3,0 e 3,2 vale 2,283. Raggruppando i dati nelle classi 0
2 e 2 4 si ottiene:
iX c.d.c. in iinX
0 - 2 1 4 4
2 - 4 3 2 6
6 10
La media vale 10/6 = 1,667.
Propriet
Si riportano alcune propriet della media aritmetica, di
seguito indicata con il simbolo 1M .
Condizione di Cauchy. La media sempre compresa tra il
valore minimo e il valore massimo dei termini su cui
calcolata:
MaxxMx
1min.
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
43
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La media dunque una misura interna ai dati.
Per dimostrarlo, si inizia con il constatare che ogni
valore di una variabile X compreso tra il suo minimo e il
suo massimo. Sommando questa doppia diseguaglianza per
tutti i valori di X si ottiene
Maxn
Maxn
MaxMax
nXXnX
XXX
XXXXXX
min
min
2min1min
...
Dividendo per n si ha Max
n
i
i
Xn
X
X 1
min ovvero
MaxxMx
1min.
Somma nulla. Lo scarto dalla media la differenza con
segno tra il valore iX e la media stessa. E nulla la somma
degli scarti
01
1
n
i
iMX
Si osserva che
n
i
n
i
i
n
i
iMXMX
1
1
11
1 . Poich la media
una costante si ha che 11
1nMM
n
i
da cui 011
nMX
n
i
i .
Luguaglianza 11
nMX
n
i
i
indica che lammontare complessivo
del carattere
n
i
iX
1
presente nel collettivo pari a n
volte la media aritmetica stessa.
Minimo. La quantit
n
i
iaX
naf
1
21 minima se il valore
di a la media aritmetica dei dati. Per dimostrarlo si
parte dalla considerazione che, se f ha un punto di minimo
in a, in a la derivata prima nulla e la derivata seconda
positiva:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
44
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
1
1
1
1
0
02
Man
X
naX
aXna
f
n
i
in
i
i
n
i
i
02
2
a
f
Quindi per 1Ma 1Mf un minimo per f , da cui lasserto. La quantit 1Mf la varianza della variabile X .
Monotonia. Se Y e X sono due variabili per cui vale la
relazione YX , allora anche per le rispettive medie vale
lanaloga relazione YX MM .
Esempio. Date due variabili X e 2
XY si ha che:
n
XXXM
n
X
...21
n
XXXM
n
Y
22
2
2
1...
2XX implica quindi che 2
XXMM . Si osservi che per
3XY la propriet vera solo per valori positivi di X .
Linearit. La media di una combinazione lineare di
variabili pari alla combinazione lineare delle rispettive
medie XbXa
MbaM . Per dimostrarlo occorre procedere
per passi successivi. Si parte dalla considerazione che se
i dati sono tutti costanti cX , allora la media pari alla costante stessa:
cncn
cn
Xn
M
n
i
n
i
i
111
11
1
Inoltre la somma delle medie di due variabili pari alla
media della variabile somma, ovvero la media una misura
associativa dei dati:
YXYXMMM
Infine, la media di un insieme di dati tutti moltiplicati
per una costante pari a XaX
MaM , ovvero la media
una misura omogenea dei dati:
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
45
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
X
n
i
i
n
i
i
aXaM
n
X
an
aX
M 11
Sulla base delle propriet citate, si conclude che la
propriet seguente vera:
X
n
i
i
n
i
i
bXaMba
n
Xbna
n
bXa
M
11
Esempio. Date le variabili X con media 5XM e Y con
media 2YM , la media della variabile YX 2 vale
1452 YX
MM .
Loperatore media E[.]. Le differenti formule per il
calcolo della media aritmetica possono essere riassunte
introducendo il concetto di operatore media E . Loperatore serve a semplificare la simbologia quando non
importante riportare in modo esatto il calcolo effettuato.
Ad esempio la media di n dati individuali si scrive:
n
X
XE
n
i
i 1
Mediante loperatore E si possono riproporre le propriet della media gi incontrate: ccE ; XaEaXE ; XaEcaXcE . Va inoltre osservato che 22 XEXE .
Esempio. Si verifica che per la seguente distribuzione di X
nulla la somma dei dati:
iX -1 0 1 2
in 5 6 3 5
La media vale 0,421053 e la somma degli scarti nulla:
05421053,023421053,01
6421053,005421053,01
Si osservi che il valore 0X una modalit del carattere che non va trascurata nel calcolo della media. Possono
invece essere trascurati quei valori (teorici) di X che
hanno frequenza nulla, in quanto non presenti nei dati.
Esempio. Si calcola la media aritmetica di X :
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
46
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
iX 0 1 2 3 4 5 6
in 0,01 0,1 0,35 0,18 0,09 0,2 0,07
12,307,062,05...1,0101,00
7
1
i
i
ifXX
Esempio. Si calcola la media aritmetica della variabile X :
X in if
0 5 2 0,2
5 7 5 0,5
7 10 3 0,3
Quando le intensit della variabile X sono raccolte in
classi, per il calcolo della media aritmetica si utilizzano
i centri di classe, semisomma dei limiti di classe. I
centri di classe sono rispettivamente 5,2250 per la prima classe, 6 per la seconda e 8,5 per la terza.
La media aritmetica con le frequenze assolute in vale:
05,610
35,85625,23
1
3
1
i
i
i
ii
n
nX
X
Allo stesso risultato si giunge utilizzando le frequenze
relative if :
05,63,05,85,062,05,2
3
1
i
i
ifXX
14. Mediana e quantili
Nel linguaggio comune assumere una posizione o un
atteggiamento mediano significa stare nel mezzo,
posizionarsi al centro. Nel giuoco del calcio il mediano
il giocatore che sta a centro campo, a met strada tra i
difensori e gli attaccanti.
Mediana
La mediana Me di un carattere quellintensit che divide
i dati in due gruppi ugualmente numerosi: il primo gruppo
comprende quelle intensit che non superano la mediana; il
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
47
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
secondo gruppo formato da quelle intensit che superano
il valore mediano.
Propriet. Posizionando i dati lungo una retta orientata la
mediana si colloca nella posizione di ordine centrale,
minimizzando la distanza lineare tra ogni punto e la
mediana stessa7:
min1
n
i
iMeXMef
La dimostrazione di questa propriet laboriosa ed
quindi omessa. Si propone invece una interpretazione a
carattere intuitivo. Dati due punti di ascissa 1x e nx
posti lungo una retta orientata, la loro mediana minimizza
la somma delle rispettive distanze e si colloca pertanto al
centro del segmento di retta compreso tra i due punti:
Se si aggiungono due nuovi punti 2x e 3x sulla retta, la
mediana dei quattro dati n
xxxx ,,,321
deve soddisfare
nuovamente la propriet di minimo e si sposta quindi in
posizione centrale allinterno del nuovo intervallo
compreso tra 2x e 3x (figura B). Aggiungendo infine alla
retta altri due punti 4x e 5x , la mediana si sposta
nuovamente al centro dei nuovi punti (figura C) realizzando
nuovamente la condizione di minimo.
7 Si osservi la distinzione tra questa propriet e la propriet della media aritmetica di
rendere minima la somma del quadrato degli scarti dalla media stessa.
(A)
(B)
(C)
X1 XnMe
X1 XnMe
X1 XnMe
X2 X3
X5
X3X4 X2
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
48
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La mediana pu essere calcolata su caratteri qualitativi
ordinabili, su caratteri quantitativi discreti e su
caratteri quantitativi raccolti in classi.
Caratteri qualitativi ordinabili. In un gruppo di
determinazioni di un carattere qualitativo ordinabile la
mediana quellintensit che occupa il posto centrale tra
le determinazioni ordinate in modo crescente. Nel caso in
cui il numero di determinazioni pari, la mediana
rappresentata dalle due determinazioni che si trovano in
posizione centrale.
Caratteri quantitativi discreti. Per calcolare il valore
della mediana di un carattere quantitativo discreto occorre
distinguere il caso in cui i dati sono in numero pari dal
caso in cui i dati sono in numero dispari: nel primo caso
la mediana cade tra le intensit dei dati di posizione 2
n e
di posizione 12
n
; nel secondo Me corrisponde
allintensit di posizione 2
1n.
Caratteri quantitativi raccolti in classi. In una
distribuzione di frequenza per dati raccolti in classi non
si conoscono le intensit effettive ma solo la loro
distribuzione nelle classi assegnate. Dopo aver individuato
la classe in cui cade la mediana, per stimare la posizione
della mediana Me si procede per interpolazione lineare:
12
12
1
1
2XX
NN
NNXMe
Nella formula, 1X e 2X sono i limiti della classe in cui
cade il valore mediano; 1N la somma delle frequenze delle
classi che precedono la classe mediana e 2N la somma
delle frequenze delle classi fino a quella in cui cade la
mediana; 2N la met delle frequenze complessive.
Esempio. Si calcola la mediana della variabile X con
distribuzione:
X in iN
0 - 2 5 5
2 3 10 15
3 5 6 21
-
L.Bollani e L.Bottacin Appunti di statistica descrittiva
49
StatisticaOnLine2011@gmail.com
Materiale ad uso didattico. E vietata la riproduzione e la vendita.
La met delle frequenze totali vale 5,10221 e quindi la
mediana cade nella classe 2 3. Per interpolazione lineare
la mediana 2,55:
55,2223515
55,10
Me
Il grafico delle frequenze
top related