le misure di variabilità come strumento per identificare

13
Le misure di variabilità come strumento per identificare intervalli “notevoli” La variabilità misurata come dispersione nella stessa scala dei dati (attraverso la deviazione standard o scarto quadratico medio) permette di identificare delle soglie di oscillazione intorno alla media: esse identificano degli intervalli che contengono una certa quota di frequenza ossia di dati osservati. Se le distribuzioni sono simmetriche, allora anche tali intervalli lo sono. In particolare in caso si perfetta simmetria avremo che: ! ± = 68,2% ! ± 2 = 95,4% ! ± 3 = 99,7% 141

Upload: others

Post on 08-Apr-2022

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Le misure di variabilità come strumento per identificare

Le misure di variabilità come strumento per identificare intervalli “notevoli”• La variabilità misurata come dispersione nella stessa scala dei

dati (attraverso la deviazione standard o scarto quadraticomedio) permette di identificare delle soglie di oscillazioneintorno alla media: esse identificano degli intervalli che contengono una certa quota di frequenza ossia di datiosservati.

• Se le distribuzioni sono simmetriche, allora anche tali intervallilo sono.

• In particolare in caso si perfetta simmetria avremo che:

• !𝑋 ± 𝜎 = 68,2%

• !𝑋 ± 2𝜎 = 95,4%

• !𝑋 ± 3𝜎 = 99,7%141

Page 2: Le misure di variabilità come strumento per identificare

Teoremi di Tchebychev e MarkovIl fondamento di tale «regola empirica» proviene dai risultati di due importanti teoremi, che ci permettono di ottenere informazioni sui dati (espresse in termini di frequenza relativa in genere) anche in caso nel caso in cui le uniche informazioni che si conoscono sono la media !𝑋 e la deviazione standard 𝜎.

Il teorema di Chebichev in particolare afferma che:𝑓( 𝑥! − !𝑋 ≥ 𝑘𝜎) ≤ "

#!

Dove k è un numero qualsiasi non nullo (1, 2, 3.. Nell’esempio della regola empirica)che nel caso di distribuzioni simmetriche ottiene intervalli simmetrici centrati dalla media come quelli visti.

Il teorema di Markov, che ha notevoli applicazioni, dimostra anche in caso di non conoscenza della variabilità, che è possibile identificare la frequenza di una distribuzione di cui è nota la media !𝑋 sulla base di tale relazione

𝑓 𝑥! ≥ 𝑎 ≤!𝑋𝑎

Dove a è un numero qualsiasi positivo non nullo

142

Page 3: Le misure di variabilità come strumento per identificare

Vediamo due esempi per capire meglio l’utilità pratica dei risultati di tali teoremi.Supponiamo di conoscere soltanto 1) il voto medio al risultato del compito scritto di Statistica (23/30) 2)lo scarto quadratico medio pari a 3/30Quale è la frequenza degli esaminandi che ha ottenuto una votazione superiore o inferiore all’intervallo !𝑋 ± 1,5𝜎?Utilizzando la disuguaglianza di Tchebychev possiamo dire che tale quantità sarà minore o uguale a 1/(1,5)2 = 1/0,4444 ossia il 44,4%

Supponiamo di conoscere il voto medio dei risultati ai compiti scritti di tutta la sessione (19/30) cui hanno partecipato 30 studenti, quanti sono gli studenti che hanno superato gli scritti con un voto superiore al 28?

f(xi ≥ 28) ≤ 19/28 = 0,68 ossia non più di 18… forse molti di meno, dipende dalla variabilità che non conosciamo!

Ma l’applicazione più interessante si può trovare nella trasformazione dei dati detta «standardizzazione».

143

Page 4: Le misure di variabilità come strumento per identificare

Valutare le informazioni statistiche in relazione alla loro variabilità: la normalizzazione e la standardizzazione

• Il coefficiente di variazione –misura relativa di variabilità – ci fornisce uno strumento per valutare la deviazione standard in percentuale rispetto alla media, ossia ci permette di dire in termini «neutri» (= punti percentuali) quale è la variabilità di un fenomeno in relazione alla sua scala di misura il cui ordine medio è viene misurato proprio dalla media (aritmetica)

• Abbiamo parlato talvolta di normalizzazione, con tale espressione intendiamo una trasformazione dei dati originari che tende ad eliminare gli effetti della scala originaria dei valori in modo da permettere le comparazioni su una scala (0,1), si può utilizzare il Min o il Max di una distribuzione sempre in relazione al range. Si preferisce in genere il Minimo perché rappresenta il valore più basso al di sotto del quale non c’è informazione e pertanto il valore trasformato sarà espresso in termini di differenza da dallo zero. Si usa il Massimo in genere per operare un «ribaltamento» ossia una interpretazione alla luce del valore oltre il quale non c’è informazione.

• Tra queste una delle più rilevanti è la standardizzazione di solito indicata con la lettera Z (eng: Z-score) che consiste in una trasformazione di scarto rispetto alla medie e relativizzazione rispetto alla propria deviazione standard:

𝑧! =𝑥!" #!𝜎$

144

Page 5: Le misure di variabilità come strumento per identificare

Trasformare i dati attraverso la normalizzazione e la standardizzazione

145

-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

2,00

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

X norm(-min) X norm(-max) Z score

1-2,00

-1,50

-1,00

-0,50

0,00

0,50

1,00

1,50

2,00

X norm(-min) X norm(-max) Z score

Page 6: Le misure di variabilità come strumento per identificare

Altre misure di forma di una distribuzione: l’Asimmetria (Skewness) e la Kurtosi

• Abbiamo spesso parlato di asimmetria, indicando la prevalenza di osservazioni su valori bassi (Asimmetria positiva – gobba a sinistra) o su valori alti (Asimmetria negativa – gobba a destra). possiamo introdurre desso una misura specifica della skewness proposta da Pearson:

Sk1 = %#"&"'# ≅

%#"&$'#

• Un’altra misura proposta da Fisher utilizza la variabile z-score o meglio la sua media cubica potenziata:

𝑆𝑘2 =∑%&'( $%" %# )

)')146

Page 7: Le misure di variabilità come strumento per identificare

Il «peso» delle code: la Kurtosi• In principio era l’ornitorinco (platypus)…!• Pearson propone di chiamare kurtosi (o dis-normalità) la tendenza di una distribuzione di curvarsi• Un effetto specifico connesso alla kurtosi

è la leggerezza (o pesantezza) delle code ossia la rilevanza in termini di frequenze rilevate dei valori estremi• È possibile calcolare la kurtosi con la

formula proposta da Fisher:

𝛾 = ∑%&'( $%" %# *

)'* - 3147

Page 8: Le misure di variabilità come strumento per identificare

Il metodo dei momenti• Pearson sviluppa il suo sistema statistico, prendendo a presti dalla fisica il

concetto di momento (= fulcro).

• I momenti vengono calcolati sugli scarti dalla media che è il momento primo, per cui:• La varianza è il momento secondo• L’asimmetria è il momento terzo• La Kurtosi è il momento quarto

• La funzione generatrice dei momenti ha avuto uno sviluppo nell’ambito della Inferenza statistica come metodi di costruzione si uno stimatore sui dati campionari.

148

Page 9: Le misure di variabilità come strumento per identificare

Eterogeneità ovvero misurare la variabilità di un carattere qualitativo (indici di mutabilità)

• È possibile misurare la variabilità dei caratteri quantitativi, in tal caso si parla di mutabilità. Essa è riferita alla differente numerosità osservata particolarmente quando un carattere qualitativo è politomico ossia si manifesta con diverse modalità.

• Se ciascuna modalità si manifesta con la medesima frequenza parleremo di «omogeneità», diversamente di «eterogeneità».

• È possibile costruire delle misure sintetiche, assolute e relative:

Data una variabile qualitativa X che presenta k modalità, sia la sua distribuzione di frequenze f1, f2, f3,.. fk l’indice di Omogeneità assoluta sarà:

Oass= ∑"#$% 𝑓"&

Tale misura aumenta quanto più le frequenze sono concentrate su poche modalità e quanto minore è il numero delle modalità, il suo massimo è 1 quando tutte le frequenze si concentrano su una modalità mentre il suo valore minimo è $

%, quando tutte le frequenze sono

uguali fra di loro; risente però dal numero k delle modalità per questo si propone un secondo indice di Omogeneità relativa:

Orel = %%'$

∑"#$% 𝑓"&

Tale indice assume valore 1 quando tutte le osservazioni sono concentrate in un’unica modalità oppure quando tutte le modalità hanno uguale frequenza.

• Tutte le misure che abbiamo presentato possono essere ricalcolate come complementi (1 – O) e interpretate come misure di eterogeneità

149

Page 10: Le misure di variabilità come strumento per identificare

Indice di Eterogeneità di Gini

• In particolare tra gli indici di eterogeneità, viene menzionato quello proposto da Gini:

EG= 1- (∑*+,- 𝑓*.)

Esso è pari a 0 nel caso di perfetta omogeneità e cresce all’aumentare della eterogeneità tra le modalità. Il suo valore massimo è pari a 1- ,

,"- ossia -,"-.

150

Page 11: Le misure di variabilità come strumento per identificare

La misura di Entropia• Una misura di omogeneità interessante, molto utilizzata in ambito economico e sociale, è quella di Entropia.

La parola «entropia» (dal greco «rivolgimento») fu introdotta in fisica da Clausius: in accordo con il secondo principio della termodinamica l’entropia di un sistema isolato non diminuisce mai e aumenta nelle trasformazioni irreversibili, per esempio nei processi spontanei in cui il sistema raggiunge uno stato di equilibrio. È una misura del «dis-ordine».

• Nella teoria dell’informazione Claude Shannon ha proposto l’entropia come misura del cambiamento di stato in relazione al contenuto dell’informazione: l’entropia si riduce (ossia l’ordine aumenta) se il contenuto dell’informazione aumenta.

• In statistica l’entropia misura l’eterogeneità di un sistema (io suo dis-ordine). Essa ha tre diverse formulazioni:

E1 = ∑$%"# 𝑓$ ln(fj )E2=-∑$%"# 𝑓$ ln(fj )E3= #

#&"E2

• La formulazione maggiormente utilizzata è la seconda (E2) che ha un campo di variazione tra 0 e ln(k)

• Quando fj (=nj/N) =0, tale misura può essere calcolata grazie al calcolo asintotico poiché lim'!→)

'(*𝑙𝑛 '(

*= 0151

Page 12: Le misure di variabilità come strumento per identificare

Lezione 4. Concetti chiave• Variabilità• Dispersione• Deviazione e Varianza• Coefficiente di Variazione• Mutua variabilità• Concentrazione• Asimmetria e Kurtosi• Standardizzazione e Z-Score• Eterogeneità• Entropia

152

Page 13: Le misure di variabilità come strumento per identificare

Gli argomenti della lezione potranno essere approfonditi come segue:

153

Mecatti Di Ciaccio - Borra Agresti - Franklin

Capitolo 7 Capitolo 4 Capitolo 2