appunti di statistica
DESCRIPTION
appunti di statistica descrittiva per studenti IULM e per tutti coloro che hanno nel loro piano di studi tale materia.TRANSCRIPT
Introduzione alla dispensa • Le pagine a seguire sono degli appunti da me redatti per l’esame di
statistica e ricerche di mercato; voto preso: 21/30 • Se sei come me uno studente della IULM ti consiglio ad ogni modo
di attenerti al programma vigente che puoi consultare al seguente link: https://servizionline.iulm.it/esse3/ProgrammaCorso.do;jsessionid=?CDS_ID=10024&AA_OFF_ID=2011&AD_ID=1737&AA_ORD_ID=2008&PDS_ID=9999&FAT_PART_COD=N0&DOM_PART_COD=N0
• Altrimenti puoi usarlo liberamente come punto di partenza del tuo studio ed ampliarlo a seconda del materiale richiesto dal tuo docente. Esempio di come può cambiare un programma: http://www.scienzepolitiche.unimi.it/CorsiDiLaurea/2013/B18of2/pianoStudi/curriculum/B18-7/B18-7.13.1/index_ITA_HTML.html
Statistica: formule ed esercizi (parte1)
• Le frequenze• I grafici
Le frequenze• Assolute: descrivono il numero di volte con cui una modalità si presenta nello
studio del carattere, si rappresentano con ni
• Assolute cumulate: è la somma delle frequenze assolute; le Ni servono per il
calcolo della mediana e del secondo e terzo quartile• Relative: consente di confrontare tra loro le modalità di due o più distribuzioni;
si indicano con fi e si calcolano come: fi= n
i/N
i. Esistono anche qui le cumulate,
ma non sempre si calcolano. Quando si tratta di caratteri nominali le Fi non si calcolano.
• Percentuali: se moltiplichiamo fi per cento otteniamo le pi. Le percentuali cumulate servono per trovare, alternativamente, Me Q1 e Q2
• Ampiezza: si calcola quando abbiamo a che fare con caratteri che si possono dividere in classi; si calcola così: ai=x
i+1-x
i-1
• Densità: di=ni/ai; si calcola per rappresentare graficamente le distribuzioni in classi e anche per Me; Q1 eQ3 per distribuzioni in classi
Esempi amici(xi) spesa (ni) spesa (Ni)Chicco € 50,00 €50Barbara € 55,00 €105Federico € 53,00 €158Giuseppe € 75,00 €233Elisa € 25,00 €258Linda € 40,00 €298Stefano € 60,00 €358Giorgia € 65,00 €423Totale € 423,00
sesso ni Ni fi piF 11 0,55 55M 9 0,45 45totale 20 1 100
esempio
età ni Ni ai fi pi Fi Pi19-28 4 4 9 0,2 20 0,2 2029-37 2 6 8 0,1 10 0,3 3038-46 7 13 8 0,35 35 0,65 6547-55 2 15 8 0,1 10 0,75 7556-64 5 20 8 0,25 25 1 100totale 20 1 100
Rappresentazioni grafiche• Torte: per rappresentare le % di un carattere qualitativo/
quantitativo abbiamo bisogno di Ni; ni ed α; dove α= (360ni)/N
• Pittogrammi: servono per attirare l'attenzione del lettore• Grafici a nastri e a barre: per caratteri qualitativi; nelle scale
nominali c'è una gerarchia da rispettare• Istogramma: per distribuzioni in classe• Grafico a stella**: mostra i dati su variabili multiple in forma di un grafico
bidimensionale di tre o più variabili, rappresentate su assi con la stessa origine.
**http://it.wikipedia.org/wiki/Diagramma_di_Kiviat
Parte 2
• Misure di posizione centrale:• Media; Mediana e quartili per unità e classi• Scorciatoie• Altre misure di dispersione
Misure di posizione centrale• La media*: è la forma più semplice di sintesi numerica e si calcola così:a)b) • La mediana: individua la metà precisa di un collettivo statistico; per
calcolarla bisogna:➔ Ordinare le ni in ordine crescente➔ Calcolare Ni➔ Applicare una di queste due formule:
● Per la distribuzione in classi applicherò invece la seguente formula, a prescindere dal collettivo:
*è meglio dire medie infatti oltre alla media aritmetica altre medie (vedi tabella 1)
X Me=N1
2;conN =dispariX Me=
N2
e N12
;conN =dispari⇒ Me=X Me
2
X Me=l inf N 12
−N i−1a i
ni;conl inf =limiteinferioredellaclassemedianae
a i
ni=l'inversodelladensitàdellaclassemediana
M =∑ xi n i
Nsendiversoda1;M =
∑ x i
Nsen =1
M =∑ xi v.c. i
Nperclassiilvalorecentraleèlamediadeilimiti
Misure di posizione centrale
• Quartili: oltre alla mediana, Q2, ce ne sono due: Q1 indica dove ricade il 25% del collettivo statistico esaminato; Q3 dove ricade il restante 75%
➔ Per calcolarli bisogna seguire gli stessi step di Q1 ed applicare per le distribuzioni in unità le seguenti formule:
➔ Mentre per quelle in classi:
Q1=N 1
4;Q 3=
3N 14
;
Q1=linf N10,25a i
n i;Q 3=linf N 10,75
a i
ni
Esempio
• Calcolare la mediana e i quartili di questo collettivo
Ordino e calcolo Ni
calcolo N/2=4/2=2; N/2+1=3 quindi la distanza mediana è 18km
Q1=(N+1)*0,25=1,25 è in prima posizione quindi 12km Q2=(N+1)*0,75=3,75 quindi 90km
Scorciatoie
• Se, una volta ordinate le ni in modo crescente, calcolo le Ni e le Pi trovo più velocemente i quartili infatti:
➔ Q1=P1=50%➔ Q2=P2=25%➔ Q3=P3=75%
Esempio scorciatoia
• Calcolare la mediana e i quartili di questo collettivo
Ordino e calcolo Ni e Pi
Stesso risultato con meno sforzo!
Esercizio • Calcolare la distanza media, mediana e quartile di questo
collettivo e rappresentare i dati con apposito grafico:
ni=1
M=(370*1)/4=92,5
N=4
Q1=12km; Q2=18; Q3=90km
Esercizio(continua)
• Il grafico più giusto per rappresentare i dati è il diagramma a barre
Esercizio (continua)
• Qui si utilizza l'istogramma
0
0,5
1
1,5
2
2,5
10_30 30-40 40-50 50-70
di
classi
grafico
0
0,5
1
1,5
2
2,5
50-70 40-50 10_30
di
classi
grafico Q1;Q2;Q3
Parte3
• Misure di dispersione:➢ Differenza interquartilica➢ Range➢ Varianza➢ Scarto quadratico medio e coefficiente di
variazione
Misure di dispersione• Differenza interquartilica: nelle ricerche di marketing serve
per calcolare il potere discriminante di una scala likert, o stepel, e per rappresentare il box plot: un grafico per individuare eventuali outlier
• Range: viene detto anche campo di variazione e viene definito come la differenza tra il valore più grande e il valore più piccolo di un insieme di dati ordinati in ordine crescente
D.I.=Q3−Q1 l inf =Q1−1,5D.I.l ¿=Q31,5D.I.
R=X max−X min perchèsiaattendibileX max≤X M±R2≤X min
Esercizi
• Calcolare la mediana e i quartili di questo collettivo e in seguito la D.I.
Q1=12km; Q2=18; Q3=90kmD.I.=90-12=72kmL
inf=12-117=-105
Linf
=90+117=207
xmin
=8 xmax
=30
R=30-8=22
Misura di dispersione (continua)• La varianza: rappresenta lo scostamento da un valore di un
riferimento, la media in questo caso, che ho preso come rappresentativo; per calcolarla:
➢ Ordino le xi in modo crescente➢ Calcolo la media➢ Ed applico:
➢ Per le distribuzioni in classi:
( )= ∑∑
2
i2i
xx-
n
( )= − ∑∑ ∑
2i i2
i ii
xf(x)xf(x)
f(x)
Misure di dispersione (fine)
• Scarto quadratico medio: lo si ottiene estraendo la radice quadrata della varianza
• Il coefficiente di variazione: è una percentuale utile a misurare senza errori di misura due differenti distribuzioni: C.V.= s.q.m
M∗100
Esercizio
• Calcolare media, varianza, s.q.m. e c.v. della seguente distribuzione e rappresentare graficamente la media assieme ai quartili
Mara Luca Laura Media Fabiokm percorsi 12 18 90 92,5 250
0
50
100
150
200
250
300
km p
erco
rsi
Questa distribuzione si dice asimmetrica a destra in quanto Me<M.Altrimenti, Me>M, è asimmetrica a sinistra. Infine, una distribuzione risulta simmetrica quando Me=M
Esercizio • Calcolare media, varianza, s.q.m. e c.v. della seguente
distribuzione in classi
Parte4
• Altre misure di dispersione:➔ Scarto semplice medio dalla media➔ Scarto semplice medio dalla mediana
Scostamento semplice medio
• Dalla media
• Dalla mediana
∑∣X −M∣∗n i
Noppure,davantiafrequenzeunitarie, ∑∣X −M∣
N
∑∣X −Me∣∗ni
Noppure,davantiafrequenzeunitarie, ∑∣X −Me∣
N
esercizio
• Calcolare media mediana e i due scarti semplici della seguente distribuzione
Due grafici particolari• La curva normale: la utilizzo quando ho a che fare con
variabili continue e voglio sapere, note M s.q.m e varianza, le frequenze assolute e relative tramite processo di standardizzazione.
• Il box plot: lo “derivo” dall'istogramma e lo uso quando voglio sapere se mi trovo davanti a possibili outlier e se la mia distribuzione esaminata è asimmetrica, mi dice pure dove, oppure no
Un esempio di curva normale
A me tuttavia interessa l'area da 1.36 in poi (quella piccola area blu)
Formulario riassuntivo(parti1-4)
Formulario riassuntivo(parti1-4)
Esercizi • Costruire l'istogramma della seguente distribuzione e calcolarne i quartili
• La seguente tabella riporta la superficie delle provincie della Campania; costruire un grafico a torta
• Nella seguente tabella è riportata la distribuzione delle fa per n° di componenti in un dato comune: calcolarne la media e i quartili