21-08-08 deskriptivna statisticka analiza
TRANSCRIPT
Deskriptivna statistika analizaPredava: Dr Mirko [email protected] www.eccf.su.ac.yu
Deskriptivna statistika analiza predstavlja skup metoda kojima se vri izraunavanje, prikazivanje i opisivanje osnovnih karakteristika statistikih serija.
Deskriptivna statistika analiza ima sledee zadatke: 1. Grupisanje i sre ivanje statistikih podataka. 2. Prikazivanje statistikih podataka. 3. Odre ivanje osnovnih pokazatelja statistikih serija.
1
Str. 51 i 104;29 i 56;19
Grupisanje i sre ivanje statistikih podataka Grupisanje podataka se vri prema vrednostima ili modalitetima posmatranih obeleja. Kao krajnji rezultat statistika serija. grupisanja javlja se
Statistika serija predstavlja ure eni skup varijacija obeleja posmatrane statistike mase.
Statistika serija se prikazuje u obliku tabele, najmanje u dva reda i dve kolone, gde je u prvoj koloni iskazana kvalitativna strana statistike mase, a u drugoj kvantitativna (brojana) strana.
2
Primer za statistiku seriju sa prekidnim numerikim obelejem (intervalna serija):Tabela broj 4: Raspored studenata prema broju poloenih ispita Broj ispita Broj studenata (X) (fi)1 2
0-2 3-5 6-8 Ukupno
10 20 15 45
Obeleje (X) kvalitativna strana
Frekvencija (f i) kvantitativna strana
DES-097 Z(06)1-1 Grupisanje, prekidna obeleja DES-098 Z(06)1-2 Grupisanje, neprekidna obeleja
Str. 69;35;23
Prikazivanje statistikih podataka Prikazivanje statistikih serija se moe vriti na dva naina: tabelarno, grafiki.
3
Statistika tabela predstavlja uokvirenu povrinu u koju se unosi statistika serija.Broj i naziv tabele Naziv obeleja (X)1
Naziv frekvencije (fi)2
Zaglavlje Redni broj kolone
Vrednost ili modalitet obeleja Vrednost ili modalitet obeleja. . .
f1 f2. . .
Vrednost ili modalitet obeleja Ukupno: Primedba: Izvor: Predkolonan
fni =1
fi
Zbirni red
Prema sadraju, tabele mogu biti: proste, sloene, kombinovane.
4
Str. 73;38;25
Grafiko prikazivanje
Grafikoni se najee dele na sledei nain: takasti (stigmogrami), povrinski, prostorni, linijski, kartogrami.
Primer za dijagram rasturanja
5
Primer za bar-dijagram
Primer za histogram frekvencija
6
Broj radnika prema odeljenjima i polu 14 12 10 Broj radnika 8 6 4 2 0 Prvo Drugo Odeljenje Tree 5 4 10 12 9 8 Muki enski
Primer za bar dijagram sa dva obeleja (ura eno u Excel-u)
Prinos penice u 2003. u mil. tona Izvor: Statistiki godinjak SCG za 2003. godinu
Juna Amerika, 24 Severna Amerika, 78
Okeanija, 24
Evropa, 200
Afrika, 18
Azija, 239
Primer za kruni dijagram pie-chart (ura eno u Excel-u)
7
Broj radnika prema odeljenjima i polu12 12 10 8 Broj radnik a 6 4 2 0 Prvo Drugo Tree 5 4 enski Muki Pol 10 9
8
Odeljenje
Primer za stereogram (ura eno u Excel-u)
Primer za poligon frekvencija (linijski dijagram)
8
Pravljenje preseka na osama
Poseta turista u hiljadamaJanuar 100 80 60 40 20 Oktobar 0 April
Decembar Novembar
Februar Mart
Septembar Avgust Jul Jun
Maj
Primer za polarni dijagram (linijski dijagram)
9
Primer za kartogram
Primer za loe grupisanje i grafiko prikazivanje: Imate li klima ure aj?
Da, u autu
27.7%
Da, u kui
44.6% 27.7%
Ne
Izvor: Blic, 7. avgust 2006.Primer za loe grafiko prikazivanje (Fresh&Co)
10
Kumulacija ispod i iznadTabela 1: Raspored domainstava u naselju prema broju automobila Broj automobila (xi)1
Broj domainstava (fi)2
Kumulacija ispod3
Kumulacija iznad4
0 1 2 3 Ukupno
4 8 10 5 27
4 12 (4+8) 22 (4+8+10) 27 (4+8+10+5) -
Kumulacija ispod i iznadTabela 1: Raspored domainstava u naselju prema broju automobila Broj automobila (xi)1
Broj domainstava (fi)2
Kumulacija ispod3
Kumulacija iznad4
0 1 2 3 Ukupno
4 8 10 5 27
4 12 (4+8) 22 (4+8+10) 27 (4+8+10+5) -
27 (5+10+8+4) 23 (5+10+8) 15 (5+10) 5 -
12 domainstava u naselju ima najvie 1 automobil 22 domainstava u naselju ima najvie 2 automobila
15 domainstava u naselju ima najmanje 2 automobila
11
DES-001 K(05)2-1 Grupisanje i grafiko prikazivanje statistikih podataka (prekidna numerika obeleja) DES-002 K(05)2-2 Grupisanje i grafiko prikazivanje statistikih podataka (neprekidna num. obeleja)
DES-013 K(05)2-3 Poligon kumul. frekvencija (neint. serija) DES-071 K(05)2-4 Poligon kumul. frekvencija (intervalna serija)
DES-008 K(05)z 2-1 Poligon i histogram - vrem. serija DES-054 K(05)z 2-2 Poligon i hist. frekvencija - prekidna DES-060 K(05)z 2-3 Grupisanje i sre ivanje neprekidno ob.
DES-058 K(05)z 2-4 Grupisanje i sre ivanje prekidno ob. DES-057 K(05)z 2-5 Poligon i histogram neprekidna ob. DES-059 K(05)z 2-6 Grupisanje i sre ivanje prekidno ob. DES-061 K(05)z 2-7 Grupisanje i sre ivanje neprekidno ob. DES-024; K(05)z 2-8 Srednje v., mere v., pol. i histogram DES-028; K(05)z 2-9 Mere varijacije negrupisani, prekidna DES-032; K(05)z 2-10 Srednje vred., Mere v. - grup. i prekidna DES-063; K(05)z 2-11 Geometrijska sredina DES-068; K(05)z 2-12 Srednje v. i mere v.-grupis., prekidna DES-064; K(05)z 2-13 Geometrijska sredina DES-016; K(05)z 2-14 Srednje v. i mere v., graf, neprekidno o.
12
I
Q2
V
Str. 104;60;37
Osnovne mere statistikih serijaU osnovne mere statistikih serija spadaju (nema u udbeniku): Srednje vrednosti (mere centralne tendencije). Mere varijacije (mere disperzije, rasprenosti). Mere oblika rasporeda.
2Q1
4
3Me
Mo
Q3
Str. 109;60;37
Srednje vrednostiSrednje vrednosti su vrednosti obeleja koje na specifian nain reprezentuju itavu statistiku masu, odnosno zamenjuju sve vrednosti u statistikoj seriji i karakteriu statistiku masu u celini.
13
Srednje vrednosti poseduju sledee osobine: Ne mogu biti vee od najvee vrednosti obeleja niti manje od najmanje vrednosti obeleja u seriji. Mogu imati vrednost koja uopte ne postoji u numerikoj seriji. Mogu biti izraene i decimalnim brojem bez obzira da li je u pitanju serija sa prekidnim ili neprekidnim obelejem.
Srednje vrednosti se dele u dve grupe: Izraunate srednje vrednosti. Srednje vrednosti po poloaju.Izraunate srednje vrednosti se mogu utvrditi samo raunskim putem. Tu spadaju:
aritmetika sredina* ( x ; ) geometrijska sredina* (G), harmonijska sredina* (H), kvadratna sredina, kubna sredina, logaritamska sredina.
14
Str. 143;69;37
Srednje vrednosti po poloajuTo su srednje vrednosti koje se mogu odrediti na osnovu pozicije na kojoj se nalaze kada su vrednosti obeleja pore ane u rastui niz.
Tu spadaju: modus* (Mo), medijana* (Me), medijala (Ml), kvartili* (Q), kvintali (Kv), decili (D), percentili* (P).
Str. 110;61;37
Aritmetika sredina (prosek)Simboli koji se koriste: Aritmetika sredina za uzorak: x (''iks-bar'') Aritmetika sredina za osnovni skup: (''mi'')
Prema tome da li su podaci grupisani ili ne, razlikuju se: prosta aritmetika sredina, ponderisana (sloena, vagana) aritmetika sredina.
15
Formule za aritmetiku sredinu:Prosta, za osnovni skup:
=
i =1 n
xi N;
N
Prosta, za uzorak:
x=
i =1
xi nk
;
Ponderisana, za osnovni skup:
= i =1 kk
xi f i;i =1
fi
Ponderisana, za uzorak:
x=
i =1 k
xi f i;i =1
fi
Primer 16 (strana 111) Prosta aritmetika sredina za osnovni skup
Primer 17 (strana 111) (grekom pie primer 15) Prosta aritmetika sredina za uzorak
Primer 18 (strana 112) Sloena aritmetika sredina za osnovni skup
Primer 21 (strana 118) Sloena aritmetika sredina za uzorak
16
Str. 135;65;39
Geometrijska sredinaSimbol: G
Geometrijska sredina spada u izraunate srednje vrednosti koja se koristi kada u numerikoj seriji obeleja pokazuju neke relativne pokazatelje (indekse) ili karakteristike geometrijske progresije.
Formule za geometrijsku sredinu:
Prosta geometrijska sredina:
log G =
log xii =1
n
nk i =1 k
;
Ponderisana geometrijska sredina: Geometrijska sredina:
log G =G=
f i log xi fii =1
;
log G
Geometrijsku sredinu nije mogue izraunati ako je neka vrednost obeleja jednaka nuli!
17
Primer za antilogaritam
logG=0,9542425Antilogaritam:
G=10logG=100,9542425=9Primer 37 (strana 136) Prosta geometrijska sredina DES-062 K:2-5 Prosta geometrijska sredina
Str. 138;67;40
Harmonijska sredinaSimbol: H
Harmonijska sredina je jedna od izraunatih srednjih vrednosti koja se izraunava iz recipronih vrednosti obeleja.Harmonijsku sredinu nije mogue izraunati ako je neka vrednost obeleja jednaka nuli!
18
Formule za harmonijsku sredinu:
Prosta harmonijska sredina:
H=
n ; n 1 i =1 x i fii =1 k k
Ponderisana harmonijska sredina:Primer 39 (strana 138) Prosta harmonijska sredina DES-067 K:2-6 Prosta harmonijska sredina
H =
fi i =1 x i
;
Str. 143;69;41
ModusSimbol: Mo Modus je ona vrednost obeleja koja se najee javlja u statistikoj seriji, odnosno ona vrednost obeleja koja ima najveu frekvenciju. Zato je modus nekad bolji od aritmetike sredine? Veliina obue ili odee.DES-081 Modus, negrupisani podaci Primer 46 (strana 144) Modus za neintervalnu numeriku seriju
19
Formula za modus (intervalna numerika serija):
M o = aM o +
f M 0 +1 f M o 1 + f M 0 +1
b
gde je: aMo donja granica modalnog intervala, f Mo-1 frekvencija pre modalnog intervala, f Mo+1 frekvencija posle modalnog intervala, b irina intervala, irina klase. U seriji moe da postoji vie modusa! Modus se moe utvrditi i na osnovu grafikog prikaza! Primer 47 (strana 146) Modus za intervalnu numeriku seriju
Str. 148;71;42
MedijanaSimbol: Me
Medijana je srednja vrednost po poloaju koja deli numeriku seriju na dva jednaka dela. Jedna polovina vrednosti obeleja je manja od nje, a druga polovina vea.
20
Formule za medijanu:Neparan broj podataka: Paran broj podataka:M e = x n+1 ;2
Me =
x n + x n +12 2
2k i =1
;
fi 2k
Intervalna numerika serija sa neparnim brojem podataka:
M e = aM e +
F m1 Fm
b ;
Intervalna numerika serija sa parnim brojem podataka:
i =1
f i +1 2 F m1 Fm b ;
M e = aM e +
gde je: aMe donja granica medijalnog intervala, aMe+1 gornja granica medijalnog intervala, Fm1 kumulacija pre medijalnog intervala, Fm frekvencija medijalnog intervala, b irina intervala, irina klase.
Medijana moe da se odredi i grafiki uz pomo kumulacija ispod i iznad.Primer 48 (strana 148) Medijana za negrupisane podatke neparan broj podataka Primer 49 (strana 149) Medijana za negrupisane podatke paran broj podataka Primer 50 (strana 149) Medijana za grupisane podatke neintervalna serija i neparan broj podataka Primer 51 (strana 150) Medijana za grupisane podatke neintervalna serija i paran broj podataka Primer 52 (strana 152) Medijana za grupisane podatke intervalna serija i neparan broj podataka Primer 53 (strana 153) Medijana za grupisane podatke intervalna serija i paran broj podataka
21
Zato je nekad bolje koristiti medijanu nego aritmetiku sredinu?
Primer: U naem preduzeu prosena plata je 400 evra!
=400Preduzee ima 6 radnika sa platama: 100, 100, 150, 150, 400, 1500 Me=150
Str. 160;;46
KvartiliSimboli: Q1, Q2, Q3 Kvartili su srednje vrednosti po poloaju koje dele statistiku seriju na etiri jednaka dela kada su vrednosti obeleja pore ane u rastui niz.
Postoji ukupno tri kvartila.
22
Prvi kvartil (Q1) deli numeriku seriju tako da je jedna etvrtina podataka manja od njega a tri etvrtine su vee. Drugi kvartil (Q2) je jednak sa medijanom (Me) i deli numeriku seriju tako da je jedna polovina podataka manja od njega a druga polovina vea. Trei kvartil (Q3)
Primer 57 (strana 160) Kvartili za negrupisane podatke neparan broj podataka Primer 61 (strana 162) Kvartili za grupisane podatke neintervalna serija i neparan broj podataka
Str. 175;;47
Percentili
Percentili su srednje vrednosti po poloaju koje dele statistiku seriju na sto jednakih delova. Simbol: P
Na primer, zarada radnika: P80=15000
23
Primeri za srednje vrednosti:DES-021 K:2-7 Aritmetika sredina, modus i medijana, negrupisani podaci
DES-022 K:2-8 Aritmetika sredina, modus i medijana, neintervalna serija
Str. 182;76;47
Mere varijacija (mere disperzije)Primer 76 (strana 182) Tri serije sa istim srednjim vrednostima Mere varijacije su pokazatelji relativnih i apsolutnih odstupanja vrednosti obeleja od neke srednje vrednosti, obino od aritmetike sredine.
24
U statistikoj praksi postoji velik broj mera varijacije: interval varijacije*, varijansa*, standardna devijacija*, koeficijent varijacije*, normalizovano (standardizovano) odstupanje (zskor)*, interkvartilna varijacija, srednje apsolutno odstupanje,
Str. 185;;48
Interval varijacije
Simbol: I
Interval varijacije predstavlja razliku najvee i najmanje vrednosti obeleja.
izme u
25
Formule za interval varijacije:
Za negrupisane podatke ili neintervalnu seriju: I = x max x min I = ak a0 Kod intervalne serije:
gde je: xmax najvea vrednost obeleja, xmin najmanja vrednost obeleja, ak gornja granica poslednjeg intervala, a0 donja granica prvog intervala.
Primer 77 (strana 185) Interval varijacije negrupisani podaci Primer 78 (strana 186) Interval varijacije grupisani podaci Primer 79 (strana 187) Interval varijacije grupisani podaci, intervalna serija
26
Str. 189;;49
Interkvartilna varijacija (ne radi se)Interkvartilna varijacija je mera varijacije koja zanemaruje uticaj ekstremnih vrednosti obeleja i pokazuje razliku izme u prvog i treeg kvartila u numerikoj seriji.
IQ = Q3Q1 DES-072 K:2-12 Kvartili, percentili, interkvartilna varijacija
Varijansa
Str. 196;79;49
Simbol: 2 (sigma na kvadrat)Prosek kvadrata odstupanja pojedinanih vrednosti obeleja od neke srednje vrednosti, najee od aritmetike sredine. Mera varijacije drugog stepena koja nema jedinicu mere.Njena vrednost se nalazi u intervalu [0, +]
27
Formule za varijansu:
Negrupisani podaci - osnovni skup: 2 = i =1 Negrupisani podaci - uzorak:
x i2 Nn
N
2;2
u2 =2=
i =1k
xi2 n x n 1
;
Grupisani podaci osnovni skup:
i =1 k
f i xi2i =1 k
2;k
fii =1
Grupisani podaci uzorak:
2 u =
i =1
xi2 f i x 2 f ii =1
f i 1
k
;
Primer 87 (strana 197) Varijansa negrupisani podaci, osnovni skup
Primer 90 (strana 204) Varijansa grupisani podaci, uzorak
28
Str. 209;83;50
Standardna devijacijaSimbol: (sigma) Proseno odstupanje pojedinanih vrednosti obeleja od odre ene srednje vrednosti, izraeno u jedinicama mere u kojima je izraeno i obeleje koje se posmatra. Mera varijacije prvog stepena. Njena vrednost se nalazi u intervalu [0, +]
Formule za standardnu devijaciju:
Za osnovni skup: = 2 ; Za uzorak:2 u = u .
29
Str. 210;84;50
Koeficijent varijacijeSimbol: V Relativna mera varijacije koja pokazuje koliko procenata iznosi standardna devijacija od aritmetike sredine.
Kada se koristi?
Formule za koeficijent varijacije:
Za osnovni skup: V = Za uzorak:
100 ; u 100 ; Vu =x
30
Str. 216;85;51
Normalizovano (standardizovano) odstupanje (z-skor)Mera varijacije koja pokazuje odstupanje jedne vrednosti obeleja od srednje vrednosti u standardnim devijacijama.
Kada se koristi?
Formule za normalizovano odstupanje:
Za osnovni skup: Za uzorak:
; X x = . Uu uU=
X
Primer 108 (strana 217) Normalizovano odstupanje DES-037 K:2-11 Normalizovano odstupanje dva uzorka
31
Primeri za mere varijacije:DES-023 K:2-9 Mere varijacije, negrupisani podaci, uzorak
DES-044 K:2-10 Srednje vrednosti, mere varijacije, intervalna serija, uzorak
DES-069 Z(06)3-1 Srednje vrednosti, mere varijacije, neintervalna, uzorak
Podaci o antropomerama gra ana SFRJ (16-55 godina starosti) (udbenik, strana 52)
MukarciNaziv obeleja Teina tela Visina tela Duina nosa irina ramena irina kukova Broj cipela Aritmetika sredina 72,8 174,64 5,01 48,80 39,78 42,91 Standardna devijacija 10,51 6,89 0,55 2,38 2,55 1,41
eneNaziv obeleja Teina tela Visina tela Duina nosa irina ramena irina kukova Broj cipela Aritmetika sredina 70,07 166,59 5,05 40,78 38,70 37,68 Standardna devijacija 12,91 9,25 2,49 2,20 1,40 1,06
32
Str. 218;86;57
Mere oblika rasporedaZa izraunavanje asimetrije i spljotenosti rasporeda koriste se sledee mere: mera asimetrije (3), mera spljotenosti (ekscesa) (4).
Mere oblika rasporeda se izraunavaju preko pomonih i centralnih momenata rasporeda.
Koeficijent asimetrije
Str. 229;92;58
Simbol: 3Numeriki pokazatelj koji izraava u kojoj meri je neki raspored asimetrian u odnosu na normalni raspored. Ako je: 3 = 0, raspored je simetrian, 3 > 0, raspored je asimetrian u desno (pozitivna asimetrija), 3 < 0, raspored je asimetrian u levo (negativna asimetrija).
33
3 = 0
x = Me = Mo
fi
3 > 0
fi
3 < 0
XMo < Me < x
Xx < Me < Mo
Raspored asimetrian u desnu stranu (pozitivna asimetrija)
Raspored asimetrian u levu stranu (negativna asimetrija)
U zavisnosti od veliine koeficijenta, odre uje se i jaina asimetrije. Gradacija je sledea: |3| 0,25 mala asimetrija, 0,25 < |3| 0,50 srednja asimetrija, |3| > 0,50 jaka asimetrija.
Formula za koeficijent asimetrije:
3 =
M3
3 u34
Str. 235;94;60
Koeficijent spljotenosti
Simbol: 4
Numeriki pokazatelj koji izraava u kojoj meri je neki raspored spljoten u odnosu na normalni raspored.
Formula za koeficijent spljotenosti:
4 =
M44 u
Na osnovu ove formule, koeficijent prua sledeu informaciju: 4 = 3, raspored je normalno spljoten (zaobljen), 4 > 3, raspored je vie izduen u odnosu na normalni raspored, 4 < 3, raspored je vie spljoten u odnosu na normalni raspored.
35
4 = 3
4 < 3
4 > 3
Primer 110, 113, 115 (strana 224, 232, 236) Koeficijenti asimetrije i spljotenosti neintervalna serija, uzorak
DES-074 K:2-13 Skiciranje mera oblika rasporeda
36