základy popisné statistiky
DESCRIPTION
Základy popisné statistiky. aneb známe tři druhy lži: úmyslná neúmyslná statistika. popisn á statistika. cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali důsledkem je ztráta informací! charakteristiky polohy a variability. - PowerPoint PPT PresentationTRANSCRIPT
Základy popisné statistiky
aneb známe tři druhy lži:– úmyslná– neúmyslná– statistika
popisná statistika
• cílem je zjednodušit nějaká data tak, abychom se v nich lépe vyznali
• důsledkem je ztráta informací!
• charakteristiky polohy a variability
Statistika je jako bikini. Co odhaluje je zajímavé, co skrývá je podstatné.
Aaron Levenstein
průměrná teplota: 9.2°C
minimum: 4°C
maximum: 15°C
rozsah: 11°C
modus: 9°C
medián: 9°C
rozptyl: 5.1°C
směrodatná odchylka: 2.3°C
den teplota
1.4.2008 11
2.4.2008 10
3.4.2008 10
4.4.2008 9
5.4.2008 8
6.4.2008 7
7.4.2008 8
8.4.2008 9
9.4.2008 4
10.4.2008 9
11.4.2008 8
12.4.2008 7
13.4.2008 8
14.4.2008 9
15.4.2008 12
16.4.2008 13
17.4.2008 15
18.4.2008 11
19.4.2008 12
20.4.2008 10
21.4.2008 9
22.4.2008 8
23.4.2008 9
24.4.2008 11
25.4.2008 10
26.4.2008 9
27.4.2008 6
28.4.2008 6
29.4.2008 7
30.4.2008 12
samotná data (11; 10; 10; 9; 8;……) = základní soubor
N = počet prvků základního souboru = 30
(prvek = pozorování)
Xi = hodnota i-tého prvku (X1=11; X16=13;…)
Histogram
0
2
4
6
8
10
12
Třídy
četn
ost
četnost
teplota
0.0
2.0
4.0
6.0
8.0
10.0
12.0
14.0
16.0
teplota
histogram četností
zajímá nás rozložení dané proměnné v celém souboru
vývoj proměnné
zajímá nás vývojový trend proměnné
Různé typy dat• data na stupnici
– nominální (kategoriální, klasifikační)• dané třídy (kategorie)• barva očí, typ podloží,….
– ordinální (pořadová)• mohu seřadit• známky ve škole, stupnice tvrdosti,…
– intervalové• dané intervaly mezi jednotkami• nemají podíly (nemají jednoznačně danou nulu)• teplota• čas
– cirkulární (pozor na průměry!)
– podílové (poměrné)• jednoznačně daná nula• měření,…..
Když má hlavu v sauně a nohy v ledničce, hovoří statistik o příjemné průměrné teplotě. Franz Josef Strauß
základní popisné statistiky
• průměr– aritmetický
– geometrický
– harmonický
N
XN
i
i 1
NN
iiX1
N
i iXN 1
111
základní soubor:
4,5,6,8,12
7535
5128654
49,61286545
06,6
121
81
61
51
41
51
1
vážený průměr• zobecnění
aritmetického• zohledňuje důležitost
některých pozorování
• potřebuji hodnoty (x1, x2, x3,…) a jejich váhy (w1, w2, w3,….)
n
ii
n
iii
w
wxX
1
1
30 samic má průměr hmotnosti 60 kg, 20 samců má průměr 80 kg. Celkový průměr není 70 kg, ale
682030
20803060
základní popisné statistiky• modus
– nejčastěji se vyskytující hodnota– min. modus = 1, max. modus = N– může jich být víc– odpovídá vrcholu histogramu četností
• medián – polovina pozorování menší než medián, polovina větší– střed uspořádaného základního souboru– další kvantily – kvartily, percentily apod. (86% percentil říká, že 86%
prvků leží pod touto hodnotou a 14% nad ní)– i pro pouze „seřazená“ data (na ordinální stupnici) – např. jídlo je
vynikající (1), dobré (2), ucházející (3), bez chuti (4), nic moc (5), hnusné (6), vyvolávající zvracení (7)
– Beaufortova stupnice síly větru, Mohsova stupnice tvrdosti apod.– v případě „ulítlé“ hodnoty lepší vypovídající hodnota než průměr
základní popisné statistiky
• pokud mám platy v podniku: • 14 520; 11 350; 12 645; 14 520; 13 562; 14 520;
32 458; 38 452; 10 235; 11 548;• „průměrný plat“ = 16 824• medián = 13 562
Histogram
02468
10
1100
0
1500
0
1900
0
2400
0
2800
0
3200
0Dalš
í
Třídy
Čet
no
st
Četnost
základní popisné statistiky
• rozptyl (variance)– průměrná hodnota
druhé mocniny odchylky od průměru
• směrodatná odchylka– odmocnina z rozptylu– čím menší, tím nižší
variabilita dat
N
XN
ii
1
2
2
základní soubor:
4,5,6,8,12
průměr = 7
85
2511495
)712()78()76()75()74( 222222
2
83,28
histogram četnostíHistogram of hind femur
340 360 380 400 420 440 460 480 500 520
velikostní třídy
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
poče
t poz
orov
ání
hind femur: SW-W = 0,9935; p = 0,9417
normální rozdělení
náhodný výběr
• většinou nemáme k dispozici celý základní soubor (všechny mihule, klešťanky, brambory, deváťáky apod.)
• provedeme tedy náhodný výběr, ten zkoumáme a na základě výběrového šetření se snažíme hypotetický základní soubor popsat
• charakteristiky tedy (sofistikovaně) odhadujeme!!!
• není snadné provést náhodný výběr
charakteristiky výběru
• počet prvků n• průměr se počítá stejně
• rozptyl (variance) výběru jinak!
• směrodatná odchylka výběru
• variační koeficient – porovnává variabilitu nestejně velkých objektů (myš a slon) – bezrozměrné číslo
n
XX
n
íi
1
1
)( 2
12
n
XXs
n
íi
2ss
Xs
CV
• směrodatná odchylka výběru– empirické pravidlo: většina hodnot se neodlišuje od
průměru o více než jednu směrodatnou odchylku a skoro všechny hodnoty jsou v pásmu do dvou směrodatných odchylek od průměru.
normální rozdělení:
přesnost odhadu průměru
• výběrový průměr = náhodná veličina! (náhodné výběry z jednoho základního souboru se liší) má také svůj rozptyl
• z rozptylu průměru lze spočítat směrodatnou odchylku průměru = střední chyba průměru
• nepopisuje variabilitu dat, ale přesnost odhadu
ns
sx
X
22
n
ss xX
8 4 8
7 2 7
8 2 8
8 4 8
7 2
8 4
8 4
9 3
8 4
6 6
9 15
8 14
7 16
8 12
6 16
9 16
průměr 7.75 7.75 7.75
sm. odchylka 0.90 5.64 0.43
modus 8 4 8
medián 8 4 8
sm. odchylka výběru 0.93 5.83 0.50
střední chyba průměru 0.23 1.45 0.25
n 16 16 4
náhodné výběry:
vždy musím uvádět n, průměr, sm. odchylku
ostatní podle potřeby
Histogram
0
5
10
15
4 8 12 16 Další
Třídy
Čet
nost
Četnost
Histogram
05
10
4 8 12 16 Další
Třídy
Četno
st Četnost
Histogram
05
4 8 12 16 Další
Třídy
Četno
st
Četnost
grafy
• vynikající prostředek pro zpřehlednění dat
• také pro klamání čtenáře
Produkce škodlivin
0
20
40
60
80
100
120
1990 2000
Pro
du
kc
e /
os
ob
u
ČR
UK
podle Biostatistika, Lepš, PřF
Produkce škodlivin
0
20
40
60
80
100
120
1990 2000
Pro
du
kc
e (
% r
ok
u 1
99
0)
ČR
UK
podle Biostatistika, Lepš, PřF
Produkce škodlivin
88
90
92
94
96
98
100
102
1990 2000
Pro
du
kc
e (
% r
ok
u 1
99
0)
ČR
UK
podle Biostatistika, Lepš, PřF
http://www.coolschool.ca/lor/AMA11/unit1/U01L02.htm
http://alex.state.al.us/lesson_view.php?&print=friendly&id=26406
• vždy je třeba vědět z jakého základu se počítají procenta!
• pozor na tvrzení typu: hodnota klesla o 10% (např. ze 40% na 30% tedy ve skutečnosti o 25%!!!, ale o 10 procentních bodů)
jak na to v excelu?
• statistické funkce– PRŮMĚR, SMODCH, MODE, MEDIAN, VAR,
ČETNOSTI,… (pozor – maticové vzorce – zaklínadlo Ctrl+Shift+Enter)
– =SMODCH.VÝBĚR(F1:F16)/ODMOCNINA(POČET(F1:F16))
• grafy – spojnicové, sloupcové, koláčové– podle typu dat, záměru
jak na to v excelu?
• pro pokročilé funkce musíme aktivovat doplněk „analýza dat“
histogram četnosti• velmi užitečný, zobrazuje přibližné rozdělení
sledované proměnné• vizualizace frekvence dat
Histogram
0
2
4
6
8
10
12
Třídy
četn
ost
četnost
program Statistica
sledovaná proměnná
jednotlivé případy
Program Statistica (data viz cvic1.xls)
Data zadávám jinak než v excelu!
Program Statistica (data viz cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše při provádění statistických testů
• nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“
Program Statistica (data viz cvic1.xls)
• Statistica mi deskriptivní statistiky vypíše při provádění statistických testů
• nicméně mohu volat Statistika – Základní statistika/tabulky – Popisná statistika
• zde mohu dát jen jednu kategorii – pokud jich mám více, zadám „select cases“
Program Statistica (data viz cvic1.xls)
• v záložce rozšířené (advanced) vyberu, které charakteristiky chci zobrazit
Program Statistica (data viz cvic1.xls)
• Histogram – volám Grafy-histogramy
Excel (data viz cvic1.xls)
• Histogram – buď Analýza dat….• anebo fce Četnosti + sloupcový graf (pozor na
zaklínadlo Shift+Ctrl+Enter)počet
0
5
10
15
20
25
30
340 360 380 400 420 440 460 480 500 520 více
Kontingenční tabulka• vizualizace kategoriálních dat
zdroje a materiály
• Lepš J.: Biostatistika• http://botanika.bf.jcu.cz/suspa/vyuka/statistika.php
• Papáček M., Slipka J., 1997: Úvod do odborné práce (pro posluchače studia učitelství biologie). PF JČU, České Budějovice, 88 s.