okna vesmíru statistiky dokořán

Post on 08-Feb-2016

51 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

DESCRIPTION

Okna vesmíru statistiky dokořán. Martina Litschmannová Katedra aplikované matematiky, FEI, VŠB-TU Ostrava. Co je to statistika?. Google – 196.10 6 odkazů (čeština), 2,88.10 9 odkazů (angličtina) Uspořádaný datový soubor (statistika přístupů na web. stránky, - PowerPoint PPT Presentation

TRANSCRIPT

Okna vesmíru statistiky dokořán

Martina LitschmannováKatedra aplikované matematiky, FEI, VŠB-TU Ostrava

Co je to statistika?Google – 196.106 odkazů (čeština), 2,88.109 odkazů (angličtina)

• Uspořádaný datový soubor (statistika přístupů na web. stránky, statistika střel na branku, statistika nehodovosti, ekonomické statistiky, …) Český statistický úřad, Real Time Statistics Project

• Teoretická disciplína, která se zabývá metodami sběru a analýzy dat (matematická statistika vs. aplikovaná statistika)

• Číselný údaj „syntetizující“ vlastnosti datových souborů (četnost, průměr, rozptyl, …)

Proč je dobré znát (alespoň) základy statistiky?

Kvantitativní výzkum

Hypotéza Sběr dat

Analýza dat

Vyhodnocení

Zdroj: technet.idnes.cz

„Informace, informace….“„Ó, data! “

Číslo 5 žije

Teorie

Hledání pravdy

Proč je dobré znát (alespoň) základy statistiky?

Kvantitativní výzkum

Hypotéza Sběr dat

Analýza dat

Vyhodnocení

Zdroj: technet.idnes.cz

„Informace, informace….“„Ó, data! “

Číslo 5 žije

Teorie

Hledání pravdy

Základní pojmy ze statistické metodologie

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie

výběrové šetření

úplné šetření

• Populace (základní soubor) je množina všech prvků, které sledujeme při statistickém výzkumu. Je dána výčtem prvků nebo vymezením jejich společných vlastností.• (Statistické) jednotky - prvky populace• (Statistické) znaky (proměnné, veličiny) – kvantitativní údaje, které u výběrového souboru sledujeme• Pokus (sledování vlivů různých faktorů) vs. šetření (výzkumník je pouze pozorovatelem)

Základní pojmy ze statistické metodologie

• Reprezentativní výběr (odráží strukturu populace) vs. selektivní výběr• Metody vybírání prvků z populace: záměrný výběr (založen na expertním stanovisku), náhodný výběr

výběrové šetření

Exploratorní (popisná) statistika

Základní pojmy ze statistické metodologie

výběrové šetření

Exploratorní (popisná) statistika

• Popisná statistika (angl. Exploratory Data Analysis, EDA) - uspořádání proměnných do názornější formy a jejich popis několika málo hodnotami, které by obsahovaly co největší množství informací obsažených v původním souboru.

Základní pojmy ze statistické metodologie

výběrové šetření

Exploratorní (popisná) statistika

Exploratorní analýza dat

Typy proměnných

Typy proměnných

Kvalitativní proměnná (kategoriální, slovní...)

Ordinální proměnná(lze uspořádat)

Nominální proměnná(nelze uspořádat)

Kvantitativní proměnná (numerická,

číselná ...)

EDA pro kategoriální veličinu

Kategoriální veličina nominální (nemá smysl uspořádání)

(např. Typ SŠ, Barva auta, Pohlaví, …)

Číselné charakteristiky

+ Modus (název nejčetnější varianty)

TABULKA ROZDĚLENÍ ČETNOSTI

Variantyxi

Absolutní četnostini

Relativní četnosti

pi

x1 n1 p1=n1 /n

x2 n2 p2=n2 /n

xk nk pk=nk /n

Celkem: n1+n2+…+nk=n 1

Číselné charakteristiky

TABULKA ROZDĚLENÍ ČETNOSTI

Pohlaví Absolutní četnosti Relativní četnosti[%]

Muž 457 58,2

Žena 328 41,8

Celkem: 785 100,0

Modus = Muž

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Grafické znázorněníA) Sloupcový graf (bar chart)

VýborněChvalitebně

ProspělNeprospěl

02468

101214161820Počet

Grafické znázorněníA) Sloupcový graf (bar chart)

Na co si dát pozor?

• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

Grafické znázorněníA) Sloupcový graf (bar chart)

1993 20070

5000

10000

15000

20000

25000

Sloupcový graf

USAČR

Prod

ukce

CO

2 [k

g] n

a os

obu

Na co si dát pozor?

zdroj dat:http://en.wikipedia.org/wiki/List_of_countries_by_carbon_dioxide_emissions_per_capita

Grafické znázorněníA) Sloupcový graf (bar chart)

Na co si dát pozor?

• Subjektivně vnímáme plochu (objem), nikoliv výšku jednotlivých „sloupců“.

• Nadbytečné názvy grafu, legendy, …

• Neefektivní nuly

A na co ještě?

1993 20070

5

10

15

20

25

USA ČR

Prod

ukce

CO

2 [t

un] n

a os

obu

1993 20070%

20%40%60%80%

100%120%

USA ČR

Prod

ukce

CO

2 [t

un] n

a os

obu

(% ro

ku 1

993)

1993 200710

12

14

16

18

20

USA ČR

1993 200790%

92%

94%

96%

98%

100%

USA ČR

Který z grafů je „správný“?

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

5; 12%

10; 24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

5; 12%10;

24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

5; 12%

10; 24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

5; 12%10;

24%

20; 48%

7; 17%

VýborněChvalitebněProspělNeprospěl

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

Anketa

Jste pro navýšení hodinové dotace matematiky na SŠ?

50%50%

PRO PROTI

TAKHLE NE!!!

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu

38%

34%

9%

3% 7%6%

2% 1%

Výskyt krevních skupin a Rh faktoru [%] v USA

0+A+B+AB+0-A-B-AB-

Krevní skupina

Rh faktorCelkemRh+ Rh-

0 38 7 45A 34 6 40B 9 2 11

AB 3 1 4Celkem 84 16 100

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu, legendy, …

• Ne vždy je graf přehlednější než tabulka

A na co ještě?

64; 29%

114; 53%

32; 15%

6; 3% 1; 0%

Srozumitelnost výkladu

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

76; 35%

103; 47%

37; 17% 2; 1%

Srozumitelnost řešených příkladů

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

73; 34%

80; 37%

48; 22%

15; 7% 1; 0%

Množství řešených příkladů

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

82; 38%

96; 44%

34; 16%5; 2%

Užitečnost úloh k samostatné práci

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

31; 15%

75; 36%

81; 39%

18; 9% 3; 1%

Praktické aplikace

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

89; 41%

92; 42%

25; 11%8; 4% 5; 2%

Grafická úprava

Hodnocení 1Hodnocení 2Hodnocení 3Hodnocení 4Hodnocení 5

2 grafy ještě chybí …

Srozumitelnost výkladu

Srozumitelnost řešených příkladů

Množství řešených příkladů

Užitečnost úloh k samostatné práci

Praktické aplikace

Grafická úprava

Míra používání textu

Dostatečnost textu

0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%

64

76

73

82

31

89

76

66

114

103

80

96

75

92

67

85

32

37

48

34

81

25

52

55

6

2

15

5

18

8

23

6

1

1

3

5

1

3

Hodnocení modulu PRA(220 respondentů)

1 2 3 4 5

100% skládaný pruhový graf

Grafické znázorněníB) Výsečový graf – koláčový graf (pie chart)

Na co si dát pozor?

• Neuvádění absolutních četností, resp. celkového počtu respondentů v „blízkosti“ grafu

• Nadbytečné názvy grafu, legendy, …

• Ne vždy je graf přehlednější než tabulka

• „Jediná věc je horší než výsečový graf – několik nebo dokonce mnoho výsečových grafů“

Van Belle

Kategoriální proměnná ordinální (má smysl uspořádání)

(např. míra nezaměstnanosti (nízká, střední, vysoká), dosažené vzdělání, …)

Číselné charakteristikyTABULKA ROZDĚLENÍ ČETNOSTI

Variantyxi

Absolutní četnosti

ni

Relativní četnosti

pi

Kumulativní četnosti

mi

Kumulativní relativní četnosti

Fi

x1 n1 p1=n1/n n1 p1

x2 n2 p2=n2/n n1+n2 p1+p2

xk nk pk=nk/n n1+n2+…+nk=n p1+p2+…+pk=1

Celkem: n1+n2+…+nk=n 1 ---- ----

+ Modus

Seřa

zené

pod

le v

elik

osti

Číselné charakteristiky

TABULKA ROZDĚLENÍ ČETNOSTI

Míra nezaměstnanosti

Absolutní četnosti

Relativní četnosti

[%)

Kumulativní četnosti

Kumulativní relativní četnosti

[%)nízká 27 13,6 27 13,6

střední 146 73,7 173 87,4

vysoká 25 12,6 198 100,0

Celkem: 198 100,0

Modus = střední

Grafické znázornění

A) Sloupcový graf (bar chart)

B) Výsečový graf – koláčový graf (pie chart)

EDA pro numerická data

Číselné charakteristiky

A) Míry polohyB) Míry variability

Míry polohy

Aritmetický průměr

n

xx

n

ii

1

Na co si dát pozor?

• Harmonický průměr (proměnné vyjadřující čas na jednotku výkonu, poměrná čísla)• Geometrický průměr (tempa růstu)

• Vážený průměr• Průměrování dat na cirkulární škále

• Průměr není rezistentní vůči odlehlým pozorováním!

Circular Statistics Toolbox

Kvantily

100p %-ní kvantil xp odděluje 100p% menších hodnot od zbytku souboru

(100p% hodnot datového souboru je menších než toto číslo.)

Význačné kvantily

• KvartilyDolní kvartil x0,25

Medián x0,5 Horní kvartil x0,75

• Decily – x0,1; x0,2; ... ; x0,9

• Percentily – x0,01; x0,02; …; x0,99

• Minimum xmin a Maximum xmax

Interkvartilové rozpětí

25,075,0 xxIQR

Užití: např. při identifikaci odlehlých pozorování

Identifikace odlehlých pozorování• Metoda vnitřních hradeb

mpozorováníodlehlýmjexIQRxxIQRxx iii 5,15,1 75,025,0

Dolní mez vnitřních hradeb

Horní mez vnitřních hradeb

Identifikace extrémních pozorování• Metoda vnějších hradeb

mpozorováníextrémnímjexIQRxxIQRxx i,i,i 33 750250

Dolní mez vnějších hradeb

Horní mez vnějších hradeb

PříkladV předložených datech identifikujte odlehlá pozorování:

MN [%]8,77,86,86,87,89,7

15,76,84,96,8

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

MN [%]4,96,86,86,86,87,87,88,79,7

15,7

MN0,5=7,3

MN0,25=6,8

MN0,75=8,7

IQR=MN0,75-MN0,25=1,9

Vnitřní hradby:Dolní mez: 6,8-2,85=3,95 Horní mez: 8,7+2,85=11,55

1,5.IQR=2,85

PříkladV předložených datech identifikujte odlehlá pozorování:

Míry variability

Výběrový rozptyl

1

1

2

2

n

xxs

n

ii

Na co si dát pozor?

Rozměr rozptylu charakteristiky je druhou mocninou rozměru proměnné.

Výběrová směrodatná odchylka

1

1

2

2

n

xxss

n

ii

Empirické pravidlo 6 sigma

k1 0,6822 0,9543 0,998

kkP X

Variační koeficient

%100xsVx

(Směrodatná odchylka v procentech aritmetického průměru)

• Čím nižší var. koeficient, tím homogennější soubor.

• Vx > 50% značí silně rozptýlený soubor.

Proč potřebujeme bezrozměrnou míru variability?Umožňuje srovnání variability proměnných, které mají různé jednotky.

Grafické znázornění num. proměnné

A.) Krabicový graf (Box plot)

Grafické znázornění num. proměnné

B.) Histogram

05

1015202530354045

<27,

1; 5

7,2>

(57,

2; 8

7,3>

(87,

3; 1

17,4

>

(117

,4; 1

47,4

>

(147

,4; 1

77,6

>

Četnost

02468

10121416

<27,

1; 3

6,5>

(45,

9; 5

5,3>

(64,

7; 7

4,1>

(83,

5; 9

2,9>

(102

,3; 1

11,7

>

(121

,1; 1

30,5

>

(139

,9; 1

49,3

>

(158

,7; 1

68,1

>

Četnost

Na co si dát pozor?

Grafické znázornění num. proměnné

B.) Histogram

Grafické znázornění num. proměnné

B.) Histogram

27,1 43,8 60,6 77,3 94,0 110,7 127,4 144,1 160,8 Další0

5

10

15

20

25

30

Data

Četn

ost

05

1015202530354045

<27,

1; 5

7,2>

(57,

2; 8

7,3>

(87,

3; 1

17,4

>

(117

,4; 1

47,4

>

(147

,4; 1

77,6

>

Četnost

Na co si dát pozor?

MS Excel 2007, funkce Histogram

Výpočetní applet Explorační analýza (excel, projekt MI21)

Souvislost mezi číselnými charakteristikami a grafy

Java applet – Výběrové charakteristiky projekt MI21

A jsme téměř na konci…

Ještě otázka pro ŠKOMAM CUP!

Volíme-li odpověď na tuto otázku náhodně, jaká je šance, že odpovíme správně?

A) 25%B) 50%C) 0%D) 25%

A to už je opravdu konec!

Děkuji za pozornost

top related