statisztika - psg.hupsg.hu/seged/mat/statisztika.pdf · rendszerezés • statisztika emberek vagy...
TRANSCRIPT
STATISZTIKA
KÉSZÍTETTE: TAKÁCS SÁNDOR
ALAPFOGALMAK
• Statisztika: latin status szóból ered: állapot – Mindig egy állapotot tükröz
• Véletlen tömegjelenségek tanulmányozásával foglakozik – Adatok – megfigyelés, kísérlet eredményei, mindig rögzítettek
• Mérhető adatok – számokkal kifejezhetőek
• Megállapítható adatok pl: igen/nem
– „Egy adat nem adat”
• Minta – egy vizsgálandó halmaz részhalmaza. A vizsgálandó halmazt mintasokaságnak, vagy populációnak nevezzük.
• Leíró statisztika: mintát önmagában tekinti, nem foglalkozik azzal, hogy mi van mögötte.
• Matematikai statisztika: a mintát eszköznek tekinti a populáció megismerésére
• Anekdota: a pénzügyminiszter letekint a Gellért hegyről a gyalogosokra, és mit lát? adóalanyokat
Mire jó a statisztika
• Görög bölcs mondája – olajprések felvásárlása, majd eladása
• Nagyvállalat sikeres tanácsadója –szélhámos – tippeit a jósnőtől kapta – Ne jusson el a információ a konkurenciához
– Milyen értéket képvisel a statisztika? Titkolják az alkalmazását?
– Student próba: Gasset az igazi szerző, Student fedőnév: sörgyári alkalmazott
– Minőségi ellenőrzés
– Szekvenciális analízis – Columbia egyetem – „bizalmas” kategóriába sorolták
– „hintába ültetés”
Feladat
• Stst ábrázolás
Rendszerezés
• Statisztika emberek vagy tárgyak csoportjait (mintáját) vizsgálja. – Sokaság csoport (statisztikai sokaság)
– Egyedek a csoport tagjai
– Sokaság mérete: az egyedek száma
– Ismérv egyedek vizsgált tulajdonságai • Tetszőleges számú ismérvet vizsgálhatunk
• Érdektelen ismérv – felesleges vizsgálni
– Adat ismérv egy konkrét előfordulása
– Pl: vizsgáljuk az iskola tanulóit hajuk színe szerint. • Sokaság: iskola tanulói
• Egyed: Szabó Kitti
• Sokaság mérete: 350 tanuló
• Ismérv: haj színe
• Adat: szőke (barna?)
feladatok
1. A cukorgyárban az egyik minőségi ellenőr azt vizsgálja, hogy mennyi cukrot töltenek a gépek a zacskókba. Ebben az esetben mi a statisztikai sokaság, és mi az ismérv? Mi az adat?
2. Készítsünk képzeletbeli vizsgálatot a drogot használók körében! Mi a statisztikai sokaság? Mik legyenek az ismérvek? Készítsünk a felméréshez kérdőívet!
3. Készítsünk felmérést a diákok kedvenc együtteseiről! Mi a statisztikai sokaság? Mik az ismérvek? Készítsünk a felméréshez kérdőívet!
Ismérvek és adatok fajtái
• Minősítéses ismérvek – Számmal nem kifejezhető, vagy számmal jelölt, de nem szám
jellegű ismérv
– Pl: egyed neme, kerület száma, utca neve New Yorkban
– Nincs értelme matematikai műveleteket végezni
• Rendezhető (pl: iskolai osztályzatok)
– Ha van értelme a rendezésnek
• Nem rendezhető (pl: hajszín)
– Méréses ismérvek
• Számmal meghatározható
• Van értelme matematikai műveleteket végezni
• Mindig rendezhető
– Diszkrét ismérv véges sok, vagy felsorolható értékeket vehet fel
– Folytonos ismérv bizonyos határok között bármilyen értéket felvehet
Gyakoriság
• Adat gyakorisága megmutatja, hogy hányszor fordul elő az adatok között.
• Gyakorisági táblázat (gyakorisági eloszlás): a lehetséges adatokat és azok gyakoriságát tartalmazza.
• Pl: iskolai felmérés, 40 diákot kérdezetek, kinek hány testvére van?
– Ismérv: testvérek száma
– Diszkrét
– A lehetséges értékek: 0,1,2,3,4
•
Testvérek
száma
Gyakoriság
0 7
1 19
2 9
3 4
4 1
Összese
n
40
Osztályközös gyakoriság
• Az adatokat osztályokba soroljuk.
• Az osztályokon alapuló gyakorisági eloszlást osztályközös gyakoriság-nak nevezzük.
• Mikor alkalmazzuk? – Sok különböző adat, viszonylag kis
gyakoriságokkal
– Folytonos ismérvek esetén
• Mire vigyázzunk? – Osztályoknak nem lehet közös része
– Le kell fednie a teljes tartományt
– Osztályok száma • Sem tú kevés, sem túl sok nem jó
• Általában 10-15 –nél több ne legyen
• Ajánlás: k0: osztályok száma, N a sokaság mértéke
• Pl: egy mozicsatorna szeptemberi filmjeinek hossza percben megad-va (100 film)
– A legrövidebb: 29 perc
– A leghosszabb: 135 perc
– Ajánlás szerint 7 osztály
– (135-29)/715 perc, egy osztály szélessége
1k ;22 0
1 kakkorN kk
Osztály Gyakoriság
[29-44) 10
[44-59) 6
[59-74) 25
[74-89) 31
[89-104) 12
[104-120) 7
[120-135] 9
Relatív gyakoriság
• Ismérv relatív gyakorisága (gyakorisági sűrűsége) a gyakoriság és az adatok számának hányadosa
– Gyakoriság: k
– Sokaság mérete: N
– Relatív gyakoriság: k/N
– Szokás százalékban is megadni
– Relatív gyakorisági táblázat (relatív gyakoriság szerepel)
10 n
k
Testvérek
száma
Gyakoriság Relatív
gyakoriság
0 7 17,5%
1 19 47,5%
2 9 22,5%
3 4 10%
4 1 2,5%
Összesen 40 100%
Ábrázolási módok • Oszlopdiagram
• Vízszintes oszlopdiagram
• Térbeli oszlopdiagram – Oszlopok magassága az adatok nagyságát
jelképezik
– Lehet a nagyságuk helyett a gyakoriságukat is ábrázolni
– Pl: tanulók a nyáron milyen közlekedési eszközzel utaztak nyaralni:
Nyaralás
9
11
8
5
3
0
2
4
6
8
10
12
autó busz vonat repülőgép kerékpár
Közlekedési eszköz
Gyere
kek s
zám
a
Nyaralás
9
11
8
5
3
0 5 10 15
autó
vonat
kerékpár
Köz
leke
dési
esz
köz
Gyerekek száma
0
2
4
6
8
10
12
Gyere
kek s
zám
a
autó vonat kerékpár
Közlekedési eszköz
Nyaralás
Közlekedési eszköz Összesen
Autó 9
Busz 11
Vonat 8
Repülőgép 5
Kerékpár 3
Oszlopdiagram
• Mikor használjuk? – Gyakoriságot, relatív
gyakoriságot, vagy valamilyen mennyiségeket szeretnénk összehasonlítani
– Adat időbeli változását akarjuk bemutatni
• Mikor ne használjuk? – Ha az adatok közt van egy
nagyon nagy. (a többi egymással nehezen hasonlítható össze)
– Ha az adatok nagyon kicsit különböznek egymástól
Nyaralás
9 11
200
5 8
0
50
100
150
200
250
autó
busz
más
repü
lőgé
p
vona
t
Közlekedési eszköz
Gyere
kek s
zám
a
Nyaralás
110 111 110 110
1
autó
busz
más
repü
lőgé
p
vona
t
Közlekedési eszköz
Gy
ere
ke
k s
zá
ma
Hisztogram
• Egy speciális
oszlopdiagram
– Oszlopok közt nincsenek
hézagok
– Gyakoriságok a téglalap
területével arányosak
– Téglalap magassága:
táblázatban szereplő
gyakoriságokat osztjuk a
megfelelő osztályköz
szélességével
– Pl: tanulók tömegét mérték
– 100 tanuló esetében:
tömeg gyakoriság Oszlop
magasság
30-40 2 0,2
40-50 10 1
50-60 24 2,4
60-70 35 3,5
70-80 19 1,9
80-90 6 0,6
90-100 4 0,4
0
0,5
1
1,5
2
2,5
3
3,5
4
35 45 55 65 75 85 95
Töröttvonal-grafikon
• Valamely mennyiség
időbeli változásának
szemléltetésére
használják.
• Más neve: vonaldiagram
• A pontokat összekötő
szakaszok csak a
változást érzékeltetik, két
pont között nincs értelme
értékről beszélni.
Átlaghőmérsékletek Tuinszban
0
5
10
15
20
25
30
35
40
január
febru
ár
márc
ius
április
máju
s
júniu
s
júliu
s
augusztu
s
szepte
mber
októ
ber
novem
ber
decem
ber
Hónap
hő
mé
rsé
kle
t (C
°)
Kördiagram
• Relatív gyakoriságok (elsősorban %-ban megadott) ábrázolására használjuk. Az ábrázolt százalékérték a körcikk középponti szögével egyenesen arányos.
• Kördiagram helyett néha tortadiagramot használnak. A középponti szögek torzulása miatt nem mindig ajánlott.
• Mikor használjuk? – Százalékban megadott relatív
gyakoriságokat akarunk ábrázolni
• Mikor ne használjuk? – Ha túl sok az adat
– Sok kis adat mellett egy sokkal nagyobb van
• Pl: Pistike napi időtöltése: – Iskola: 25%
– Alvás: 33%
– Evés: 8%
– Pihenés: 16%
– Házi feladat: 9%
– Egyéb: 9%
Pistike napi időtöltése
25%
33%8%
16%
9%
9%Iskola
alvás
evés
pihenés
házi feladat
egyéb
Pistike napi időtöltése
25%
33%8%
16%
9%9%
Iskola
alvás
evés
pihenés
házi feladat
egyéb
Feladatok Egy országos élelmiszer áruházlánc évi forgalmának
megoszlása: – Nem élelmiszer: 14,3%
– Egyéb élelmiszer: 6,7%
– Kávé: 2,9%
– Szeszesitalok: 9,7%
– Üditők, szörpök: 5,8%
– Konzervek, mirelit: 12,7%
– Tej, sajt, tejtermék: 19,5
– Kenyér, péksütemény: 14,2%
– Zöldség, gyümölcs: 2,9%
– Édesipari áruk, fűszerek: 11,3%
• Ábrázoljuk a megoszlást kördiagramon!
• Mekkorák az egyes körcikkek középponti szögei?
• Ha az évi forgalom 20 milliárd forint volt, számítsuk ki, mennyi bevétel származott az egyes kategóriákból!
• Ennek bemutatására készítsünk oszlopdiagramot!
Sávdiagram • Akkor használjuk, amikor a kördiagramot
• A százalékos adat egy téglalapban van megadva.
– Téglalap szélessége lényegtelen
– Téglalap hossza 100%
– A belsejében levő csíkok hossza a százalékos adatokkal arányos
– Ha több az adat, szerencsésebb, mint a kördiagram
• Függőleges helyzetű sávdiagramhalmozott oszlopdiagram
– Adatok összehasonlítására egymás mellé helyezett halmozott oszlopdiagramokat használnak.
• Ha az oszlopok magassága az összmennyiséggel arányos, torzulnak a részletek
• Egyforma magasságú (100 %-ig halmozott oszlopdiagram) esetén a százalékos arány nyomon követhető
Sávdiagram
0% 20% 40% 60% 80% 100%
Halmozott oszlop diagram
0
5
10
15
20
25
30
1 2
100%-ig halmozott oszlop diagram
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
1 2
Gyűrűdiagram • A kördiagram egy részlete, egy körgyűrű-sávot
levágunk a kördiagramból.
– több adathalmaz összehasonlítása: az egyes gyűrűkben
ábrázolhatjuk a különböző adathalmazokat.
• Csak indokolt esetben, mert az egyforma típusú adatokat
ábrázoló sávok elcsúszása egymáshoz viszonyítva zavaró lehet.
Gyűrűdiagram
1
6%2
12%
3
23%
4
6%
5
18%
7
6%
8
6%
9
23%
Gyûrûdiagram összehasonlítással
1
6% 2
12%
3
23%
4
6%
5
18%
7
6%
8
6%
9
23%
1
5% 2
8%
3
14%
4
19%
5
5%
7
22%
8
16%
9
11%
Sugár – Pókháló diagram
– ahány adat szerepel az
adathalmazban, annyi egy pontból
kiinduló félegyenest veszünk fel
– a szomszédosok egyforma szöget
zárnak be.
– Minden egyes adatot a neki
megfelelő félegyenesen ábrázolunk,
– a kapott pontokat egy törött vonallal
összekötjük.
• Szintén az adatok változásának
szemléltetésére alkalmas
– Az adatok változásának nagysága az
egyenesek meredekségéből
olvasható le
– minél jobban az origó felé tart egy
szakasz, annál jobban csökken az
adat nagysága, és fordítva.
Sugár (Pókháló) diagram
0
2
4
6
8
1
2
3
4
5
78
9
10
11
12
Módusz
• Az adathalmazból kapott, az adathalmazra jellemző számokat statisztikai mutatóknak nevezzük.
• Módusz: az adathalmazban előforduló adat, amelynek a legnagyobb a gyakorisága. Jel: Mo – Ha a gyakoriság egyszer
fordul elő egymóduszú, ha többször, többmóduszú eloszlás
• Pl: megfigyelik egy áruházban, hogy ki, hány palack ásványvizet vásárol egyszerre.
• Mo=5
Egyszerre
vásárolt palackok
száma
Gyakoriság
1 32
2 16
3 4
4 43
5 65
6 51
7 7
8 3
9 1
Medián
• Az adathalmaz mediánja a nagyság szerint
rendezett elemek közül a középső. Jel: Me
– A halmaz elemeit sorba kell rendezni
– Csak rendezhető adatoknak lehet mediánja
– Páratlan számú adat: Me a középső (van)
– Páros számú adat esetén: Me a két középső
számtani közepe (nincs egy középső)
– A medián a sorba rendezett adatokat két részre
osztja. A medián előtt ugyanannyi adat van, mint
utána.
Kvartilisek
• A medián alatti adatok mediánja az alsó
kvartilis: Q1. Az alsó kvartilis alatt az
adatok ¼ része, fölötte ¾ része van.
• A medián feletti adatok mediánja a felső
kvartilis: Q3. Az felső kvartilis alatt az
adatok ¾ része, fölötte ¼ része van.
• A medián a középső kvartilis: Q2
Q1 Me Q3
Számtani közép
• Két adat számtani közepe a két adat összegének a fele. – Csak akkor van értelme, ha
az összeg értelmezhető
• Méréses adatoknak van számtani közepe
• Minősítéses adatoknak nincs
• Több adat számtani közepét úgy kapjuk meg, hogy az adatokat összeadjuk, és elosztjuk az adatok számával.
2
21 xxx
n
x
n
xxxxx
n
i
i
n
1321 ...
Súlyozott átlag
Osztály Egységek
száma
Egységek
értéke
C1 f1 x1
C2 f2 x2
… … …
Ci fi Xi
… … …
Ck fk xk
Összesen
: n
n
xf
x
vagy
n
xfxfxfxfx
k
i
ii
kk
1
332211 ...
Összefoglalás
• Méréses ismérveknél mindhárom az adatok között helyezkedik el. (nagyobb, mint a legkisebb, kisebb mint a legnagyobb)
• A számtani közép nagyon érzékeny a kiugró értékekre.
• A medián ezzel szemben nem érzékeny a kiugró értékekre. Ezért néha használják számtani közép helyett, ha azt a kiugró értékek „nagyon elvinnék”
– A medián esetében pontosan annyi adat van előtte, mint utána
Minősítéses ismérv Méréses ismérv
Nem rendezhető Rendezhető Diszkrét Folytonos
módusz módusz módusz módusz
medián medián medián
számtani közép számtani közép
Szóródás
• Csak méréses adatokkal foglalkozunk
• Megmutatják, hogy az adatok mennyire
tömörülnek a középértékek körül
• Szóródási mutatók
– Terjedelem
– Átlagos abszolút eltérés
– Szórás
Terjedelem
• A legkisebb és legnagyobb adat közti
különbség a terjedelem
– Mértékegysége azonos a méréses ismérv
mértékegységével
– A terjedelem intervallumában minden adat
benne van
– Interkvartilis terjedelem: Q3-Q1 különbsége
Q1 Me Q3
1/4 1/4 ½
Interkvartilis terjedelem
Hőmérsékletek
• Magyarország és Tunézia átlaghőmérsékleti adatai
• Készítsünk vonaldiagramot a két hőmérsékleti eloszlásról egy koordinátarendszerben
• Határozzuk meg a hőmérsékletek középértékeit
• Melyik ország átlaghőmérséklete körül tömörülnek jobban az adatok
– Számítsuk ki a terjedelmet mindkét esetben
– Jelöljük különböző színnel a grafikonon
Hónap HU Tunézia
január -2,0 C 16,0 C
február 0,5 C 17,0 C
március 4,0 C 19,0 C
április 10,4 C 21,0 C
május 13,1 C 25,0 C
június 18,4 C 27,0 C
Július 20,3 C 31,0 C
augusztus 19,6 C 32,0 C
szeptember 15,6 C 31,0 C
Október 10,2C 26,0 C
November 4,4 C 20,0 C
december -0,1 C 17,0 C
Apák-fiúk magassága
• Állapítsuk meg a táblázat alapján, hogy az apák, vagy a fiúk magasságainak átlaga körül tömörülnek jobban az adatok!
• Állapítsuk meg az apák és a fiúk esetében is: Me,Q1,Q3
• Mely adatok találhatók az interkvartilis terjedelem intervallumában?
Apák Fiúk
167 164
168 166
169 166
171 168
172 169
172 170
174 170
175 171
176 173
182 177
Hiányzások
• A táblázat azt mutatja,
hogy egy 30 fős osztály
tanulói mennyit
hiányoztak 5 hónap alatt.
• Számítsuk ki, hogy az
osztály tanulói átlagosan
mennyit hiányoztak!
• Mi a minta terjedelme,
mediánja, módusza?
• Állapítsuk meg az
interkvartilis terjedelmet!
Mulasztott napok száma
7 8 3 9 4 2 3 0 4 5
3 2 4 2 3 5 3 8 1 6
6 5 0 3 4 6 1 4 1 5
Átlagos eltérések Vizsgáljuk meg a Magyaror-
szág havi középértéktáblá-
zatában, hogy az egyes
hónapok középhőmérsékletei
mennyire térnek el az átlagtól!
(havi középhőmérsékletből
kivonjuk az átlagot)
havi középhőmérsékletek
átlaga: 9,53 C
Pl. januárra:
Hónap HU
január -2,0 C
február 0,5 C
március 4,0 C
április 10,4 C
május 13,1 C
június 18,4 C
Július 20,3 C
augusztus 19,6 C
szeptember 15,6 C
Október 10,2C
November 4,4 C
december -0,1 C 53,1153,9211 xxx
• Számítsuk ki, hogy mennyi az átlagos eltérés az
átlagos középhőmérséklethez képest!
12
... 1221 xxxx
• Mennyi lett az eredmény?
• Az eredmény: 0
– az adatok az átlagtól átlagosan nem térnek el
– bizonyítható, hogy az eltérések összege mindig 0
– a pozitív és negatív számok kiegyenlítik egymást
– nem sok információval szolgál
Átlagos abszolút eltérés a számtani
középtől
12
... 1221______ xxx
x
• Mennyi az eredmény?
• az eredmény: 6,7925
• Meghatározás: A számtani középtől való átlagos
abszolút eltérés az eltérések abszolút értékének
számtani közepe.
• Vegyük az eltérések abszolút értékét:
n
xxx n
x
...21
______
Átlagos abszolút eltérés • Definíció: Egy adott a valós számtól vett átlagos abszolút eltérés az
adathalmaz értékeinek az adott a számtól vett eltérések abszolút értékeinek számtani közepe.
n
axaxax
anx
...21
______
• Feladat: Határozzuk meg a leghidegebb és a legmelegebb hónap középhőmérsékletétől vett átlagos abszolút eltérést!
• Megjegyzés: Az a számtól vett átlagos abszolút eltérés az abszolútérték-függvény tulajdonságai miatt akkor a legkisebb, ha az a szám a mediánnal egyenlő. (a=Me)
• Definíció: Az átlagos abszolút eltérés a mediántól vett eltérések abszolút értékeinek számtani közepe.
n
MexMexMex
Menxx
... 21
_________________
Feladatok 1. Határozzuk meg Magyarország klímatáblázata
alapján a havi középhőmérsékletek mediánját,
majd az átlagos abszolút eltérést!
2. Az alábbi táblázat a munka alól felmentésüket
kérő rabok életkorát mutatja egy
fegyintézetben.
18 20 25 30 37 18 22 27 32 55 60 32 35
45 47 51 18 23 37 42 57 62 75 67 65
Számítsuk ki a minta terjedelmét, a számtani
középtől vett átlagos abszolút eltérését és az
átlagos abszolút eltérését!
Feladatok 3. Tizenkét diák részére matematikából egyhetes
intenzív verseny-előkészítőt tartottak. A hét
végén egy 50 pontos felmérőt írtak. Az alábbi
eredmények születtek:
42 29 21 37 40 33 38 26 29 47 30 45
Mi az adatok mediánja és számtani közepe?
Számítsuk ki a számtani középtől vett átlagos
eltérést és az átlagos abszolút eltérést!
Szórás • ha a különböző előjelű számok semlegesítő hatását
négyzetre emeléssel szűntetjük meg, egy adott számtól
való átlagos négyzetes eltérést kapjuk.
• ha a= , akkor minimálisszórásnégyzet
• Definíció: A szórásnégyzet az eltérések négyzetének
számtani közepe.
• A szórás a szórásnégyzet négyzetgyöke.
n
xxxxxx n
22
2
2
12 ...
x
2
Feladatok
1. Számítsuk ki a klímatáblázat szórását!
– 2=59,2489
– =7,69
2. Számítsuk ki a következő adatok
számtani közepét és szórását: a. 1;4;8;9;10;
b. 3,2;4,7;5,1;5,2;6,3
c. 103;109;110;112;125;131
d. -5;-2;0;1;2;3