matematikai statisztika [3mm] programtervezo...
TRANSCRIPT
Matematikai statisztikaPROGRAMTERVEZO INFORMATIKUS alapszak, A szakirány
Arató Miklós
Valószínuségelméleti és Statisztika TanszékTermészettudományi Kar
2019. február 11.
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 1 / 31
Tudnivalók a tantárgyról
Kötelezo irodalom: az eloadásokon és gyakorlatokon elhangzottak– a bemutatott módszerek, definíciók, tételek, bizonyítások, példák.Ajánlott irodalom:
Korpásné: Általános statisztika I. tankönyv leíró statisztikáhozMolnárné-Tóthné: Általános statisztika példatár I. példatár leíró
statisztikáhozBolla-Krámli: Statisztikai következtetések elmélete. tankönyv
matematikai statisztikáhozFazekas (szerk.): Bevezetés a matematikai statisztikába. tankönyv
matematikai statisztikáhozMóri-Szeidl-Zempléni: Matematikai statisztika példatár.Pröhle-Zempléni: Statistical Problem Solving in R. Elérési helye:http://zempleni.elte.hu/Stat_R_Prohle_Zempleni R programnyelv bevezeto, a benne szereplo statisztikai témák erosenátfednek az eloadással
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 2 / 31
Tudnivalók a tantárgyról, követelmények
A tárgy felvételéhez a Valószínuségszámítás tárgy elvégzéseszükségesA jelenlét kötelezo az eloadáson és a gyakorlaton is (3-3 hiányzáslehetséges)Gyakorlati jegy pontszámai
2 alkalommal 90 perces dolgozat, 50 pontért3 alkalommal 15 perces röpdolgozat, 12 pontértLesz egy javítási lehetoség is (a nagy dolgozatoknak legalább 15
pontosoknak kell lenniük)Beadandó önálló feladat (statisztikai elemzés), 50 pontért. Mindenki
válasszon adatbázist (határido: március 14). Az elemzés beadásihatárideje május 20, de ha elobb elkészül, van ido javítani avisszajelzések alapján. Legalább 20 pontot el kell érni!Tervezett ponthatárok: 2-es 75 ponttól,, 5-ös 150 ponttól
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 3 / 31
A tananyagról
Tervezett tematika:Leíró statisztikaBecsléselméletHipotézisvizsgálatTöbbdimenziós statisztika elemei
A matematika a táblán fog megszületni; a leíró statisztikaianyagrészek nagy része, közérdeku infók, feladatok szövegei,érdekességek, szimulációk, egyéb ábrák lesznek kivetítveA diák az anyagnak csak egy részét fedik le!!!
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 4 / 31
Felhasznált szoftver/programnyelv: R
Statisztikai modellezésre, adatok elemzésére kiválóan alkalmasprogramnyelvNyílt forráskódú, ma már alig van probléma, feladat, aminek amegoldására ne lenne valamilyen package – akár több isNépszerusége 2017 februárjában az összes programozási nyelvmezonyében:
9. hely – PYPL index16. hely – TIOBE index
Jelenleg a legelterjedtebb matematikai célú programnyelv
Letöltési helye: https://cran.r-project.org/Szövegszerkesztésre ajánlott szoftver: RStudioletöltési helye: https://www.rstudio.com/products/rstudio/download3/
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 5 / 31
A statisztika történeteKezdetek: népszámlálások az ókorban (Kína, Római Birodalom)A statisztika szó eredete (vitatott):
status [latin]: állapotStaat [német]: állam Sokáig a statisztika az állam állapotáról fontos információkbegyujtését jelentette.Tudománnyá válásának kezdete: 17. század – demográfia(népesség/társadalomstatisztika)A 19. századtól
a statisztika mindenféle információ begyujtésének, feldolgozásának ésértelmezésének a tudományává váltÖsszekapcsolódás a valószínuségelmélettel
A számítógépek megjelenésével fejlodése felgyorsult ésjelentosége megnottA statisztika megítélése vegyes, az eredményeket mindig kritikusankell szemlélni Churchill: "I only believe in statistics that I doctoredmyself " (Csak azoknak a statisztikáknak hiszek, amiket én magamhamisítottam.)
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 6 / 31
Motiváció
Kérdések, amikre statisztikai eszközökkel – bizonyos mértékig –választ tudunk adni:
A tavalyelotti egy nagyon hideg január volt a Kárpát-medencében.Állíthatjuk-e, hogy nincs is globális felmelegedés?A dohányzás mennyivel növeli annak az esélyét, hogy valaki 70éves koráig tüdorákban betegszik meg?A legutóbbi USA-beli elnökválasztáson a közvélemény-kutatókWisconsin államban közvetlenül a választás elott átlagosan6,5%-os Clinton-elonyt mértek. Mi az esélye, hogy Wisconsin-banTrump fog gyozni? [ 0,7%-kal Trump nyert]Vajon állíthatjuk-e, hogy egy év során a bizonyos méretetmeghaladó napfoltok száma Poisson-eloszlást követ? Elore tudjukjelezni a múltbeli adatok alapján, hogy 2019-ben hány napfoltotfognak észlelni?
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 7 / 31
A statisztika fogalma és ágai
Statisztika: a valóság tömör, számszeru jellemzésére szolgálótudományos módszertan, illetve gyakorlati tevékenység.Ágai:
Leíró statisztika: magába foglalja az információk összegyujtését,összegzését, ábrázolását, tömör, számszeru jellemzését szolgálómódszereketMatematikai statisztika: matematikai tudomány, adatokfeldolgozásáról, értelmezésérol és felhasználásáról szólótudományos módszertan
Megjegyzés: a statisztika szó másik jelentése – matematikaistatisztikai értelemben a statisztika egy valószínuségi (vektor)változó,amit a mintából számolunk (késobb bovebben)
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 8 / 31
Leíró statisztikai alapfogalmak I.
Statisztikai egység: a statisztikai vizsgálat tárgyát képezo egyedStatisztikai sokaság: a megfigyelés tárgyát képezo egyedekösszessége, halmaza. Röviden: sokaság.Statisztikai adat: valamely sokaság elemeinek száma vagy asokaság valamilyen másféle számszeru jellemzoje, mérésieredmény.Statisztikai ismérv: a sokaság egyedeit jellemzo tulajdonság.Röviden: ismérv.Ismérvváltozatok: az ismérvek lehetséges kimenetelei.Minta: a sokaság véges számosságú részhalmaza. [A minta másértelmezéseirol késobb...]
Statisztikai következtetés: a valóságban a teljes sokaságot nemtudjuk vagy akarjuk megfigyelni, ezért csak az egyedek egy szukebbcsoportját figyeljük meg. A viszonylag kisszámú egyedre vonatkozóinformációk alapján szeretnénk a teljes sokaság egészére, egyesjellemzoire, tulajdonságaira érvényes következtetéseket kimondani.
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 9 / 31
Leíró statisztikai alapfogalmak II.
Példák:
Sokaság: most a teremben lévo homo sapiensekStatisztikai egység: a teremben lévo oktatóAdat: a legmagasabb hallgató testtömegindexeIsmérv: nem
Ismérvváltozatok: férfi (→ 1), no (→ 0)Minta: 5 véletlenül választott hallgató
Sokaság: az ELTE TTK Matematikai szakgyujteményébenlévo könyvek
Statisztikai egység: a BF 13873 raktári jelzetu könyvAdat: a szakgyujteményben lévo könyvek számaIsmérv: oldalak száma
Ismérvváltozatok: 631, 321, 153, 463, . . .Minta: a Rényi: Valószínuségszámítás címu könyvek
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 10 / 31
Csoportosítások, adatok fajtáiA sokaságok csoportosítása:1.) A sokaság egységeinek megkülönböztethetosége szerint:
diszkrét: a sokaság egységei elkülönülnek egymástólfolytonos: a sokaság egységeit nem tudjuk természetes módon
elkülöníteni (pl. bauxittermelés)2.) A sokaság idopontra vagy idotartamra értelmezheto-e:
álló: csak egy adott idopontra értelmezhetomozgó: csak egy adott idotartamra értelmezheto
3.) A sokaság számossága szerint:véges (a gyakorlatban általában ilyenekkel foglalkozunk)végtelen
A statisztikai adatok fajtái:Alapadatok: közvetlenül a sokaságból származnak (méréssel,megszámlálással)Leszármaztatott adatok: alapadatokból muveletek eredményekéntadódnak (pl. átlagolással, osztással)
A statisztikai adatok nem mindig pontosak – a mért és a ténylegesadat eltérhet egymástól, például kerekítési okokból.
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 11 / 31
Ismérvek
Az ismérvek típusai I.◦ minoségi ismérv: az egyedek számszeruen nem mérheto tulajdonsága◦ mennyiségi ismérv: az egyedek számszeruen mérheto tulajdonsága.
Két fajtájukat különböztetjük meg:� diszkrét: véges vagy megszámlálhatóan sok értéket vehet fel� folytonos: egy adott intervallumon belül kontinuum számosságú értéket
felvehet
◦ idobeli ismérv: az egységek idobeli elhelyezésére szolgálórendezoelvek◦ területi ismérv: az egységek térbeli elhelyezésére szolgáló
rendezoelvekAz ismérvek típusai II.◦ közös ismérvek: tulajdonságok, amik szerint a sok. egyedei egyformák◦ megkülönbözteto ismérv: azok a tulajdonságok, amik szerint a sokaság
egyedei különböznek egymástól
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 12 / 31
Ismérvek (példa)
Legyen a sokaság: a teremben lévo hallgatók. Példák ismérvekre:minoségi: szemszín, nem közös: orrok számadiszkrét mennyiségi: testvérek száma megkülönbözteto: testsúlyfolytonos mennyiségi: testmagasságidobeli: születési idoterületi: születési hely
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 13 / 31
Skálák
Mérési skálák (mérési szintek):Névleges (nominális): a számok csak ún. kódszámok, amik asokaság egyedeinek azonosítására szolgálnak. Ezek közöttmatematikai relációkat és muveleteket nincs értelme végezni. Pl. ahallgatók neme.Sorrendi (ordinális): a sokaság egyedeinek valamely tulajdonságalapján sorba való rendezése. Az egyedek tulajdonsága közöttikülönbséget nem lehet mérni. Pl. a hallgatók jegyei egy tárgyból.Intervallumskála: a skálaértékek különbségei is valós információtadnak a sokaság egyedeirol. A skálán a nullpont meghatározásaönkényes. Ilyen skálákhoz mértékegység is tartozik. Pl.homérséklet.Arányskála: a skálának van valódi nullpontja is. Mindenmatematikai muvelet elvégezheto ezekkel a számokkal. Pl. ahallgatók magassága.
[Metrikus skála: intervallum- és arányskála közös neve – ritkábbanhasználatos elnevezés]
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 14 / 31
Ismérvek és skálák
Az ismérvek és a mérési skálák kapcsolódása:
Területi // Nominális
Minoségi
55
// Ordinális
Mennyiségi
55
//
))
Különbségi
Idobeli
55
Arány
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 15 / 31
Sorok
Statisztikai sor: a sokaság egyes jellemzoinek felsorolása.Az ismérvek fajtája szerint beszélhetünk minoségi, mennyiségi, idobeliés területi sorokról.A statisztikai sorok további csoportosítása:
Csoportosító sor: a sokaság egy megkülönbözteto ismérv szerintiosztályozásának eredménye; az adatok összegezhetok (van’Összesen’ sor)Összehasonlító sor: a sokaság egy részének a sokaságot egymegkülönbözteto ismérv szerinti osztályozásának eredménye; azadatok nem összegezhetokLeíró sor: különbözo fajta, gyakran eltéro mértékegységustatisztikai adatokat tartalmaz
Például ha egy statisztikai sor tartalmazza az osztályteremben ahallgatókat nemek szerint, akkor ez a sor minoségi csoportosító sor.
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 16 / 31
Táblák
Statisztikai tábla: a statisztikai sorok összefüggo rendszere.A statisztikai táblák fajtái:
Egyszeru tábla: nem tartalmaz csoportosítást, nincs benneösszegzo sorCsoportosító tábla: egyetlen csoportosító sort tartalmazKombinációs tábla vagy kontingenciatábla vagy kereszttábla:legalább két csoportosító sort tartalmaz
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 17 / 31
Viszonyszámok
A statisztikai elemzések egyik legfontosabb eszközei a viszonyszámok(alias: indikátorok). A viszonyszám két statisztikai adat hányadosa.Jelölések:
V = AB
ahol V : viszonyszám; A: a viszonyítás tárgya; B: a viszonyítás alapja.A viszonyszámok fajtái:
Megoszlási: a sokaság egy részének a sokaság egészéhez valóviszonyításaKoordinációs: a sokaság egy részének a sokaság egy másikrészéhez való viszonyításaDinamikus: két idopont vagy idoszak adatának hányadosaIntenzitási: különbözo fajta adatok viszonyítása egymáshoz;gyakran a mértékegységük is eltéro.
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 18 / 31
A statisztikai elemzés lépései
1.) Tervezésa.) Mit vizsgálunk, mi a probléma/feladatb.) Hogyan gyujtjük az adatokatc.) Elozetes sejtések, hipotézisek megfogalmazása
2.) Terepmunka – adatgyujtés3.) Adatbevitel, kódolás (ha szükséges)4.) Adatok validálása (biztosan rossz értékek kiszurése, mint például
életkornál a 9999)5.) Adatelemzés, adatellenorzés: leíró statisztikákkal, grafikonok
készítése6.) Hibás adatok kijavítása vagy kihagyása7.) Adatelemzés, statisztikai következtetések levonása – a
matematikai statisztika módszereivel8.) Az eredmények értelmezése, visszacsatolás
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 19 / 31
A grafikus megjelenítés szerepe
A statisztikus legfobb kommunikációs eszközei a diagramok.Az emberek többsége utálja a
barokkos körmondatokkal teletuzdelt statisztikai jelentéseket.számokkal teli táblázatokat.
Az adatokban rejlo információk gyorsabb kinyerését ésfeldolgozását segítik az azokból készített különféle ábrák,diagramok:
kördiagram: megoszlás érzékeltetéséreoszlopdiagram: idosorok ábrázolásáravonaldiagram: idosorok ábrázolásárahisztogram: mennyiségi sorok ábrázolásárastb.
Milyen a jó diagram?illeszkedik az ábrázolt adatok fajtájához és a probléma jellegéheza célközönség meg tudja érteniáttekintheto, olvashatók rajta a feliratok, jelölésekkreatív, esztétikus
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 20 / 31
Hisztogram
Hisztogram – Ha a mennyiségi ismérv folytonos vagy sok ismérvértékvan, akkor alkalmas módon osztályokat képezünk, majd minden egyesadatot pontosan egy osztályhoz rendeljük. A hisztogram az osztályokgyakoriságait ábrázolja.
javaslat az osztályok számára:k = blog2 ncha azonos hosszúságú (h)osztályközöket akarunk létrehozni,akkor h =
x∗n −x∗
1k
az fi gyakoriságokat ábrázoljuk afüggoleges tengelyensuruséghisztogramnál a gi =
fin
relatív gyakoriságokat ábrázoljuk afüggoleges tengelyen
Lemerülési ido (óra)
Gya
koris
ágok
12 14 16 18 20 22
01
23
45
ha az osztályközök különbözo hosszúságúak, akkor agyakoriságokat egy közös hosszra kell arányosítani
Arató Miklós (ELTE) Matematikai statisztika 2019. február 11. 28 / 31