zstat teorija (bonus) cekanavicius murauskas

41
1 © V. Čekanavičius, G. Murauskas 1 STATISTIKA IR JOS TAIKYMAI 2 Literatūra V.Čekanavičius, G.Murauskas Statistika ir jos taikymai I, II © V. Čekanavičius, G. Murauskas 3 Pastaba: Žmogus, kuris nesustodamas skrupulingai viską vis skaičiuoja ir skaičiuoja ir dar klasifikuoja ir klasifikuoja– nėra statistikas. • (greičiau jau serga šizofrenija). statistika, tai ne tik ir ne tiek duomenų sisteminimas, kiek tam tikrų hipotezių tikrinimas. tai ir bus mūsų pagrindinė duona (džiūvėsis). © V. Čekanavičius, G. Murauskas 4 Šiuolaikinė statistika – tai mokslas apie informacijos rinkimą, sisteminimą, analizavimą, interpretavimą. © V. Čekanavičius, G. Murauskas 5 Trys statistikos dalys: Aprašomoji statistika, nagrinėjanti duomenų sisteminimo metodus. Statistinės išvados – analizės ir interpretavimo metodai. Duomenų rinkimas © V. Čekanavičius, G. Murauskas 6 Pagrindiniai statistikos terminai Populiacija - objektų, kurių savybės tiriamos, aibė. Imtis - tai populiacijos dalis, kuri naudojama statistiniame tyrime. Parametras - populiacijos charakteristika (apibendrinantis matas). Statistika - imties charakteristika (apibendrinantis matas).

Upload: valda-pauzuolyte

Post on 06-Nov-2015

15 views

Category:

Documents


5 download

DESCRIPTION

statistika

TRANSCRIPT

  • 1 V. ekanaviius, G. Murauskas 1

    STATISTIKAIR

    JOS TAIKYMAI

    2

    Literatra

    V.ekanaviius, G.MurauskasStatistika ir jos taikymai I, II

    V. ekanaviius, G. Murauskas 3

    Pastaba: mogus, kuris nesustodamas skrupulingai

    visk vis skaiiuoja ir skaiiuoja ir dar klasifikuoja ir klasifikuoja nra statistikas.

    (greiiau jau serga izofrenija). statistika, tai ne tik ir ne tiek duomen

    sisteminimas, kiek tam tikr hipotezi tikrinimas.

    tai ir bus ms pagrindin duona (divsis).

    V. ekanaviius, G. Murauskas 4

    iuolaikin statistika tai mokslas apie informacijos

    rinkim, sisteminim, analizavim, interpretavim.

    V. ekanaviius, G. Murauskas 5

    Trys statistikos dalys:

    Apraomoji statistika, nagrinjanti duomen sisteminimo metodus.

    Statistins ivados analizs ir interpretavimo metodai.

    Duomen rinkimas

    V. ekanaviius, G. Murauskas 6

    Pagrindiniai statistikos terminai

    Populiacija - objekt, kuri savybs tiriamos, aib.

    Imtis - tai populiacijos dalis, kuri naudojama statistiniame tyrime.

    Parametras - populiacijos charakteristika (apibendrinantis matas).

    Statistika - imties charakteristika (apibendrinantis matas).

  • 2 V. ekanaviius, G. Murauskas 7

    Populiacija

    Imtis

    V. ekanaviius, G. Murauskas 8

    Kodl reikia statistikos (mokslo)?

    Tiriamos didels populiacijos. Surinkti informacij apie vis populiacij

    labai brangu ir ilgai trunka. Nemanoma ivardinti vis populiacijos

    element (pvz., bedarbi , valdinink, narkoman populiacijos vis laik kinta).

    V. ekanaviius, G. Murauskas 9

    Kokia turi bti imtis?

    Imtys turi bti reprezentatyvios. Imtis reprezentatyvi, jei ji teisingai atspindi

    tiriamo poymio galim reikmi populiacijoje proporcijas.

    Toliau laikoma, kad imtis paprastoji atsitiktin grintin imtis.

    Kai populiacija didel - daniausiai nra didelio skirtumo tarp grintins irnegrintins imi.

    V. ekanaviius, G. Murauskas 10

    Kintamojo svoka

    Populiacijos, kartu ir imties, elementus vienija tiriamasis poymis.

    Matuodami poym, gauname tam tikr dyd, kuris kinta kartu su imties nariais.

    is dydis vadinamas kintamuoju.

    V. ekanaviius, G. Murauskas 11

    ParenkamaMatuojama

    Populiacija Imtis Duomenys

    Matuojam pasirinkt poym!

    V. ekanaviius, G. Murauskas 12

    Matavim skals yra skaii(arba simboli) priskyrimo objektams ar

    vykiams metodai.

    Matavim skals: Pavadinim Rang Interval - Santyki

  • 3 V. ekanaviius, G. Murauskas 13

    Pavadinim skal

    prasms.

    Duomen aib, gauta naudojant i skal, susideda i vard, antrai ar kategorij.- Nomen lotynikai vardas.

    Objektus galima tik klasifikuoti, t.y. priskirti vienai ar kitai grupei.

    Kiekvienas objektas priskiriamas vienai ir tik vienai grupei. ioje skalje aritmetins operacijos neturi

    prasms. V. ekanaviius, G. Murauskas 14

    Pavadinim skal Tautyb: Lietuvis, rusas, lenkas . . . Ekonomins veiklos klasifikavimas:

    gamybiniai, prekybiniai, finansiniai verslai Pato indeksas: 2005,1011,

    Optimistai Pesimistai Neapsisprend

    V. ekanaviius, G. Murauskas 15

    Rang skal i skal naudojama tada, kai statistikas

    gali nustatyti objekt tiriamo poymio, savybs skirtumus ir pagal tai juos irikiuoti eil.

    Objektus galima ne tik skirstyti klases, bet ir jas sutvarkyti.

    V. ekanaviius, G. Murauskas 16

    Rang skal

    mokymosi lygis: vidurinis,auktasis, mokslo vardai: daktaras, hab. daktaras, varybose uimtoji vieta: 1,10, Nuomon apie sutuoktin:Nekenia Kenia Ignoruoja Mgsta Myli

    V. ekanaviius, G. Murauskas 17

    Interval-santyki skal

    Matavimams naudojant i skal, objektus galima ne tik klasifikuoti, tvarkyti, bet ir kiekybikai vertinti skirtumus tarp klasi.

    Nulinis takas interval skalje yra laisvai parenkamas ir nereikia tiriamos savybs nebuvimo.

    V. ekanaviius, G. Murauskas 18

    Interval-santyki skal Celsijaus ir Fahrenheito temperatr skals. -Nulis laipsni pasirenkamas laisvai.

    -Nulis nereikia ilumos ar alio nebuvim. Kalendorinis laikas.

    prie 4000m

    Biblin pradia Krikionybs pradia

    Islamo pradiaVII a.

  • 4 V. ekanaviius, G. Murauskas 19

    Skaiiuojant statistik danai: ranginis kintamasis su 4 ir maiau

    skirting rang- traktuojamas, kaip nominalus.

    ranginis kintamasis su 5 rangais traktuojamas, kaip intervalinis (jam skaiiuojamas vidurkis ir pan.)

    V. ekanaviius, G. Murauskas 20

    Apraomoji statistika

    V. ekanaviius, G. Murauskas 21

    Apraomoji statistika leidia koncentruotaiurayti informacij, esani dideliuoseduomen masyvuose.

    Todl ji gali bti naudojama ir visospopuliacijos duomenims apdoroti.

    Apraomoji statistika -tai duomen sisteminimo ir grafinio

    vaizdavimo metodai

    V. ekanaviius, G. Murauskas 22

    Reikm x1 x2 ... xkSantykinisdanis f1/n f2/n ... fk/n

    Sukauptasissantykinisdanis

    f1/n (f1+f2)/n (f1+f2 + ...+fk)/n

    Dani lentels

    ...

    V. ekanaviius, G. Murauskas 23

    Duomen grupavimasNustatoma: Grupavimo interval skaiius. Grupavimo interval plotis. Interval kratiniai takai.

    Grupavimo interval ilgiai vienodi, intervalai nesikerta, kiekviena kintamojo reikm patenka tik vien interval.

    Duomen grupavimas

    V. ekanaviius, G. Murauskas 24

    Intervalini dani lentel

    Darb.sk. Danis [30,35) 1 [25,30) 4 [20,25) 6 [15, 20) 9 [10,15) 3 [5,10) 2

    = 25

    Skaiius Danis 30 1 29 1 25 3 20 6 19 1 18 2 17 1 15 5 14 2 13 1 5 2

    Palyginkime

    Intervalin Paprastoji

  • 5 V. ekanaviius, G. Murauskas 25

    Grupuot duomen grafinis vaizdavimas

    Grupuotiems duomenims daniausiai braioma histograma,

    t.y. empirins grupuot duomen tankio funkcijos grafikas.

    V. ekanaviius, G. Murauskas 26

    Cases weighted by VAR00003

    VAR00002

    [30,35)[25,30)[20,25)[15,20)[10,15)[5,10)

    Count

    10

    8

    6

    4

    2

    0

    V. ekanaviius, G. Murauskas 27

    Imties vidurkis (imties didumas n)

    Populiacijos vidurkis (populiacijos didumas N)

    VidurkisVidurkis

    n

    x...xxx n21

    +++=

    Nx...xx N21 +++=

    V. ekanaviius, G. Murauskas 28

    PavyzdysDviej firm programuotoj atlyginimas:I : 1000;2000;3000;5000;9000 LtII: 4000;4000;4000;4000;4000 Lt

    Atlyginim vidurkis 4000 Lt.Taiau matome, kad I firmoje yra ir dideli

    ir ma atlyginim, II visi vienodi.

    V. ekanaviius, G. Murauskas 29

    Imties dispersija

    22n

    22

    21

    2n

    22

    212

    )x(1-n

    n)x...xx(1-n

    1

    1-n)x(x...)x(x)x(x

    s

    +++

    =++

    =

    V. ekanaviius, G. Murauskas 30

    Dispersijos savybs Jos privalumas yra tas, kad atsivelgiama

    visus duomenis ir pateikiamas vidutinisskirtum nuo vidurkio kvadratas.

    Dispersija visuomet neneigiama. Dispersija lygi nuliui tik tuo atveju, kai visi

    stebjimai lygs.

  • 6 V. ekanaviius, G. Murauskas 31

    Standartinis nuokrypis

    Imties2s s =

    2 = Populiacijos

    V. ekanaviius, G. Murauskas 32

    Standartinio nuokrypio savybs

    Standartinis nuokrypis matuojamas tokiais paiais vienetais kaip ir patys duomenys.

    J lengviau interpretuoti ir lyginti su duomenimis nei dispersij.

    V. ekanaviius, G. Murauskas 33

    Pavyzdys

    Imtis: 1000,2000,3000,5000,9000 Lt Vidurkis 4000 Lt Dispersija 9750000 Lt2 Std = 3122,4989... Lt

    V. ekanaviius, G. Murauskas 34

    Normalioji kreiv Empirikai nustatyta, kad daugelis

    histogram yra panaios funkcijos

    grafik.

    = 22s

    2)x-(x- exp

    2ss,x

    pi21

    V. ekanaviius, G. Murauskas 35

    Normalioji kreiv ir histograma

    Koreliacija

  • 7 V. ekanaviius, G. Murauskas 37

    Koreliacijos koeficiento savybs

    Koreliacijos koeficientas yra skaiius tarp -1 ir 1:

    Kuo tiesin priklausomyb stipresn, tuo koreliacija toliau nuo nulio.

    1Y)(X,1

    V. ekanaviius, G. Murauskas 38

    Tiesin priklausomyb

    Vertinimas i akies | r | < 0.3 korelicija labai silpna 0.3 < | r | < 0.5 silpna koreliacija 0.5 < | r | < 0.7 vidutin koreliacija 0.7 < | r | < 0.9 stipri koreliacija 0.9 < | r | =< 1 labai stipri koreliacija

    39 V. ekanaviius, G. Murauskas

    Koreliacija

    40 V. ekanaviius, G. Murauskas

    41

    Koreliacijos koeficiento savybs Jeigu (X,Y) > 0, tai didesnius X atitiks

    didesni Y), jeigu (X,Y) < 0, tai didesnius X atitiks maesni Y.

    Koreliacijos koeficientas nematuojanetiesins priklausomybs.

    V. ekanaviius, G. Murauskas V. ekanaviius, G. Murauskas 42

    Statistins ivados

  • 843

    Statistins ivados Tikslas, ityrus imtis, padaryti ivad

    apie vis populiacija. Daniausiai vertiname kakoki skaitin

    charateristik: Vidutin reikm (vidurk) Proporcij Reikmi isibarstym (dispersij) Kintamj priklausomyb (koreliacij)

    Jas vadinsime paramterais.

    44

    Tyrimo schema

    Tyrimo hipotez

    Statistin hipotez

    Ivada

    Imties tyrimas

    Tyrimo hipotez

    Tai yra tai, k tyrjas tikisi. Pavyzdiui,1. Kompanijoje diskriminuojami vyresnio

    amiaus darbuotojai.2. Jaunimo gaujose vaikinai vidutinikai

    vyresni, nei merginos.3. Nusikaltim skaiius priklauso nuo policijos

    patruli skaiiaus.Tyrimo hipotezse formuluojamos moni

    (kartais teisinink) kalba, be matematikos.45 46

    Statistin hipotez Statistin hipotez - tai teiginys apie

    populiacijos parametr (parametrus). Statistin hipotez niekada nra teiginys apie

    imties statistik.

    Statistin hipotez ir tyrimo hipotez -skirtingi dalykai.

    Statistin hipotez nerodoma - ji priimama arba atmetama, atsivelgiant imties duomenis.

    Statistin hipotez tik dalis statistinio tyrimo.

    47

    Statistin parametrin hipotezsudaro du alternatyvs teiginiai

    Nulin hipotez H0 . Daniausiai tai teiginys, kad jokio parametr skirtumo nra.

    Alternatyvioji hipotez (alternatyva) H1 .Tai teiginys, kad parametrai skiriasi.

    48

    Statistins hipotezs pavyzdiai:

    dvipus alternatyva

    vienpus alternatyva

    =

    180 :H180 :H

    1

    0

    >

    180 :H180 :H

    1

    0

  • 949

    Grieta nelygyb raoma tikalternatyvoje H1

    Nordami tai pabrti raysime

    o ne

    >

    =

    180 :H180 :H

    1

    0

    >

    180 :H180 :H

    1

    0

    PavyzdysTyrimo hipotez: Firma diskriminuoja vyresnio

    amiaus darbuotojus.Duomenys: Tarkime, kad vyresni nei 60m

    darbuotojai sudaro a dal vis darbuotoj. Takime p yra vyresenij dalis tarp atleistj.

    Statistin hipotez:H0: p=aH1: p>a

    50

    PavyzdysTyrimo hipotez: Nusikaltim skaiius

    priklauso nuo policijos patruli skaiiaus.Duomenys: Tarkime, kad inome kiek naktimis

    budjo policijos patruli ir kiek nusikaltim vykdyta gatvse.

    Statistin hipotez:H0: = 0000H1: < 0000

    51

    Klaid klasifikacijaKadangi imtis yra atisitktin, tai neivengiamai

    galima padaryti tokias klaidas Pirmos ries klaida. Atmetame H0 , o ji

    teisinga. Antros ries klaida. Priimame H0 , o ji

    klaidinga.

    Primena galimai klaidingus teismo (bent jau prisiekusij) sprendimus.

    52

    53

    Pavyzdys

    (gaujose vyresni vyrai)

    I ries klaida - nusprsti, kad vidutinikai vyresni vyrai, nors i tikrj taip nra.

    II ries klaida - nusprsti, kad vyrai nra vyresni, nors i tikrj jie vyresni.

    >

    =

    :H :H

    motvyr1

    motvyr0

    54

    Reikmingumo lygmuo

    Nemanoma abiej ri klaidas padaryti labai maomis.

    Daniausiai fiksuojama pirmos ries klaidos tikimyb, kuri vadinama kriterijaus reikmingumo lygmeniu .

    Kaip taisykl = 0.05.Tai reikia, kad jei jau skelbsime apie

    statistikai reikming skirtum, tai garantija bus nemaesn u 95 %.

  • 10

    V.ekanaviius, G.Murauskas 55

    Kriterijaus galia Tikimyb nepadaryti antros ries klaidos

    vadinama kriterijaus galia ::::

    P ( atmesti neteising H0 ) = Kriterijaus galia i anksto nefiksuojama.

    Galingesnis tas kriterijus, kurio didesnis.

    V.ekanaviius, G.Murauskas 56

    Kaip nusprendiama ar atmesti H0 Surandame statistikos reikmi srit (kritin

    srit), kur esant teisingai nulinei hipotezei neturtume pakliti.

    Jei imties statistika patenka kritin srtit -nulin hipotez H0 atmetame.

    Kritin sritis naudojama, kai hipotezs tikrinamos, skaiiuojant rankomis.

    Kai hipotezs tikrinamos statistiniais paketais, lengviau sprsti pagal

    p-reikm.

    57

    P-reikm p - reikm yra tikimyb atmesti teising H0

    suskaiiuota konkretiems duomenims.Reikmingumo lygmuo teorinis trokimas

    prie analizuojant duomenis. (pasiadjimas, kad sprendimo klaidos tikimyb bus nedidesn u 5%).

    P-reikm: tikimyb velti klaid konkretiems duomenims.

    Gerai, kai p-reikm maa (maesn u reikmingumo lygmen).

    V.ekanaviius, G.Murauskas 58

    Tegul reikmingumo lygmuo lygus , o p-reikm lygi p . Tuomet:

    H0 atmetame, jeigu

    H0 neatmetame, jeigu

  • 11

    V.ekanaviius, G.Murauskas 61

    Nota bene Neatmesta nulin hipotez tereikia, kad

    turimi imties duomenys jai neprietarauja. Galbt tiesiog duomen per maai, kad nulin hipotez galima bt atmesti.

    Statistikai reikmingas skirtumas ir tyrimo prasme reikmingas skirtumas ne tas pat. Statistikai reikmingu gali bti pripaintas ir labai maas skirtumas vien todl, kad duomen labai daug.

    V.ekanaviius, G.Murauskas 62

    Parametrinio kriterijaus sudarymo ir taikymo etapai:

    Udavinio formulavimas.Tikimybinio modelio parinkimas.Statistins hipotezs uraymas.Kriterijaus taikymas. Ivad formulavimas.

    V.ekanaviius, G.Murauskas 63

    Hipotez apie vidurkio lygyb skaiiui

    Stjudento t-testas vienai imiai

    V.ekanaviius, G.Murauskas 64

    Duomenys Viena intervalini duomen imtis

    (x1,x2,,xn) gauta matuojant normalj atsitiktin dyd

    X~N(, , , , 2 2 2 2 )))) dispersija 2222 neinoma.

    V.ekanaviius, G.Murauskas 65

    Statistin hipotez:

    (hipotez formuluojama populiacijai)

    =

    a :Ha :H

    1

    0

    V.ekanaviius, G.Murauskas 66

    H0 atmetame (vidurkis stat. reikmingaiskiriasi nuo a , jei

    H0 neatmetame (vidurkis stat. reikm. nesiskiria nuo a), jei

    ia - reikmingumo lygmuo

    Statistin ivadasu p - reikme

    p

    p

  • 12

    V.ekanaviius, G.Murauskas 67

    Pavyzdys krepinio sirgalius igr 1.1; 2; 3; 0; 0.5;

    1; 5; 4; 2; 1.5; 0.5 l alaus. ar vidutinis igerto alaus kiekis stat.

    reikmingai skiriasi nuo 1 l? taigi, bandome atsiriboti nuo

    pasiteisinim, kad ia jau taip ijo, o tai apskritai tai ...

    V.ekanaviius, G.Murauskas 68

    Statistin hipotez:

    >

    =

    1 :H1 :H

    1

    0

    69

    Stjudento t kriterijus,taikomas nepriklausomoms

    imtims

    70

    Dvi imtys, gautos matuojant nepriklausomus kintamuosius.

    Imi didumai gali skirtis. vienaip t-kriterijus taikomas, kai

    dispersijos lygios ir kitaip, kai ne. aptarsime abudu atvejus.

    71

    Duomenys Dvi intervalini duomen imtys

    (x1,x2,,xn) ir (y1,y2,,ym) gautos matuojant du nepriklausomus normaliuosius atsitiktinius dydius

    X~N(X, , , , 2 2 2 2 )))) ir Y ~N(Y, , , , 2 2 2 2 )))) , Vidurkiai X , Y ir

    dispersija 2222 neinomi.

    72

    Statistin hipotez:

    H0: x = y

    H1: x = y

    (hipotez formuluojama populiacijoms)

  • 13

    73

    H0 atmetame (vidurkiai stat. reikmingaiskiriasi) , jei

    H0 neatmetame (vidurkiai stat. reikm. nesiskiria), jei

    ia - reikmingumo lygmuo

    Statistins ivados su p - reikme

    p <

    p >=

    74

    Pavyzdys keli magistrai ir keli fuksai balais vertino

    idj egzamino paym leisti suinoti tik paiam laikaniam studentui.

    magistrai: 7,6,5,8,9,10,9,8,7,6 fukseliai: 5,6,7,6,5,4,8,2,5,6 Ar apklaust magistr ir fuks nuomons

    skiriasi statistikai reikmingai? (t.y. ar galima laikyti, kad vis magistr ir

    vis fuks nuomons skiriasi)

    75

    Statistin hipotez:

    H0: M = F (vertina vienodai)H1: M = F (vertina nevienodai)

    (hipotez formuluojama populiacijoms)

    76

    Stjudento t kriterijus,taikomas priklausomoms

    imtims(porinis t testas)

    77

    Dvi imtys, gautos matuojant priklausomus kintamuosius.

    Imi didumai vienodi. Galima sivaizduoti, kad kiekvienam

    respondentui turime matavim poras (x,y).

    Danai duomenys gaunami dukart imatavus t pat respondent.

    78

    Tiriame: Ar dieta buvo efektyvi. Ar knygas respondentai skaito trumpiau,

    nei iri TV. Ar student IQ met pradioje buvo

    didesnis, nei pabaigoje. Ar vyresnieji vaikai labiau link prisiimti

    atsakomyb, nei j broliai ar seserys.Visais atvejais dukart matuojame tuos paius respondentus.

  • 14

    79

    Duomenys Intervalini duomen poros (x1,y1),

    (x2,y2),, (xn,yn) gautos matuojant du priklausomus normaliuosius atsitiktinius dydius

    X~N(X, , , , X2 2 2 2 )))) ir Y ~ N(Y, , , , Y2 2 2 2 )))) , Vidurkiai X , Y ir

    dispersijos X2222 , Y2222 neinomi.

    80

    Statistin hipotez:

    H0: x = y

    H1: x = y

    (hipotez formuluojama populiacijoms)

    81

    H0 atmetame (vidurkiai stat. reikmingaiskiriasi) , jei

    H0 neatmetame (vidurkiai stat. reikm. nesiskiria), jei

    ia - reikmingumo lygmuo

    Statistins ivadossu p - reikme

    p <

    p >=

    V. ekanaviius, G. Murauskas 82

    Hipotez apie koreliacijos koeficiento lygyb nuliui

    Ar du kintamieji koreliuoja

    V. ekanaviius, G. Murauskas 83

    Pavyzdiai Ar studentai tuo geriau mokosi, kuo

    daugiau turi pinig? Ar geresniais balais stoj, geriau ir po

    to mokosi? Ar IQ ir igeriamo alkoholio kiekis

    susijs? Visais atvejais skaiiuojame ar

    kintamieji koreliuoja. V. ekanaviius, G. Murauskas 84

    Duomenys Intervalini duomen poros (x1,y1),

    (x2,y2),, (xn,yn) gautos matuojant du priklausomus normaliuosius atsitiktinius dydius

    X~N(X, , , , X2 2 2 2 )))) ir Y ~ N(Y, , , , Y2 2 2 2 )))) , Vidurkiai X , Y ir

    dispersijos X2222 , Y2222 neinomi.

  • 15

    V. ekanaviius, G. Murauskas 85

    Statistin hipotez:

    =

    0 :H0 :H

    1

    0

    V. ekanaviius, G. Murauskas 86

    Statistin hipotez:

    koreliuoja :Hjanekoreliuo :H

    1

    0

    V. ekanaviius, G. Murauskas 87

    H0 atmetame (kintamieji stat. reikmingaikoreliuoja, jei

    H0 neatmetame (kintamieji stat. reikm. nekoreliuoja), jei

    ia - reikmingumo lygmuo

    Statistin ivadasu p - reikme

    p

    p =

  • 30

    V.ekanaviius, G.Murauskas 175

    pakartojame regresijos model be tartino kintamojo.

    jei R2 reikm nedaug sumajo, kintamj i modelio paaliname,

    jei R2 reikm daug sumajo, kintamj modelyje paliekame.

    K daryti su tartinais kintamaisiais?

    V.ekanaviius, G.Murauskas 176

    Multikolinearumas Tai situacija, kai tarp x- yra stipriai

    koreliuojani. Tada informacija apie vien x- atsispindi

    kituose ir is x-as modelyje nelabai reikalingas.

    Modelyje gali atsirasti keist priklausomybi. Modelio prognozs tampa nestabilios

    (papildomas stebjimas gali labai pakeisti regresijos funkcij).

    V.ekanaviius, G.Murauskas 177

    Multikolinearumas

    Y

    X1 X2 X3

    V.ekanaviius, G.Murauskas 178

    PavyzdysFailas World95, kintamieji : LITERACY (rating moni

    procentas). LIFEXPF (vidutin moter gyvenimo

    trukm). LIFEXPM (vidutin vyr gyvenimo

    trukm).Tirsime ar valstybs ratingum takoja

    vyr ir mot. gyvenimo trukms.

    V.ekanaviius, G.Murauskas 179

    Pavyzdys: GaunameR2 = 0.799, ANOVA p-reikm 0.Gauname regresijos lygtLITERACY = -39 +

    + 4.39 * LIFEXPF - 2.94 * LIFEXPMTaigi, valstybs kur moterys ilgiau gyvena

    - ratingesns (daugiklis + 4.39 ).O valstybs, kur vyrai ilgiau gyvena -

    maiau ratingos (daugiklis - 2.94).

    V.ekanaviius, G.Murauskas 180

    Pavyzdys: Ivada

    moterims skaityti sveika (ratingose valstybse ilgiau gyvena),

    o vyrams skaityti nesveika (ratingose valstybse trumpiau gyvena).

    Ivada neteisinga! Aiku, kad isivysiusiose valstybse (taigi ir ratingose) ir vyrai ir moterys gyvena ilgai.

  • 31

    V.ekanaviius, G.Murauskas 181

    Jeigu prognozuotume ratingum tik pagal vien kintamj, gautume:LITERACY = -50 +1.9 * LIFEXPMirLITERACY = -52 + 1.8 * LIFEXPF.

    Viskas tvarkoje! Priklausomyb teisinga.

    V.ekanaviius, G.Murauskas 182

    Abu kintamieji stipriai koreliuoja:Koreliacija tarp LIFEXPM irLIFEXPF yra 0.98! Turime kintamj multikolinearum. Moralas: daug x- nebtinai gerai. Tai k daryti? Paalinti vien kintamj, arba imti

    abiej vidurk.

    V.ekanaviius, G.Murauskas 183

    Kaip nustatyti multikolinearum:

    Tikriname ar dispersijos majimo daugiklis (VIF) nra didelis.

    Blogai, kai VIF>4. Pavyzdyje VIF>28. Kartais VIF bna ir maesnis, bet

    regresijos lygtis atrodo keistai. Patarimas: Pasiskaiiuoti ir atskir

    x- bei y koreliacijas. V.ekanaviius, G.Murauskas 184

    PseudokintamiejiNors iaip visi X-ai turi bti intervaliniai,

    kartais model traukiamas ir kategorinis kintamasis.

    Taip daroma, jei maoka duomen ir manome, kad visoms kategorijoms

    regresijos funkcija skiriasi tik per konstant.

    Kintamasis vadinamas pseudokintamuoju ir specialiai koduojamas.

    V.ekanaviius, G.Murauskas 185

    Pvz., manome, kad buto ploto ir kainos priklausomyb dviejuose rajonuose yra

    madaug vienoda, tik yra rajono antkainis.

    V.ekanaviius, G.Murauskas 186

    Pseudokintamj kodavimas: Jei kintamasis dvireikmis, jo reikmes

    koduojame 0 ir 1. Jei kintamasis trireikmis, tai traukiame

    du pseudokintamuosius- abu gyja tik dvi reikmes 0 ir 1.

    pvz. 0 ir 0 atitiks pirm rajon, 0 ir 1 atitiks antr rajon, o 1 ir 0 - trei.

    pseudokintamj vienu maiau, nei reikmi - nenaudojame 1 ir 1.

  • 32

    V.ekanaviius, G.Murauskas 187

    Pseudokintamj naudojimas Regresijos funkcij konkreiai

    kategorijai gaunama i bendrosios funkcijos staius pseudokintamojo reikm.

    Pvz.Kaina= 20+1.2 * plotas+ 5 * pseudo bus Kaina=25+ 1.2 * plotas, vienam

    rajonui ir Kaina=20+ 1.2 * plotas, kitam rajonui.

    V.ekanaviius, G.Murauskas 188

    Standartinis tyrimas: R2 , ANOVA, t-testai, VIF ir grafikai

    pads nustatyti reikalingus X-us. R parodys, kaip Y priklauso nuo vis

    X- ikart. B-koeficientai pads sudaryti regresijos

    funkcij. Beta-koeficientai pads nustatyti, kurie

    kintamieji svarbesni.

    V.ekanaviius, G.Murauskas 189

    Pastabos:

    Kai priklausomyb netiesin danai naudojamos transformacijos (pvz. X2paymime nauju kintamuoju X-u).

    Yra ir specialus regresijos metodas -ingsnin regresija (step-wise), kai kintamieji traukiami funkcijos lygt po vien, atsisakant maai taking.

    Neparametriniai kriterijai dar vadinami ranginiais kriterijais; nereikalauja kintamj normalumo; tinka maoms imtims; maiau galingi, nei parametriniai; lygina skirstinius, todl kiek sunkiau

    interpretuojami (pvz. nebus ivad apie vidurkius).

    2 kriterijus irgi neparametrinis;

    Tipika dvipus hipotez

    H0 : X ir Y skirstiniai nesiskiria H1 : X ir Y skirstiniai skiriasi

    Pvz.: H0 : psichologai ir sociologai vienodai

    gerai ilaiko statistik. H1 : nevienodai

  • 33

    Tipika vienpus hipotez

    H0 : X ir Y skirstiniai nesiskiria H1 : X skirstinys links gyti maesnes

    reikmes u Y.

    X Y

    Rangavimas priskiriame imties elementui jo didum

    atitinkani viet - rang.

    X Y

    54321Rangas54321..

    9021201713ImtisNrEil

    Rangavimas

    kai imties elementai sutampa, jie gauna vienod rang.

    545.25.21Rangas54321..

    9021171713ImtisNrEil

    5.22

    32=

    +

    Rangavimas kai imties elementai sutampa, jie gauna

    vienod rang.

    vis rang suma lygi 1+2++n=n(n+1)/2.

    53331Rangas54321..

    9017171713ImtisNrEil

    V. ekanaviius, G. Murauskas 197

    Mann - Whitney kriterijus

    V. ekanaviius, G. Murauskas 198

    Mann-Whitney kriterijus1. Stjudento t kriterijaus

    nepriklausomoms imtims analogas;2. bet nelygina vidurki;3. lygina skirstinius;4. kuris kintamasis links bti didesniu

    parodo didesnis vidutinis rangas.

  • 34

    V. ekanaviius, G. Murauskas 199

    Duomenys1. dvi nepriklausomos imtys, gautos

    matuojant intervalinius arba ranginius kintamuosius.

    2. imi didumai gali skirtis.3. skirting ranginio kintamojo reikmi

    turi bti bent 5.

    V. ekanaviius, G. Murauskas 200

    Statistin hipotez:

    H0 : kintamj skirstiniai nesiskiriaH1 : kintamj skirstiniai skiriasi.

    V. ekanaviius, G. Murauskas 201

    Kriterijaus idja: Visas lyginam kintamj reikmes

    suraome vien variacin eilut. Suranguojame t eilut. Lyginame kiekvienos imties element

    vidutinius rangus. Didesnis rangas- 'kintamasis links

    bti didesniu'.

    V. ekanaviius, G. Murauskas 202

    Kriterijaus idja: X: 12,14; Y: 3,15,20

    Vidutiniai rangai:

    Y 'link bti didesniais' u X.

    54321201514123YYXXY

    33.33

    541 :Y ,5.2

    232

    :X =++=+

    V. ekanaviius, G. Murauskas 203

    H0 atmetame (kintamj skirstiniai stat. reikmingai skiriasi), jei

    H0 neatmetame (kintamj skirstiniai stat. reikm. nesiskiria), jei

    ia - reikmingumo lygmuo

    Statistin ivadasu p - reikme

    p

    p