zstat teorija (bonus) cekanavicius murauskas
DESCRIPTION
statistikaTRANSCRIPT
-
1 V. ekanaviius, G. Murauskas 1
STATISTIKAIR
JOS TAIKYMAI
2
Literatra
V.ekanaviius, G.MurauskasStatistika ir jos taikymai I, II
V. ekanaviius, G. Murauskas 3
Pastaba: mogus, kuris nesustodamas skrupulingai
visk vis skaiiuoja ir skaiiuoja ir dar klasifikuoja ir klasifikuoja nra statistikas.
(greiiau jau serga izofrenija). statistika, tai ne tik ir ne tiek duomen
sisteminimas, kiek tam tikr hipotezi tikrinimas.
tai ir bus ms pagrindin duona (divsis).
V. ekanaviius, G. Murauskas 4
iuolaikin statistika tai mokslas apie informacijos
rinkim, sisteminim, analizavim, interpretavim.
V. ekanaviius, G. Murauskas 5
Trys statistikos dalys:
Apraomoji statistika, nagrinjanti duomen sisteminimo metodus.
Statistins ivados analizs ir interpretavimo metodai.
Duomen rinkimas
V. ekanaviius, G. Murauskas 6
Pagrindiniai statistikos terminai
Populiacija - objekt, kuri savybs tiriamos, aib.
Imtis - tai populiacijos dalis, kuri naudojama statistiniame tyrime.
Parametras - populiacijos charakteristika (apibendrinantis matas).
Statistika - imties charakteristika (apibendrinantis matas).
-
2 V. ekanaviius, G. Murauskas 7
Populiacija
Imtis
V. ekanaviius, G. Murauskas 8
Kodl reikia statistikos (mokslo)?
Tiriamos didels populiacijos. Surinkti informacij apie vis populiacij
labai brangu ir ilgai trunka. Nemanoma ivardinti vis populiacijos
element (pvz., bedarbi , valdinink, narkoman populiacijos vis laik kinta).
V. ekanaviius, G. Murauskas 9
Kokia turi bti imtis?
Imtys turi bti reprezentatyvios. Imtis reprezentatyvi, jei ji teisingai atspindi
tiriamo poymio galim reikmi populiacijoje proporcijas.
Toliau laikoma, kad imtis paprastoji atsitiktin grintin imtis.
Kai populiacija didel - daniausiai nra didelio skirtumo tarp grintins irnegrintins imi.
V. ekanaviius, G. Murauskas 10
Kintamojo svoka
Populiacijos, kartu ir imties, elementus vienija tiriamasis poymis.
Matuodami poym, gauname tam tikr dyd, kuris kinta kartu su imties nariais.
is dydis vadinamas kintamuoju.
V. ekanaviius, G. Murauskas 11
ParenkamaMatuojama
Populiacija Imtis Duomenys
Matuojam pasirinkt poym!
V. ekanaviius, G. Murauskas 12
Matavim skals yra skaii(arba simboli) priskyrimo objektams ar
vykiams metodai.
Matavim skals: Pavadinim Rang Interval - Santyki
-
3 V. ekanaviius, G. Murauskas 13
Pavadinim skal
prasms.
Duomen aib, gauta naudojant i skal, susideda i vard, antrai ar kategorij.- Nomen lotynikai vardas.
Objektus galima tik klasifikuoti, t.y. priskirti vienai ar kitai grupei.
Kiekvienas objektas priskiriamas vienai ir tik vienai grupei. ioje skalje aritmetins operacijos neturi
prasms. V. ekanaviius, G. Murauskas 14
Pavadinim skal Tautyb: Lietuvis, rusas, lenkas . . . Ekonomins veiklos klasifikavimas:
gamybiniai, prekybiniai, finansiniai verslai Pato indeksas: 2005,1011,
Optimistai Pesimistai Neapsisprend
V. ekanaviius, G. Murauskas 15
Rang skal i skal naudojama tada, kai statistikas
gali nustatyti objekt tiriamo poymio, savybs skirtumus ir pagal tai juos irikiuoti eil.
Objektus galima ne tik skirstyti klases, bet ir jas sutvarkyti.
V. ekanaviius, G. Murauskas 16
Rang skal
mokymosi lygis: vidurinis,auktasis, mokslo vardai: daktaras, hab. daktaras, varybose uimtoji vieta: 1,10, Nuomon apie sutuoktin:Nekenia Kenia Ignoruoja Mgsta Myli
V. ekanaviius, G. Murauskas 17
Interval-santyki skal
Matavimams naudojant i skal, objektus galima ne tik klasifikuoti, tvarkyti, bet ir kiekybikai vertinti skirtumus tarp klasi.
Nulinis takas interval skalje yra laisvai parenkamas ir nereikia tiriamos savybs nebuvimo.
V. ekanaviius, G. Murauskas 18
Interval-santyki skal Celsijaus ir Fahrenheito temperatr skals. -Nulis laipsni pasirenkamas laisvai.
-Nulis nereikia ilumos ar alio nebuvim. Kalendorinis laikas.
prie 4000m
Biblin pradia Krikionybs pradia
Islamo pradiaVII a.
-
4 V. ekanaviius, G. Murauskas 19
Skaiiuojant statistik danai: ranginis kintamasis su 4 ir maiau
skirting rang- traktuojamas, kaip nominalus.
ranginis kintamasis su 5 rangais traktuojamas, kaip intervalinis (jam skaiiuojamas vidurkis ir pan.)
V. ekanaviius, G. Murauskas 20
Apraomoji statistika
V. ekanaviius, G. Murauskas 21
Apraomoji statistika leidia koncentruotaiurayti informacij, esani dideliuoseduomen masyvuose.
Todl ji gali bti naudojama ir visospopuliacijos duomenims apdoroti.
Apraomoji statistika -tai duomen sisteminimo ir grafinio
vaizdavimo metodai
V. ekanaviius, G. Murauskas 22
Reikm x1 x2 ... xkSantykinisdanis f1/n f2/n ... fk/n
Sukauptasissantykinisdanis
f1/n (f1+f2)/n (f1+f2 + ...+fk)/n
Dani lentels
...
V. ekanaviius, G. Murauskas 23
Duomen grupavimasNustatoma: Grupavimo interval skaiius. Grupavimo interval plotis. Interval kratiniai takai.
Grupavimo interval ilgiai vienodi, intervalai nesikerta, kiekviena kintamojo reikm patenka tik vien interval.
Duomen grupavimas
V. ekanaviius, G. Murauskas 24
Intervalini dani lentel
Darb.sk. Danis [30,35) 1 [25,30) 4 [20,25) 6 [15, 20) 9 [10,15) 3 [5,10) 2
= 25
Skaiius Danis 30 1 29 1 25 3 20 6 19 1 18 2 17 1 15 5 14 2 13 1 5 2
Palyginkime
Intervalin Paprastoji
-
5 V. ekanaviius, G. Murauskas 25
Grupuot duomen grafinis vaizdavimas
Grupuotiems duomenims daniausiai braioma histograma,
t.y. empirins grupuot duomen tankio funkcijos grafikas.
V. ekanaviius, G. Murauskas 26
Cases weighted by VAR00003
VAR00002
[30,35)[25,30)[20,25)[15,20)[10,15)[5,10)
Count
10
8
6
4
2
0
V. ekanaviius, G. Murauskas 27
Imties vidurkis (imties didumas n)
Populiacijos vidurkis (populiacijos didumas N)
VidurkisVidurkis
n
x...xxx n21
+++=
Nx...xx N21 +++=
V. ekanaviius, G. Murauskas 28
PavyzdysDviej firm programuotoj atlyginimas:I : 1000;2000;3000;5000;9000 LtII: 4000;4000;4000;4000;4000 Lt
Atlyginim vidurkis 4000 Lt.Taiau matome, kad I firmoje yra ir dideli
ir ma atlyginim, II visi vienodi.
V. ekanaviius, G. Murauskas 29
Imties dispersija
22n
22
21
2n
22
212
)x(1-n
n)x...xx(1-n
1
1-n)x(x...)x(x)x(x
s
+++
=++
=
V. ekanaviius, G. Murauskas 30
Dispersijos savybs Jos privalumas yra tas, kad atsivelgiama
visus duomenis ir pateikiamas vidutinisskirtum nuo vidurkio kvadratas.
Dispersija visuomet neneigiama. Dispersija lygi nuliui tik tuo atveju, kai visi
stebjimai lygs.
-
6 V. ekanaviius, G. Murauskas 31
Standartinis nuokrypis
Imties2s s =
2 = Populiacijos
V. ekanaviius, G. Murauskas 32
Standartinio nuokrypio savybs
Standartinis nuokrypis matuojamas tokiais paiais vienetais kaip ir patys duomenys.
J lengviau interpretuoti ir lyginti su duomenimis nei dispersij.
V. ekanaviius, G. Murauskas 33
Pavyzdys
Imtis: 1000,2000,3000,5000,9000 Lt Vidurkis 4000 Lt Dispersija 9750000 Lt2 Std = 3122,4989... Lt
V. ekanaviius, G. Murauskas 34
Normalioji kreiv Empirikai nustatyta, kad daugelis
histogram yra panaios funkcijos
grafik.
= 22s
2)x-(x- exp
2ss,x
pi21
V. ekanaviius, G. Murauskas 35
Normalioji kreiv ir histograma
Koreliacija
-
7 V. ekanaviius, G. Murauskas 37
Koreliacijos koeficiento savybs
Koreliacijos koeficientas yra skaiius tarp -1 ir 1:
Kuo tiesin priklausomyb stipresn, tuo koreliacija toliau nuo nulio.
1Y)(X,1
V. ekanaviius, G. Murauskas 38
Tiesin priklausomyb
Vertinimas i akies | r | < 0.3 korelicija labai silpna 0.3 < | r | < 0.5 silpna koreliacija 0.5 < | r | < 0.7 vidutin koreliacija 0.7 < | r | < 0.9 stipri koreliacija 0.9 < | r | =< 1 labai stipri koreliacija
39 V. ekanaviius, G. Murauskas
Koreliacija
40 V. ekanaviius, G. Murauskas
41
Koreliacijos koeficiento savybs Jeigu (X,Y) > 0, tai didesnius X atitiks
didesni Y), jeigu (X,Y) < 0, tai didesnius X atitiks maesni Y.
Koreliacijos koeficientas nematuojanetiesins priklausomybs.
V. ekanaviius, G. Murauskas V. ekanaviius, G. Murauskas 42
Statistins ivados
-
843
Statistins ivados Tikslas, ityrus imtis, padaryti ivad
apie vis populiacija. Daniausiai vertiname kakoki skaitin
charateristik: Vidutin reikm (vidurk) Proporcij Reikmi isibarstym (dispersij) Kintamj priklausomyb (koreliacij)
Jas vadinsime paramterais.
44
Tyrimo schema
Tyrimo hipotez
Statistin hipotez
Ivada
Imties tyrimas
Tyrimo hipotez
Tai yra tai, k tyrjas tikisi. Pavyzdiui,1. Kompanijoje diskriminuojami vyresnio
amiaus darbuotojai.2. Jaunimo gaujose vaikinai vidutinikai
vyresni, nei merginos.3. Nusikaltim skaiius priklauso nuo policijos
patruli skaiiaus.Tyrimo hipotezse formuluojamos moni
(kartais teisinink) kalba, be matematikos.45 46
Statistin hipotez Statistin hipotez - tai teiginys apie
populiacijos parametr (parametrus). Statistin hipotez niekada nra teiginys apie
imties statistik.
Statistin hipotez ir tyrimo hipotez -skirtingi dalykai.
Statistin hipotez nerodoma - ji priimama arba atmetama, atsivelgiant imties duomenis.
Statistin hipotez tik dalis statistinio tyrimo.
47
Statistin parametrin hipotezsudaro du alternatyvs teiginiai
Nulin hipotez H0 . Daniausiai tai teiginys, kad jokio parametr skirtumo nra.
Alternatyvioji hipotez (alternatyva) H1 .Tai teiginys, kad parametrai skiriasi.
48
Statistins hipotezs pavyzdiai:
dvipus alternatyva
vienpus alternatyva
=
180 :H180 :H
1
0
>
180 :H180 :H
1
0
-
949
Grieta nelygyb raoma tikalternatyvoje H1
Nordami tai pabrti raysime
o ne
>
=
180 :H180 :H
1
0
>
180 :H180 :H
1
0
PavyzdysTyrimo hipotez: Firma diskriminuoja vyresnio
amiaus darbuotojus.Duomenys: Tarkime, kad vyresni nei 60m
darbuotojai sudaro a dal vis darbuotoj. Takime p yra vyresenij dalis tarp atleistj.
Statistin hipotez:H0: p=aH1: p>a
50
PavyzdysTyrimo hipotez: Nusikaltim skaiius
priklauso nuo policijos patruli skaiiaus.Duomenys: Tarkime, kad inome kiek naktimis
budjo policijos patruli ir kiek nusikaltim vykdyta gatvse.
Statistin hipotez:H0: = 0000H1: < 0000
51
Klaid klasifikacijaKadangi imtis yra atisitktin, tai neivengiamai
galima padaryti tokias klaidas Pirmos ries klaida. Atmetame H0 , o ji
teisinga. Antros ries klaida. Priimame H0 , o ji
klaidinga.
Primena galimai klaidingus teismo (bent jau prisiekusij) sprendimus.
52
53
Pavyzdys
(gaujose vyresni vyrai)
I ries klaida - nusprsti, kad vidutinikai vyresni vyrai, nors i tikrj taip nra.
II ries klaida - nusprsti, kad vyrai nra vyresni, nors i tikrj jie vyresni.
>
=
:H :H
motvyr1
motvyr0
54
Reikmingumo lygmuo
Nemanoma abiej ri klaidas padaryti labai maomis.
Daniausiai fiksuojama pirmos ries klaidos tikimyb, kuri vadinama kriterijaus reikmingumo lygmeniu .
Kaip taisykl = 0.05.Tai reikia, kad jei jau skelbsime apie
statistikai reikming skirtum, tai garantija bus nemaesn u 95 %.
-
10
V.ekanaviius, G.Murauskas 55
Kriterijaus galia Tikimyb nepadaryti antros ries klaidos
vadinama kriterijaus galia ::::
P ( atmesti neteising H0 ) = Kriterijaus galia i anksto nefiksuojama.
Galingesnis tas kriterijus, kurio didesnis.
V.ekanaviius, G.Murauskas 56
Kaip nusprendiama ar atmesti H0 Surandame statistikos reikmi srit (kritin
srit), kur esant teisingai nulinei hipotezei neturtume pakliti.
Jei imties statistika patenka kritin srtit -nulin hipotez H0 atmetame.
Kritin sritis naudojama, kai hipotezs tikrinamos, skaiiuojant rankomis.
Kai hipotezs tikrinamos statistiniais paketais, lengviau sprsti pagal
p-reikm.
57
P-reikm p - reikm yra tikimyb atmesti teising H0
suskaiiuota konkretiems duomenims.Reikmingumo lygmuo teorinis trokimas
prie analizuojant duomenis. (pasiadjimas, kad sprendimo klaidos tikimyb bus nedidesn u 5%).
P-reikm: tikimyb velti klaid konkretiems duomenims.
Gerai, kai p-reikm maa (maesn u reikmingumo lygmen).
V.ekanaviius, G.Murauskas 58
Tegul reikmingumo lygmuo lygus , o p-reikm lygi p . Tuomet:
H0 atmetame, jeigu
H0 neatmetame, jeigu
-
11
V.ekanaviius, G.Murauskas 61
Nota bene Neatmesta nulin hipotez tereikia, kad
turimi imties duomenys jai neprietarauja. Galbt tiesiog duomen per maai, kad nulin hipotez galima bt atmesti.
Statistikai reikmingas skirtumas ir tyrimo prasme reikmingas skirtumas ne tas pat. Statistikai reikmingu gali bti pripaintas ir labai maas skirtumas vien todl, kad duomen labai daug.
V.ekanaviius, G.Murauskas 62
Parametrinio kriterijaus sudarymo ir taikymo etapai:
Udavinio formulavimas.Tikimybinio modelio parinkimas.Statistins hipotezs uraymas.Kriterijaus taikymas. Ivad formulavimas.
V.ekanaviius, G.Murauskas 63
Hipotez apie vidurkio lygyb skaiiui
Stjudento t-testas vienai imiai
V.ekanaviius, G.Murauskas 64
Duomenys Viena intervalini duomen imtis
(x1,x2,,xn) gauta matuojant normalj atsitiktin dyd
X~N(, , , , 2 2 2 2 )))) dispersija 2222 neinoma.
V.ekanaviius, G.Murauskas 65
Statistin hipotez:
(hipotez formuluojama populiacijai)
=
a :Ha :H
1
0
V.ekanaviius, G.Murauskas 66
H0 atmetame (vidurkis stat. reikmingaiskiriasi nuo a , jei
H0 neatmetame (vidurkis stat. reikm. nesiskiria nuo a), jei
ia - reikmingumo lygmuo
Statistin ivadasu p - reikme
p
p
-
12
V.ekanaviius, G.Murauskas 67
Pavyzdys krepinio sirgalius igr 1.1; 2; 3; 0; 0.5;
1; 5; 4; 2; 1.5; 0.5 l alaus. ar vidutinis igerto alaus kiekis stat.
reikmingai skiriasi nuo 1 l? taigi, bandome atsiriboti nuo
pasiteisinim, kad ia jau taip ijo, o tai apskritai tai ...
V.ekanaviius, G.Murauskas 68
Statistin hipotez:
>
=
1 :H1 :H
1
0
69
Stjudento t kriterijus,taikomas nepriklausomoms
imtims
70
Dvi imtys, gautos matuojant nepriklausomus kintamuosius.
Imi didumai gali skirtis. vienaip t-kriterijus taikomas, kai
dispersijos lygios ir kitaip, kai ne. aptarsime abudu atvejus.
71
Duomenys Dvi intervalini duomen imtys
(x1,x2,,xn) ir (y1,y2,,ym) gautos matuojant du nepriklausomus normaliuosius atsitiktinius dydius
X~N(X, , , , 2 2 2 2 )))) ir Y ~N(Y, , , , 2 2 2 2 )))) , Vidurkiai X , Y ir
dispersija 2222 neinomi.
72
Statistin hipotez:
H0: x = y
H1: x = y
(hipotez formuluojama populiacijoms)
-
13
73
H0 atmetame (vidurkiai stat. reikmingaiskiriasi) , jei
H0 neatmetame (vidurkiai stat. reikm. nesiskiria), jei
ia - reikmingumo lygmuo
Statistins ivados su p - reikme
p <
p >=
74
Pavyzdys keli magistrai ir keli fuksai balais vertino
idj egzamino paym leisti suinoti tik paiam laikaniam studentui.
magistrai: 7,6,5,8,9,10,9,8,7,6 fukseliai: 5,6,7,6,5,4,8,2,5,6 Ar apklaust magistr ir fuks nuomons
skiriasi statistikai reikmingai? (t.y. ar galima laikyti, kad vis magistr ir
vis fuks nuomons skiriasi)
75
Statistin hipotez:
H0: M = F (vertina vienodai)H1: M = F (vertina nevienodai)
(hipotez formuluojama populiacijoms)
76
Stjudento t kriterijus,taikomas priklausomoms
imtims(porinis t testas)
77
Dvi imtys, gautos matuojant priklausomus kintamuosius.
Imi didumai vienodi. Galima sivaizduoti, kad kiekvienam
respondentui turime matavim poras (x,y).
Danai duomenys gaunami dukart imatavus t pat respondent.
78
Tiriame: Ar dieta buvo efektyvi. Ar knygas respondentai skaito trumpiau,
nei iri TV. Ar student IQ met pradioje buvo
didesnis, nei pabaigoje. Ar vyresnieji vaikai labiau link prisiimti
atsakomyb, nei j broliai ar seserys.Visais atvejais dukart matuojame tuos paius respondentus.
-
14
79
Duomenys Intervalini duomen poros (x1,y1),
(x2,y2),, (xn,yn) gautos matuojant du priklausomus normaliuosius atsitiktinius dydius
X~N(X, , , , X2 2 2 2 )))) ir Y ~ N(Y, , , , Y2 2 2 2 )))) , Vidurkiai X , Y ir
dispersijos X2222 , Y2222 neinomi.
80
Statistin hipotez:
H0: x = y
H1: x = y
(hipotez formuluojama populiacijoms)
81
H0 atmetame (vidurkiai stat. reikmingaiskiriasi) , jei
H0 neatmetame (vidurkiai stat. reikm. nesiskiria), jei
ia - reikmingumo lygmuo
Statistins ivadossu p - reikme
p <
p >=
V. ekanaviius, G. Murauskas 82
Hipotez apie koreliacijos koeficiento lygyb nuliui
Ar du kintamieji koreliuoja
V. ekanaviius, G. Murauskas 83
Pavyzdiai Ar studentai tuo geriau mokosi, kuo
daugiau turi pinig? Ar geresniais balais stoj, geriau ir po
to mokosi? Ar IQ ir igeriamo alkoholio kiekis
susijs? Visais atvejais skaiiuojame ar
kintamieji koreliuoja. V. ekanaviius, G. Murauskas 84
Duomenys Intervalini duomen poros (x1,y1),
(x2,y2),, (xn,yn) gautos matuojant du priklausomus normaliuosius atsitiktinius dydius
X~N(X, , , , X2 2 2 2 )))) ir Y ~ N(Y, , , , Y2 2 2 2 )))) , Vidurkiai X , Y ir
dispersijos X2222 , Y2222 neinomi.
-
15
V. ekanaviius, G. Murauskas 85
Statistin hipotez:
=
0 :H0 :H
1
0
V. ekanaviius, G. Murauskas 86
Statistin hipotez:
koreliuoja :Hjanekoreliuo :H
1
0
V. ekanaviius, G. Murauskas 87
H0 atmetame (kintamieji stat. reikmingaikoreliuoja, jei
H0 neatmetame (kintamieji stat. reikm. nekoreliuoja), jei
ia - reikmingumo lygmuo
Statistin ivadasu p - reikme
p
p =
-
30
V.ekanaviius, G.Murauskas 175
pakartojame regresijos model be tartino kintamojo.
jei R2 reikm nedaug sumajo, kintamj i modelio paaliname,
jei R2 reikm daug sumajo, kintamj modelyje paliekame.
K daryti su tartinais kintamaisiais?
V.ekanaviius, G.Murauskas 176
Multikolinearumas Tai situacija, kai tarp x- yra stipriai
koreliuojani. Tada informacija apie vien x- atsispindi
kituose ir is x-as modelyje nelabai reikalingas.
Modelyje gali atsirasti keist priklausomybi. Modelio prognozs tampa nestabilios
(papildomas stebjimas gali labai pakeisti regresijos funkcij).
V.ekanaviius, G.Murauskas 177
Multikolinearumas
Y
X1 X2 X3
V.ekanaviius, G.Murauskas 178
PavyzdysFailas World95, kintamieji : LITERACY (rating moni
procentas). LIFEXPF (vidutin moter gyvenimo
trukm). LIFEXPM (vidutin vyr gyvenimo
trukm).Tirsime ar valstybs ratingum takoja
vyr ir mot. gyvenimo trukms.
V.ekanaviius, G.Murauskas 179
Pavyzdys: GaunameR2 = 0.799, ANOVA p-reikm 0.Gauname regresijos lygtLITERACY = -39 +
+ 4.39 * LIFEXPF - 2.94 * LIFEXPMTaigi, valstybs kur moterys ilgiau gyvena
- ratingesns (daugiklis + 4.39 ).O valstybs, kur vyrai ilgiau gyvena -
maiau ratingos (daugiklis - 2.94).
V.ekanaviius, G.Murauskas 180
Pavyzdys: Ivada
moterims skaityti sveika (ratingose valstybse ilgiau gyvena),
o vyrams skaityti nesveika (ratingose valstybse trumpiau gyvena).
Ivada neteisinga! Aiku, kad isivysiusiose valstybse (taigi ir ratingose) ir vyrai ir moterys gyvena ilgai.
-
31
V.ekanaviius, G.Murauskas 181
Jeigu prognozuotume ratingum tik pagal vien kintamj, gautume:LITERACY = -50 +1.9 * LIFEXPMirLITERACY = -52 + 1.8 * LIFEXPF.
Viskas tvarkoje! Priklausomyb teisinga.
V.ekanaviius, G.Murauskas 182
Abu kintamieji stipriai koreliuoja:Koreliacija tarp LIFEXPM irLIFEXPF yra 0.98! Turime kintamj multikolinearum. Moralas: daug x- nebtinai gerai. Tai k daryti? Paalinti vien kintamj, arba imti
abiej vidurk.
V.ekanaviius, G.Murauskas 183
Kaip nustatyti multikolinearum:
Tikriname ar dispersijos majimo daugiklis (VIF) nra didelis.
Blogai, kai VIF>4. Pavyzdyje VIF>28. Kartais VIF bna ir maesnis, bet
regresijos lygtis atrodo keistai. Patarimas: Pasiskaiiuoti ir atskir
x- bei y koreliacijas. V.ekanaviius, G.Murauskas 184
PseudokintamiejiNors iaip visi X-ai turi bti intervaliniai,
kartais model traukiamas ir kategorinis kintamasis.
Taip daroma, jei maoka duomen ir manome, kad visoms kategorijoms
regresijos funkcija skiriasi tik per konstant.
Kintamasis vadinamas pseudokintamuoju ir specialiai koduojamas.
V.ekanaviius, G.Murauskas 185
Pvz., manome, kad buto ploto ir kainos priklausomyb dviejuose rajonuose yra
madaug vienoda, tik yra rajono antkainis.
V.ekanaviius, G.Murauskas 186
Pseudokintamj kodavimas: Jei kintamasis dvireikmis, jo reikmes
koduojame 0 ir 1. Jei kintamasis trireikmis, tai traukiame
du pseudokintamuosius- abu gyja tik dvi reikmes 0 ir 1.
pvz. 0 ir 0 atitiks pirm rajon, 0 ir 1 atitiks antr rajon, o 1 ir 0 - trei.
pseudokintamj vienu maiau, nei reikmi - nenaudojame 1 ir 1.
-
32
V.ekanaviius, G.Murauskas 187
Pseudokintamj naudojimas Regresijos funkcij konkreiai
kategorijai gaunama i bendrosios funkcijos staius pseudokintamojo reikm.
Pvz.Kaina= 20+1.2 * plotas+ 5 * pseudo bus Kaina=25+ 1.2 * plotas, vienam
rajonui ir Kaina=20+ 1.2 * plotas, kitam rajonui.
V.ekanaviius, G.Murauskas 188
Standartinis tyrimas: R2 , ANOVA, t-testai, VIF ir grafikai
pads nustatyti reikalingus X-us. R parodys, kaip Y priklauso nuo vis
X- ikart. B-koeficientai pads sudaryti regresijos
funkcij. Beta-koeficientai pads nustatyti, kurie
kintamieji svarbesni.
V.ekanaviius, G.Murauskas 189
Pastabos:
Kai priklausomyb netiesin danai naudojamos transformacijos (pvz. X2paymime nauju kintamuoju X-u).
Yra ir specialus regresijos metodas -ingsnin regresija (step-wise), kai kintamieji traukiami funkcijos lygt po vien, atsisakant maai taking.
Neparametriniai kriterijai dar vadinami ranginiais kriterijais; nereikalauja kintamj normalumo; tinka maoms imtims; maiau galingi, nei parametriniai; lygina skirstinius, todl kiek sunkiau
interpretuojami (pvz. nebus ivad apie vidurkius).
2 kriterijus irgi neparametrinis;
Tipika dvipus hipotez
H0 : X ir Y skirstiniai nesiskiria H1 : X ir Y skirstiniai skiriasi
Pvz.: H0 : psichologai ir sociologai vienodai
gerai ilaiko statistik. H1 : nevienodai
-
33
Tipika vienpus hipotez
H0 : X ir Y skirstiniai nesiskiria H1 : X skirstinys links gyti maesnes
reikmes u Y.
X Y
Rangavimas priskiriame imties elementui jo didum
atitinkani viet - rang.
X Y
54321Rangas54321..
9021201713ImtisNrEil
Rangavimas
kai imties elementai sutampa, jie gauna vienod rang.
545.25.21Rangas54321..
9021171713ImtisNrEil
5.22
32=
+
Rangavimas kai imties elementai sutampa, jie gauna
vienod rang.
vis rang suma lygi 1+2++n=n(n+1)/2.
53331Rangas54321..
9017171713ImtisNrEil
V. ekanaviius, G. Murauskas 197
Mann - Whitney kriterijus
V. ekanaviius, G. Murauskas 198
Mann-Whitney kriterijus1. Stjudento t kriterijaus
nepriklausomoms imtims analogas;2. bet nelygina vidurki;3. lygina skirstinius;4. kuris kintamasis links bti didesniu
parodo didesnis vidutinis rangas.
-
34
V. ekanaviius, G. Murauskas 199
Duomenys1. dvi nepriklausomos imtys, gautos
matuojant intervalinius arba ranginius kintamuosius.
2. imi didumai gali skirtis.3. skirting ranginio kintamojo reikmi
turi bti bent 5.
V. ekanaviius, G. Murauskas 200
Statistin hipotez:
H0 : kintamj skirstiniai nesiskiriaH1 : kintamj skirstiniai skiriasi.
V. ekanaviius, G. Murauskas 201
Kriterijaus idja: Visas lyginam kintamj reikmes
suraome vien variacin eilut. Suranguojame t eilut. Lyginame kiekvienos imties element
vidutinius rangus. Didesnis rangas- 'kintamasis links
bti didesniu'.
V. ekanaviius, G. Murauskas 202
Kriterijaus idja: X: 12,14; Y: 3,15,20
Vidutiniai rangai:
Y 'link bti didesniais' u X.
54321201514123YYXXY
33.33
541 :Y ,5.2
232
:X =++=+
V. ekanaviius, G. Murauskas 203
H0 atmetame (kintamj skirstiniai stat. reikmingai skiriasi), jei
H0 neatmetame (kintamj skirstiniai stat. reikm. nesiskiria), jei
ia - reikmingumo lygmuo
Statistin ivadasu p - reikme
p
p