logistinĖ - spss analizė...trumpai dvireikšmė (binary) logistinėregresija –toks modelis, kai...

71
LOGISTINĖ REGRESIJA 1 © V. Čekanavičius, G. Murauskas Logistic Regression

Upload: others

Post on 28-Mar-2021

3 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

LOGISTINĖREGRESIJA

1© V. Čekanavičius, G. Murauskas

Logistic Regression

Page 2: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

TRUMPAI

Dvireikšmė (binary) logistinė regresija

– toks modelis, kai vienam

(priklausomam) dvireikšmiui

kintamąjam daro įtaką vienas ar

keletas (nepriklausomų, aiškinamųjų)

kintamųjų.

Yra ir daugelio kintamųjų logistinė

regresija. Jos nenagrinėsime.

© V. Čekanavičius, G. Murauskas 2

Page 3: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 3

PAVYZDŢIAI

• Pagal paciento svorį ir kraujo tyrimus

reikia nustatyti tikimybę susirgti diabetu.

• Pagal testų rezultatus siekiama

nustatyti, ar reiks kompiuteriui

garantinio remonto.

• Aiškinamasi, ar ţinant rinkėjo pajamas

ir amţių galima numatyti, balsuos jis uţ

kandidatą ar nebalsuos.

Page 4: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 4

KINTAMIEJI

• Priklausomas kintamasis Y – dvireikšmis

(0 arba 1).

• Aiškinamieji kintamieji (X) – intervaliniai

arba pseudokintamieji.

• Jei Y įgyja kitokias dvi reikšmes – jis

perkoduojamas.

• Vienetai (nuliai) sudaro ne daugiau kaip

80 % Y stebėjimų.

Page 5: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 5

Modelis:

čia

;1

1)P(Yz(x)

z(x)

e

e

.x ... x z(x) kk11

Page 6: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V.Čekanavičius, G.Murauskas 6

Kitas modelio uţrašas

čia

z(x); )0P(Y

1)P(Yln

.x ... x z(x) kk11

Page 7: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 7

Tikslai

• Rasti parametrų įverčius

• Išsiaiškinti, kaip gerai modelis tinka

duomenims.

• Gebėti modelį pritaikyti prognozėms.

..., , , 1

.ˆ ..., ,ˆ ,ˆ 1

Page 8: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V.Čekanavičius, G.Murauskas 8

Šiek tiek terminų

Tikimybių santykis

vadinamas įvykio Y = 1 galimybe (odds).

1)P(Y1

1)P(Y

-

Page 9: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 9

Galimybių santykis

Koeficiento k eksponentė exp{k} dar

vadinama galimybių santykiu (odds

ratio).

Galimybių santykis parodo, kaip keičiasi

Y=1 galimybė, kai xk padidėja vienetu

(kiti x nekinta).

Page 10: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 10

Logistinės regresijos pavyzdys

Norėdamas suţinoti, ar inkubacinės

aplinkos temperatūra turi įtakos vėţliukų

lyčiai, Ajovos universiteto profesorius

K. Koehler tyrė, kiek kokios lyties

vėţliukų išsirito iš skirtingose

temperatūrose laikytų vėţlio kiaušinių.

Page 11: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 11

Duomenys

Temperatūra Vėţliukai Vėţliukės

27,2 C0 2 25

27,7 C0 17 7

28,3 C0 26 4

28,4 C0 19 8

28,9 C0 27 1

Page 12: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

LOGISTINĖ REGRESIJA

naudojant SPSS programą

© V. Čekanavičius, G. Murauskas 12

Page 13: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 13

Duomenų įvedimas

Duomenis galima įvesti keliais skirtingais

būdais. Pateikiame vieną iš jų. Pagal

SPSS taisykles kiekvienam subjektui

(individui, vėţliukui(ei)) skiriama viena

duomenų eilutė. Kadangi informacija

kartojasi, naudojame svorius.

Page 14: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Duomenys atrodo taip

© V. Čekanavičius, G. Murauskas 14

Page 15: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Nepamirštame pasverti

© V. Čekanavičius, G. Murauskas 15

Page 16: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 16

Logistinę regresiją SPSS programa

galima atlikti dviem būdais

• Naudojantis parinktimi Binary logistic.

• Nagrinėjant kaip atskirą GLM atvejį.

Visi rezultatai sutaps, tačiau pirmuoju

atveju papildomai gausime

klasifikavimo lentelę, o antruoju –

deviaciją.

Page 17: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

PROCEDŪRABINARY LOGISTIC

© V. Čekanavičius, G. Murauskas 17

SPSS programa

Page 18: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 18

Logistinė regresija su Binary Logistic

...

Čia

Page 19: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 19

Logistinė regresija su Binary Logistic

...Priklausomas

Aiškinamasis Po to čia

Page 20: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 20

Logistinė regresija su Binary Logistic

...

Po to čia

Varnelė

Page 21: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 21

Logistinė regresija su Binary Logistic

...

Po to čia

Page 22: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 22

Svarbi pastaba

...Jeigu turėtume kategorinių kintamųjų, tai juos

įtrauktume į Covariates ir į Categorical. SPSS

automatiškai kiekvieną kategorinį kintamąjį

modelyje pakeis reikiamu kiekiu dvireikšmių

pseudokintamųjų.

Reikėtų įkelti

čia

Po to čia

Page 23: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Logistinė regresija su Binary Logistic

Kintamojo kodai sutapo su modelio kodais. Taip bus ne visada. Modelio vienetu visada tampa didesnioji Y reikšmė.

© V. Čekanavičius, G. Murauskas 23

Dependent Variable Encoding

Original Value Internal Value

mot 0

vyr 1

Kintamojo

kodai

Page 24: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 24

Classification Tablea

Observed

Predicted

Lytis

Percentage Correctmot vyr

Step 1 Lytismot 32 13 71,1

vyr 19 72 79,1

Overall Percentage76,5

a. The cut value is ,500

teisinga prognozė

Klasifikavimo lentelė

Prognozė

Duomenys

Teisinga prognozė

Page 25: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 25

Classification Tablea

Observed

Predicted

Lytis

Percentage Correctmot vyr

Step 1 Lytismot 32 13 71,1

vyr 19 72 79,1

Overall Percentage76,5

a. The cut value is ,500

teisinga prognozė

Klasifikavimo lentelė

Klaidos

Page 26: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 26

Classification Tablea

Observed

Predicted

Lytis

Percentage Correctmot vyr

Step 1 Lytismot 32 13 71,1

vyr 19 72 79,1

Overall Percentage76,5

a. The cut value is ,500

Klasifikavimo lentelė

Teisingų prognozių

procentai

Teisingų prognozių

procentai

Teisingų prognozių

procentai

Page 27: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 27

Išvados, žvelgiant į klasifikavimo lentelę

Matome, kad modelį taikant turimiems

duomenims teisingai klasifikuojama per

70 % vėţliukų.

Tai labai svarbus modelio tinkamumo

rodiklis. Jeigu teisingai klasifikuojama

nedaug turimos imties objektų, tai

logistinės regresijos modelis

duomenims netinka. Ir visai nesvarbu,

jeigu kiti rodikliai rodys priešingai.

Page 28: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 28

Pastabos

• Neuţtenka gero bendrojo teisingo

klasifikavimo procento.

• Nė viena iš dviejų Y reikšmių neturi

kartotis daugiau kaip 80% kartų.

• Geras klasifikavimas yra būtina, bet

nepakankama sąlyga, kad tiktų

logistinės regresijos modelis.

Page 29: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 29

2 kriterijus

• Tikrina hipotezę:

H0: visi m = 0,

H1: ne visi m = 0.

• Kitais ţodţiais:

H0: Y nepriklauso nuo x,

H1: Y priklauso nuo x.

• Tik neţinome, nuo kurių x.

Page 30: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 30

H0 atmetame (logistinė regresija galbūt

tinka), jei

H0 neatmetame (logistinė regresija

netinka), jei

Čia – reikšmingumo lygmuo.

Statistinės išvados

atsiţvelgiant į p reikšmę

p <

p >=

Page 31: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 31

2 kriterijus

Matome, kad p reikšmė maţa (p < 0,05).

Taigi negalima iškart atmesti modelio,

kaip netinkamo.

Omnibus Tests of Model Coefficients

Chi-square df Sig.

Step 1 Step 49,566 1 ,000

Block 49,566 1 ,000

Model 49,566 1 ,000

Page 32: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 32

Hosmerio - Lemešou 2 kriterijus

Šis kriterijus – alternatyva anksčiau

aptartajam 2 kriterijui. Hosmerio -

Lemešou kriterijus aprašytas knygoje

Statistika ir jos taikymai. II (p. 190).

Modelis nelabai tinka duomenims, kai p

reikšmė maţa (p < 0,05).

Page 33: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 33

Hosmerio - Lemešou 2 kriterijus

Matome, kad p reikšmė maţa (p < 0,05).

Darome išvadą, kad modelio

tinkamumas duomenims nėra labai

geras.

Hosmer and Lemeshow Test

Step Chi-square df Sig.

1 14,952 3 ,002

Page 34: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 34

PASTABA

Taikant 2 ir Hosmerio - Lemešou kriterijus

gautos visiškai priešingos išvados apie

modelio tinkamumą. Šiuo atveju, ko gero

labiau reikėtų tikėti Hosmerio - Lemešou

kriterijumi, nes duomenų nėra daug ir p

reikšmė netapo maţa vien dėl labai didelės

imties.

Taigi modelis nėra labai tinkamas duomenims.

Vis dėlto nekeisdami modelio aptarsime ir

kitus rodiklius.

Page 35: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 35

Voldo testai koeficientams m

• Ieškome nesvarbių x-ų.

• Kiekvienam daugikliui m tikrinama:

H0: m = 0,

H1: m = 0.

• Jei nulinės hipotezės neatmetame – tai

kintamasis modelyje galbūt nereikalingas.

Reikia patikrinti modelį be šio kintamojo.

Page 36: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 36

H0 atmetame (kintamasis modeliui tinka),

jei

H0 neatmetame (kintamasis „ įtartinas“ , jei

Čia – reikšmingumo lygmuo.

Statistinės išvados, atsiţvelgiant

į p reikšmę

p < .

p >= .

Page 37: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 37

• Pakartojame regresijos modelį be tokio

kintamojo.

• Tiriame klasifikavimo lentelę.

• Jei klasifikavimo tikslumas praktiškai

nepakito – kintamąjį šaliname.

Daţniausiai, modelio konstantos Voldo kriterijaus p

reikšmės net nenagrinėjame, nebent mums labai

svarbu, ar konstanta nelygi nuliui.

Ką daryti su „įtartinais“ kintamaisiais

Page 38: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 38

Voldo testai SPSS

Kintamojo Temp Voldo kriterijaus p

reikšmė maţa. Kintamasis

modelyje reikalingas.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a Temp 2,211 ,431 26,335 1 ,000 9,125

Constant -61,318 12,022 26,013 1 ,000 ,000

a. Variable(s) entered on step 1: Temp.

Kintamasis

Page 39: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 39

Parametrų įverčiai SPSS

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a Temp 2,211 ,431 26,335 1 ,000 9,125

Constant -61,318 12,022 26,013 1 ,000 ,000

a. Variable(s) entered on step 1: Temp.

Temp. 2,21 61,32- (x)z Kintamasis

Daugiklio įvertis

61,32 ˆ 21,2ˆ 1

Page 40: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 40

Prognozavimas

Konkretiems xm galima apskaičiuoti

ir rasti įvertį.

kk11 xˆ ... xˆ ˆ (x)z

1)P(Y

Page 41: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 41

Prognozavimas

Prognozuojama tik tada, kai regresijos

modelis duomenims tinka. Taikoma

formulė

.1

1)(YP(x)z

(x)z

e

e

Page 42: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 42

Prognozavimo pavyzdys

Kai temperatūra yra 27,5 C0, tai

,545,027,52,21 61,32- (x)z

.367,00,545-

1

0,545- 1)(YP

e

e

Page 43: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 43

Prognozavimo pavyzdys

Ţinome, kad Y=1 atitinka teiginį

išsiris vėžliukas. Todėl gautąjį

rezultatą interpretuojame taip:

esant 27,5 C0 temperatūrai,

tikimybės išsiristi vėţliukui įvertis

yra 0,367. Tikimybė išsiristi

vėţliukei lygi 1- 0,367 = 0,633.

Page 44: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 44

Apskaičiuojame

Darome išvadą, kad esant 27,5 C0

temperatūrai beveik dukart tikėtiniau, kad

išsiris vėţliukė nei vėţliukas (tiksliau

100/58 karto tikėtiniau).

Galimybės įvertis

.58,0 ,6330

0,367

1)(YP1

1)(YP

-

Page 45: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V.Čekanavičius, G.Murauskas 45

Galimybių santykis

Daugiklis Exp(2,211) = 9,125 rodo,

kaip keičiasi galimybių santykis,

temperatūrai pakilus vienu laipsniu.

Variables in the Equation

B S.E. Wald df Sig. Exp(B)

Step 1a Temp 2,211 ,431 26,335 1 ,000 9,125

Constant -61,318 12,022 26,013 1 ,000 ,000

a. Variable(s) entered on step 1: Temp.

Page 46: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V.Čekanavičius, G.Murauskas 46

Galimybių santykis

Galimybių santykį Exp(2,211) =9,125

interpretuojame taip: temperatūrai

padidėjus vienu laipsniu, galimybė

išsiristi vėţliukui padidėja 9,125

karto.

Pastaba. Galimybė – nėra tikimybė,

vienetą viršyti gali.

Page 47: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V.Čekanavičius, G.Murauskas 47

Galimybių santykio taikymas

Apskaičiuojame, kaip pasikeis

galimybė temperatūrai nuo 27,5 C0

pakilus iki 28,5 C0:

Darome išvadą, kad esant 28,5 C0 penkis

kartus labiau tikėtina, kad išsiris

vėţliukas, o ne vėţliukė.

.29,5125,958,0

Page 48: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 48

• Jų yra net keli. Daţniausiai naudojami

Kokso - Snelo arba Nagelkerkės

determinacijos koeficientai.

• Kuo R2 didesnis (arčiau vieneto), tuo

modelis geresnis.

• Maţas R2 rodo, kad logistinės regresijos

modelis duomenims nelabai tinka.

• Nurodant koeficientą, būtina parašyti

autoriaus vardą, pvz. Nagelkerkės R2.

Determinacijos koeficientai

Page 49: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Determinacijos koeficientai

Nagelkerkės determinacijos koeficientas lygus 0,425. Tai – vidutinis didumas, rodantis neblogą modelio tinkamumą duomenims.

© V. Čekanavičius, G. Murauskas 49

Model Summary

Step-2 Log

likelihoodCox & Snell R

SquareNagelkerke R

Square

1 123,101a ,305 ,425

a. Estimation terminated at iteration number 6 because parameter estimates changed by less than ,001.

Page 50: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 50

Rodikliai

Išrikiuokime modelio tinkamumą

atspindinčius rodiklius pagal svarbą:

• Klasifikavimo lentelė.

• 2 kriterijus ir Hosmerio - Lemešou

kriterijus.

• Voldo kriterijus „įtartiniems“

aiškinamiesiems kintamiesiems rasti.

• Determinacijos koeficientai.

Page 51: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 51

PASTABA

Taikydami parinktį Binary Logistic

negavome labai svarbaus rodiklio –

deviacijos.

Ją galima rasti, nagrinėjant logistinę

regresiją, kaip dalinį apibendrintų jų

tiesinių modelių atvejį.

Page 52: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

GLM PROCEDŪRA

© V. Čekanavičius, G. Murauskas 52

SPSS programa

Page 53: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 53

GLM – Generalized Linear Model

...

Čia

Page 54: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 54

Logistinė regresija su GLM

...

Taškas

Type of ModelPo to čia

Page 55: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 55

Logistinė regresija su GLM

...Po to čia

Įkeliame priklausomą

kintamąjį

Page 56: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 56

Logistinė regresija su GLM

... Po to čia

Intervalinis

aiškinamasis

kintamasis

Jeigu būtų

kategorinių

aiškinamųjų

kintamųjų

Page 57: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 57

Logistinė regresija su GLM

...

Įkeliame

Po to čia

Page 58: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 58

Logistinė regresija su GLM

...

Papildoma

varnelė

OK

Paţymėta

pagal nutylėjimą

Page 59: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

...Reikšmė Y=1 atitinka įvykį išsirito

vėžliukė. Logistinės regresijos modelis

bus sudarytas tikimybei, kad išsiris

vėţliukė.

© V. Čekanavičius, G. Murauskas 59

Logistinė regresija su GLM

Model Information

Dependent Variable Lytisa

Probability Distribution

Binomial

Link Function Logit

a. The procedure models mot as the response, treating vyr as the reference category.

Page 60: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Modelis gerai tinka duomenims, jeigu

deviacijos ir laisvės laipsnių santykis

maţesnis uţ vienetą.

Modelis neblogai tinka duomenims, jeigu

deviacijos ir laisvės laipsnių santykis

nedaug viršija vienetą (pvz., lygus 1,2).

Jeigu santykis daug viršija vienetą, modelis

ne itin gerai tinka duomenims.

© V. Čekanavičius, G. Murauskas 60

Modelio tinkamumas duomenims

Page 61: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

Modelis ne itin gerai tinka duomenims, nes

deviacijos ir laisvės laipsnių santykis

daug didesnis

uţ vienetą

(lygus 4,954).

© V. Čekanavičius, G. Murauskas 61

Modelio tinkamumas duomenims

Goodness of Fitb

Value df Value/dfDeviance 14,863 3 4,954

Scaled Deviance 14,863 3

Pearson Chi-Square 14,952 3 4,984

Scaled Pearson Chi-Square

14,952 3

Log Likelihooda -61,550

Akaike's Information Criterion (AIC)

127,101

Page 62: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

PASTABOS

• Modelį reikėtų tobulinti.

• Viena iš galimų didelės deviacijos priežasčių yra labai negausus skirtingų Temp reikšmių skaičius. Jų buvo tik penkios.

• Skaičiuojant laisvės laipsnius, įtakos turi skirtingų aiškinamųjų kintamųjų reikšmių skaičius. Įprastinė GLM formulė (n-K-1)netaikoma.

• Toliau aptarsime likusius rezultatus.

© V. Čekanavičius, G. Murauskas 62

Page 63: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 63

2 kriterijus

Matome, kad p reikšmė maţa (p < 0,05).

Statistikos reikšmė nesiskiria nuo

gautos, naudojant parinktį Binary

Logistic. Omnibus Testa

Likelihood Ratio Chi-

Square df Sig.49,566 1 ,000

Dependent Variable: LytisModel: (Intercept), Temp

a. Compares the fitted model against the intercept-only model.

Page 64: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 64

Voldo testai SPSS

Kintamojo Temp Voldo kriterijaus p

reikšmė maţa. Kintamasis modelyje

reikalingas.

Parameter BStd. Error

95% Wald Confidence Interval Hypothesis Test

Lower UpperWald Chi-

Square df Sig.

(Intercept) 61,318 12,0224

37,755 84,882 26,013 1 ,000

Temp -2,211 ,4309 -3,055 -1,367 26,335 1 ,000

(Scale) 1a

Kintamasis

Page 65: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 65

Parametrų įverčiai SPSS

Temp. 2,21 61,32 (x)z

61,32 ˆ 21,2ˆ 1

Parameter BStd. Error

95% Wald Confidence Interval Hypothesis Test

Lower UpperWald Chi-

Square df Sig.

(Intercept) 61,318 12,0224

37,755 84,882 26,013 1 ,000

Temp -2,211 ,4309 -3,055 -1,367 26,335 1 ,000

(Scale) 1a

Page 66: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 66

Pastaba

Naudodami parinktį Binary Logistic,

gavome priešingus ţenklus prie

parametrų įverčių. Taip įvyko todėl, kad

tada modeliavome vėžliuko išsiritimo

tikimybę, o dabar modeliuojame

vėžliukės išsiritimo tikimybę.

Page 67: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 67

Prognozavimas

• Konkrečiai temperatūrai galima

apskaičiuoti

ir rasti tikimybės, kad išsiris vėţliukė,

įvertį

Temp. 2,21 61,32 (x)z

.1

1)(YP(x)z

(x)z

e

e

Page 68: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 68

Prognozavimo pavyzdys

Kai temperatūra yra 27,5 C0, tai

,545,027,52,21 61,32 (x)z

.633,00,545

1

0,545 1)(YP

e

e

Page 69: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 69

Galimybės

Galimybės ir jų santykiai interpretuojami

taip, kaip aptarta nagrinėjant parinkties

Binary Logistic atvejį.

Parameter B Std. Error

95% Wald Confidence Interval Hypothesis Test

Exp(B)Lower Upper

Wald Chi-

Square df Sig.

(Intercept) 61,318 12,0224 37,755 84,882 26,013 1 ,000 4,268E26

Temp -2,211 ,4309 -3,055 -1,367 26,335 1 ,000 ,110

(Scale) 1a

Page 70: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 70

Determinacijos koeficientų negauname,

tačiau tarp rezultatų yra informaciniai

indeksai (Akaikės ir pan.). Juos galima

naudoti, kai turime daug aiškinamųjų

kintamųjų ir norime dalies jų atsisakyti.

Sudarome naują modelį ir lyginame su

ankstesniuoju. Geresnis tas modelis, kurio

informaciniai indeksai maţesni.

Kiti rodikliai

Page 71: LOGISTINĖ - spss analizė...TRUMPAI Dvireikšmė (binary) logistinėregresija –toks modelis, kai vienam (priklausomam) dvireikšmiuikintamąjam daro įtakąvienas ar keletas (nepriklausomų,

© V. Čekanavičius, G. Murauskas 71

Iš pradţių logistinę regresiją reikėtų daryti

naudojant parinktį Binary Logistic.

Po to dar padaryti ją kaip GLM atskirą atvejį

ir patikrinti, ar deviacijos ir jos laisvės

laipsnių santykis daug neviršija vieneto.

Metodinės pastabos