statikstik ii 3. lektion

Statikstik II3. Lektion

Multipel Logistisk regressionGenerelle Lineære Modeller

Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en

dreng skrives:

Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:

Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)

)DrengKøn|Jalæser God( P

)DrengKøn|Jalæser God(1)PigeKøn|Jalæser God( PP

)Dreng|Ja(1)Dreng|Ja()Dreng|Ja(

PPOdds

)Dreng|Ja(1

)Dreng|Ja(ln)Dreng|Ja(ln)Dreng|Ja(P

POddsLogit

Kategorisk forklarende variabel Eksempel:

Sammenhængen ml. læsehastighed og selvvurdering?

Er du en god læser

Nej Ja TotalSætnings-læsning

Hurtig 806.3%

119993.7%

1279100.0%

Langsom 8028.1%

20571.9%

285100.0%

Usikker 1135.5%

2064.5%

31100.0%

Total 17111.2%

142488.8%

1595100.0%

Odds for ”Ja” givet hastighed

1199/80 = 14.99

205/80 = 2.56

20/11 = 1.81

Logit for ”Ja” givet hastighed

ln(14.99) = 2.707

ln(2.56) = 0.94

ln(1.81) = 0.59

Logistisk Regressionsmodel

Model: Logit(Ja|Hastighed) = a + bHastighed

Logit(Ja|Hurtig) = a + bHurtig

Logit(Ja|Langsom) = a + bLangsom

Logit(Ja|Usikker) = a + bUsikker

For reference-kategorien sæt bHurtig = 0.

Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =

a + bLangsom) - a = bLangsom

Logit(Ja|Usikker) - Logit(Ja|Hurtig) =a + bUsikker) - a = bUsikker

Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.

Hypotesetest H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0

For hver kategori introducer en binær variabel: xHurtig , xLangsom og xUsikker.

xHurtig = 0 altid nul (reference-kategori)

xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom

xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker

Alternativ: Dummy-variable

Dummy-variable: Nu Som Tabel

Hastighed xLangsom xUsikker

Hurtig 0 0Langsom 1 0Usikker 0 1

Dummy-variable

Model:

Eksempel:

Bemærk struktur:

UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit bbba )|(

Langsom

UsikkerLangsomHurtigLangsomJaLogitba

bbba

010)|(

i

iikkkk xxxxxJaLogit babbab 111 ),,|(

Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den

logistiske regression skrives på den generelle form:

Og som sandsynlighed:

i

ii xXYLogit ba)|1(

iii

iii

x

x

x

x

e

eXYPi

ii

iii

ba

baba

ba

exp1

exp

1)|1(

Skala forklarende variabel Eksempel:

Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)

Plot: Andel Ja’er for hver score.

Model: Logit(Ja|Score = x) = a + bx

Sandsynlighed:

Plot: Logit(Ja|Score=x)

Logistisk Regressionsmodel

x

x

eexScoreJaP ba

ba

1)|(

Logistiske funktion

x

x

ee1

x

x

ee

5.05.1

5.05.1

1

Fortolkning af b Logit-forskel:

Så hver gang ’score’ stiger med 1 stiger logit med b.

Odds-ratio:

Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.

bbabbababa

xxxx

xScoreJaLogitxScoreJaLogit1

)|()1|(

b

ba

ba

ee

exScoreJaOdds

xScoreJaOddsx

x

1

)|()1|(

Hypotesetest

H0: b = 0

H1: b ≠ 0

Teststørrelse:

Jo større ”Wald” jo mindre tror vi på H0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H0 siger vi at b er signifikant.

0)ˆ(

ˆ 2

bb

SEWald

Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.

Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.

SPSS Output

Estimerede model:

Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger.

Sandsynligheder

xxScoreJaLogit 189.0402.0)|(

72.0

7189.0402.0exp17189.0402.0exp)7|(

ScoreJaP

Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:

Logit(Ja|Score=x) = a + b1x + b2x2

Hvis b2 ikke er signifikant, så er en logit-lineær model passende.

Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede

antal Ja’er i den tilpassede model.

Ox = observerede antal personer med score x, der svarer ”Ja”.

Nx = antal personer med score x. Ex = forventede antal personer med score x, der

svarer ”Ja”.

x

x

xxx eeNxScoreJaPNE ba

ba

1)|(

Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse:

Hvis vores værdier af a og b er korrekte gælder

Hvor df = ”antal led i summen” – ”antal parametre i modellen”

Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen

kikset.

x x

xx

EOE 2

2c

df22 ~ cc

SPSS Output

Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0.

Dvs. vi kan ikke afvise at modellen er korrekt.

Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.

Multipel Logistisk Regression Ide: Mere end en forklarende variabel.

Model:

Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0

EksemplerLogit(Ja|Dreng,Hurtig) = a +bDreng +bHurtig = a + 0 + 0 = a

Logit(Ja|Pige,Langsom) = a +bPige +bLangsom

HastighedKønHastighedKønJaLogit bba ,|

Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed:

Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) (a+bKøn+bHurtig) = bLangsom

Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.

Logit-forskelle

Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed:

Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) (a+bDreng+bHastighed) = bPige.

Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.

Logit-forskelle

Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge

faktisk afhænger af hastigheden – at der er en interaktion?

Indfør interaktionsled bKøn,Hastighed.

Model: Logit(Ja|Køn,Hastighed) =

a bKøn bHastighed bKøn,Hastighed

Parametere der refererer til en eller flere reference- kategorier sættes lig nul:

bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0

bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0

Interaktion / Vekselvirkning

Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)

Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.

KønDreng Pige

Læsehastighed Hurtig a abPige

Langsom abLangsom abPigebLangsom

bPige,Langsom

Usikker abUsikker abPigebUsikker

bPige,Usikker

Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige +

bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker +

bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige

og usikre læsere.

Hypotse

H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og

Hastighed.

H1: bPige,Langsom ≠ 0 og/eller bPige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.

SPSS

SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på

’>a*b>’ Husk at angive kategoriske variable under ’Categorical’

*Klik*

SPSS: Output

Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’

H-L Test: p-værdi = 1, da modellen er mættet.

Hverken ’køn’ eller ’hastighed*køn’ er signifikante.

Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære

Model: Middelværdien af Y givet X

Mere præcist: i’te observation ud af n er givet ved

xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)

k

i iikk xxxXYE111)|( babba

iikkii xxY ebba ,,11

IID

Simpel lineær regression

X

Y

Xi

Yi { β1

1a0

εi

E[Y|X] = a + β1X

iii xy eba 1),0( 2se Ni iid

GLM med én skala forklarende variabel (k=1)

Modellen er

Modellen siger: E(Y|X) = a + b1X V(Y|X) = σ2

Y|X ~ N(a + β1X, σ2)

Endnu en tegning…

X

Y

i.i.d. normalfordelte fejlled

Yi|xi~N(a + β1xi,σ2)

x1 x3x2 x4 x5

xY 1ba

Estimation Model:

yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!

Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.

Estimerede regressions linje

a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?

xbay 1ˆ

er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).

)ˆ( iii yye

Residual led

iYiYieˆ

Y

X

iY

iY

Xi

iXYiY givet for værdi eforvendted den ˆ

),( ii YX

XbaY 1ˆ

Den estimerede regressionslinje

datapunkt eobservered Det

Mindste kvadraters metode

Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.

Dvs, vi vil minimere

SSE er Sum of Squared Errors. Skrevet ud:

Bemærk: Funktion af to variable (a og b1).

n

i ieSSE1

2

n

i iin

i iin

i i xbayyye1

211

21

2 )()ˆ(

SSE er en funktion af a og b1.

Vi vil finde a og b1 så SSE er mindst mulig.

Minimering

aSSE

b1

Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:

Teststørrelse:

Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.

Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.

0:0: 1110 bb vs HH

)( 1

1

bSEbt

Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen

Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.

0 . 8

0 . 7

0 . 6

0 . 5

0 . 4

0 . 3

0 . 2

0 . 1

0 . 0

tOrange område = p-værdi

t0

t-fordeling med n-2 frihedsgrader

Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?

H0: b1 = 0 ingen lineær sammenhængH1: b1 0 lineær sammenhæng

Følgende er eksempler, hvor H0 accepteres.

Y

X

Y

X

Y

X

Konstant Y Usystematisk variation Ikke-lineær sammenhæng

SPSS Analyze → General Linear Models → Univariate…

Kategoriske forklarende variableSkala forklarende variable

Eksempel

Y : Forbrug af gas (gas) X : Udetemperatur (temp)

Scatterplot →

SPSS:

Estimerede model:

Både skæring (a) og hældning (b1) er signifikante!xy 290.0486,5ˆ

statikstik ii 3. lektion

Documents