statikstik ii 3. lektion
DESCRIPTION
Statikstik II 3. Lektion. Multipel Logistisk regression Generelle Lineære Modeller. Definitioner: Repetition. Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en dreng skrives: Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives: - PowerPoint PPT PresentationTRANSCRIPT
Statikstik II3. Lektion
Multipel Logistisk regressionGenerelle Lineære Modeller
Definitioner: Repetition Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en
dreng skrives:
Sandsynlighed for at ’Ja’ til at være en god læser givet at man er en pige skrives:
Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
Oddset for at være svare Ja til at være god læser givet man er en dreng er (”doven” notation)
)DrengKøn|Jalæser God( P
)DrengKøn|Jalæser God(1)PigeKøn|Jalæser God( PP
)Dreng|Ja(1)Dreng|Ja()Dreng|Ja(
PPOdds
)Dreng|Ja(1
)Dreng|Ja(ln)Dreng|Ja(ln)Dreng|Ja(P
POddsLogit
Hvis ingen afhængighed…
Hvis selvvurdering ikke afhænger af kønnet må der gælder følgende:
)Pige|Ja()Dreng|Ja( PP
1)Pige|Ja()Dreng|Ja( PP
)Pige|Ja()Dreng|Ja( OddsOdds
1)Dreng|Ja()Pige|Ja( OddsOdds
0)Dreng|Ja()Pige|Ja(ln OddsOdds
0Dreng)|Ja(logitPige)|Ja(logit
Odds-ratio
Logit-forskel
Kategorisk forklarende variabel Eksempel:
Sammenhængen ml. læsehastighed og selvvurdering?
Er du en god læser
Nej Ja TotalSætnings-læsning
Hurtig 806.3%
119993.7%
1279100.0%
Langsom 8028.1%
20571.9%
285100.0%
Usikker 1135.5%
2064.5%
31100.0%
Total 17111.2%
142488.8%
1595100.0%
Odds for ”Ja” givet hastighed
1199/80 = 14.99
205/80 = 2.56
20/11 = 1.81
Logit for ”Ja” givet hastighed
ln(14.99) = 2.707
ln(2.56) = 0.94
ln(1.81) = 0.59
Logistisk Regressionsmodel
Model: Logit(Ja|Hastighed) = a + bHastighed
Logit(Ja|Hurtig) = a + bHurtig
Logit(Ja|Langsom) = a + bLangsom
Logit(Ja|Usikker) = a + bUsikker
For reference-kategorien sæt bHurtig = 0.
Logit-forskelle Logit(Ja|Langsom) - Logit(Ja|Hurtig) =
a + bLangsom) - a = bLangsom
Logit(Ja|Usikker) - Logit(Ja|Hurtig) =a + bUsikker) - a = bUsikker
Dvs. bLangsom og bUsikker er de to logit-forskelle af interesse.
Hypotesetest H0: bLangsom = bUsikker = 0 H1: bLangsom ≠ 0 og/eller bUsikker ≠ 0
For hver kategori introducer en binær variabel: xHurtig , xLangsom og xUsikker.
xHurtig = 0 altid nul (reference-kategori)
xLangsom = 1 hvis Hastighed = Langsom xLangsom = 0 hvis Hastighed ≠ Langsom
xUsikker = 1 hvis Hastighed = Usikker xUsikker = 0 hvis Hastighed ≠ Usikker
Alternativ: Dummy-variable
Dummy-variable: Nu Som Tabel
Hastighed xLangsom xUsikker
Hurtig 0 0Langsom 1 0Usikker 0 1
Dummy-variable
Model:
Eksempel:
Bemærk struktur:
UsikkerUsikkerLangsomLangsomHurtigHurtig xxxHastighedJaLogit bbba )|(
Langsom
UsikkerLangsomHurtigLangsomJaLogitba
bbba
010)|(
i
iikkkk xxxxxJaLogit babbab 111 ),,|(
Logistisk Regression: Generel Form Med en omkodning til binære dummy-variable kan den
logistiske regression skrives på den generelle form:
Og som sandsynlighed:
i
ii xXYLogit ba)|1(
iii
iii
x
x
x
x
e
eXYPi
ii
iii
ba
baba
ba
exp1
exp
1)|1(
Skala forklarende variabel Eksempel:
Afhængig variabel: Er du en god læser (Ja/Nej) Forklarende variable: Antal rigtige i test (0…20)
Plot: Andel Ja’er for hver score.
Model: Logit(Ja|Score = x) = a + bx
Sandsynlighed:
Plot: Logit(Ja|Score=x)
Logistisk Regressionsmodel
x
x
eexScoreJaP ba
ba
1)|(
Logistiske funktion
x
x
ee1
x
x
ee
5.05.1
5.05.1
1
Fortolkning af b Logit-forskel:
Så hver gang ’score’ stiger med 1 stiger logit med b.
Odds-ratio:
Så hver gang score stiger med 1 ændres Odds’et med en faktor eb.
bbabbababa
xxxx
xScoreJaLogitxScoreJaLogit1
)|()1|(
b
ba
ba
ee
exScoreJaOdds
xScoreJaOddsx
x
1
)|()1|(
Hypotesetest
H0: b = 0
H1: b ≠ 0
Teststørrelse:
Jo større ”Wald” jo mindre tror vi på H0. Hvor langt ude ”Wald” er måles af p-værdien. Hvis vi afviser H0 siger vi at b er signifikant.
0)ˆ(
ˆ 2
bb
SEWald
Ingen logit-lineær sammenhæng mellem selvvurdering og test-score.
Der er en logit-lineær sammenhæng mellem selvvurdering og test-score.
SPSS Output
Estimerede model:
Fortolkning: Odds’et for at svare ”Ja” ændres med en faktor exp(b) = 1,208, hver gang scoren stiger med 1.Dvs. at Odds’et for ’Ja’ stiger når ’score’ stiger.
Sandsynligheder
xxScoreJaLogit 189.0402.0)|(
72.0
7189.0402.0exp17189.0402.0exp)7|(
ScoreJaP
Modelkontrol: Ikke logit-lineær Udvid model med ikke-lineært led, fx:
Logit(Ja|Score=x) = a + b1x + b2x2
Hvis b2 ikke er signifikant, så er en logit-lineær model passende.
Modelkontrol: Hosmer-Lemeshows c2-test Ide: Sammenlign observerede antal Ja’er og forventede
antal Ja’er i den tilpassede model.
Ox = observerede antal personer med score x, der svarer ”Ja”.
Nx = antal personer med score x. Ex = forventede antal personer med score x, der
svarer ”Ja”.
x
x
xxx eeNxScoreJaPNE ba
ba
1)|(
Modelkontrol: Hosmer-Lemeshows c2-test Teststørrelse:
Hvis vores værdier af a og b er korrekte gælder
Hvor df = ”antal led i summen” – ”antal parametre i modellen”
Hvis c2 er for stor tror vi ikke på modellen. Hvis den tilsvarende p-værdi er < 0.05 er modelkontrollen
kikset.
x x
xx
EOE 2
2c
df22 ~ cc
SPSS Output
Da p-værdien = 0.246 > 0.05 kan vi ikke afvise H0.
Dvs. vi kan ikke afvise at modellen er korrekt.
Data inddelt i 10 grupper. Modellen har to parametre. Dvs. df = 10 - 2 = 8.
Multipel Logistisk Regression Ide: Mere end en forklarende variabel.
Model:
Reference-kategorier: Dreng og Hurtig Dvs: bDreng = 0 og bHurtig = 0
EksemplerLogit(Ja|Dreng,Hurtig) = a +bDreng +bHurtig = a + 0 + 0 = a
Logit(Ja|Pige,Langsom) = a +bPige +bLangsom
HastighedKønHastighedKønJaLogit bba ,|
Sammenligning af logit for to personer af samme køn, med forskellig læsehastighed:
Logit(Ja|Køn,Langsom) Logit(Ja|Køn,Hurtig) = (a+bKøn+bLangsom) (a+bKøn+bHurtig) = bLangsom
Dvs. bLangsom beskriver logit-forskellen mellem hurtig og langsom læser uanset kønnet.
Logit-forskelle
Sammenligning af logit for to personer af forskellig køn, men med samme læsehastighed:
Logit(Ja|Pige,Hastighed) Logit(Ja|Dreng,Hastighed) = (a+bPige+bHastighed) (a+bDreng+bHastighed) = bPige.
Dvs. bPige beskriver logit-forskellen mellem piger og drenge uanset læsehastigheden.
Logit-forskelle
Interaktion / Vekselvirkning Hvad nu hvis logit-forskellen mellem piger og drenge
faktisk afhænger af hastigheden – at der er en interaktion?
Indfør interaktionsled bKøn,Hastighed.
Model: Logit(Ja|Køn,Hastighed) =
a bKøn bHastighed bKøn,Hastighed
Parametere der refererer til en eller flere reference- kategorier sættes lig nul:
bDreng,Hurtig = 0 bDreng, Langsom = 0 bDreng, Usikker = 0
bPige, Hurtig = 0 bPige, Langsom ≠ 0 bPige, Usikker ≠ 0
Interaktion / Vekselvirkning
Logit Tabel Tabel over Logit(Ja|Køn, Hastighed)
Bemærk: Hver celle har et individuelt logit. Vi kalder denne model den mættede model.
KønDreng Pige
Læsehastighed Hurtig a abPige
Langsom abLangsom abPigebLangsom
bPige,Langsom
Usikker abUsikker abPigebUsikker
bPige,Usikker
Logit-forskelle logit(ja|pige,hurtig) – logit(ja|dreng,hurtig) = bPige logit(ja|pige,usikker) – logit(ja|dreng,usikker) = bPige +
bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
logit(Ja|Dreng,Usikker) – logit(Ja|Dreng,Hurtig) = bUsikker logit(Ja|Pige,Usikker) – logit(Ja|Pige,Hurtig) = bUsikker +
bPige,Usikker. Dvs. bPige,Usikker er forskellen i logit-forskellen mellem hurtige
og usikre læsere.
Hypotse
H0: bPige,Langsom = bPige,Usikker = 0 Dvs. der er ingen interaktion mellem Køn og
Hastighed.
H1: bPige,Langsom ≠ 0 og/eller bPige,Usikker ≠ 0 Dvs. der er interaktion mellem Køn og Hastighed.
SPSS
SPSS: Analyze → Regression → Binary Logstic Vekselvirkningsled tilføjes ved at vælge flere led og så klikke på
’>a*b>’ Husk at angive kategoriske variable under ’Categorical’
*Klik*
SPSS: Output
Vores model er for Logit for ’Ja’ ’Hurtig’ og ’Dreng’ er reference-kategorierne Det interessante input står efter ’Block 1: Method = Enter’
H-L Test: p-værdi = 1, da modellen er mættet.
Hverken ’køn’ eller ’hastighed*køn’ er signifikante.
Generel Lineær Model Y afhængig skala variabel X1,…,Xk forklarende variable, skala eller binære
Model: Middelværdien af Y givet X
Mere præcist: i’te observation ud af n er givet ved
xj,i er j’te forklarende variabel for i’te observation. e1,…,en er uafhængige og identisk fordelt ei ~ N(0,s2)
k
i iikk xxxXYE111)|( babba
iikkii xxY ebba ,,11
IID
Simpel lineær regression
X
Y
Xi
Yi { β1
1a0
εi
E[Y|X] = a + β1X
iii xy eba 1),0( 2se Ni iid
GLM med én skala forklarende variabel (k=1)
Modellen er
Modellen siger: E(Y|X) = a + b1X V(Y|X) = σ2
Y|X ~ N(a + β1X, σ2)
Endnu en tegning…
X
Y
i.i.d. normalfordelte fejlled
Yi|xi~N(a + β1xi,σ2)
x1 x3x2 x4 x5
xY 1ba
Estimation Model:
yi = a + b1 xi + ei εi er i.i.d. N(0,σ2) a, β1 og σ2 er modellens parametre – ukendte!
Estimation af a og b1 svarer til at vælge den linje, der passer bedst til de observerede punkter.
Estimerede regressions linje
a er estimat for a og b1 er estimat for β1. ”Y hat” er estimat for E(Y|X) Spørgsmål: Hvordan estimerer vi a og b1?
xbay 1ˆ
er den lodrette afstanden fra den estimerede linie til datapunktet (xi,yi).
)ˆ( iii yye
Residual led
iYiYieˆ
Y
X
iY
iY
Xi
iXYiY givet for værdi eforvendted den ˆ
),( ii YX
XbaY 1ˆ
Den estimerede regressionslinje
datapunkt eobservered Det
Mindste kvadraters metode
Vi vil finde a og b1 så summen af de kvadrerede fejl bliver mindst mulig.
Dvs, vi vil minimere
SSE er Sum of Squared Errors. Skrevet ud:
Bemærk: Funktion af to variable (a og b1).
n
i ieSSE1
2
n
i iin
i iin
i i xbayyye1
211
21
2 )()ˆ(
SSE er en funktion af a og b1.
Vi vil finde a og b1 så SSE er mindst mulig.
Minimering
aSSE
b1
Test af hældning (β1) Test for om hældningen, β1 er forskellig fra nul:
Teststørrelse:
Numerisk store værdier af t er ufordelagtige for H0. SE(b1) er standardfejlen for estimatet b1.
Hvis H0 er sand følger t en såkaldt t-fordeling med n-k-1 frihedsgrader, hvor n er antal observationer.
0:0: 1110 bb vs HH
)( 1
1
bSEbt
Test af hældning (β1) Vælg et signifikansniveau, typisk α=0.05. Udregn teststørrelsen
Bestem p-værdien (SPSS). Beslutning: Hvis p-værdien < α afvises H0.
0 . 8
0 . 7
0 . 6
0 . 5
0 . 4
0 . 3
0 . 2
0 . 1
0 . 0
tOrange område = p-værdi
t0
t-fordeling med n-2 frihedsgrader
Fortolkning/Eksempler på H0Er der en lineær sammenhæng mellem X og Y?
H0: b1 = 0 ingen lineær sammenhængH1: b1 0 lineær sammenhæng
Følgende er eksempler, hvor H0 accepteres.
Y
X
Y
X
Y
X
Konstant Y Usystematisk variation Ikke-lineær sammenhæng
SPSS Analyze → General Linear Models → Univariate…
Kategoriske forklarende variableSkala forklarende variable
Eksempel
Y : Forbrug af gas (gas) X : Udetemperatur (temp)
Scatterplot →
SPSS:
Estimerede model:
Både skæring (a) og hældning (b1) er signifikante!xy 290.0486,5ˆ