angewandte statistische regression ii vorlesung 3 · gesamttest für die regression null-devianz...
Embed Size (px)
TRANSCRIPT

Angewandte statistische Regression II
Vorlesung 3
Jan Ernest
*Inhalt basiert auf Unterrichtsmaterialien aus den Vorjahren von
Prof. Dr. Werner Stahel, Dr. Lukas Meier, Prof. Dr. Barbara Hellriegel

• Konstruktion von Tests für verbundene («gepaarte») Stichproben, welche testen,
ob Randverteilungen gleich sind
• Approximativ via Chi-Quadrat verteilte Teststatistik → McNemar Test
• Exakt via Binomialtest
• 2-dimensionale Kreuztabellen sagen über Abhängigkeit in der Regel zu wenig aus
→ Simpson’s Paradox
• Kennzahlen für Abhängigkeit von zwei kategoriellen Variablen
• Absolute vs. relative Risiko-Differenz
• Odds
• Doppelverhältnis (odds ratio) als symmetrisches Mass für Abhängigkeit zweier
binärer Variablen.
Letztes Mal

• Grundsituation für logistische Regression
• Binäre Zielvariable 𝑌𝑖 ∈ {0,1}
• Beliebige erklärende Variablen 𝑥𝑖(1), 𝑥𝑖
(2), … , 𝑥𝑖
(𝑚)
• Ansatz wie bei linearer Regression führt zum Modell
𝐸 𝑌𝑖 𝑥𝑖 = 𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝛽0 + 𝛽1𝑥𝑖(1)
+ 𝛽2𝑥𝑖(2)
+⋯+ 𝛽𝑚𝑥𝑖(𝑚)
und dem Problem, dass geschätzte Wahrscheinlichkeiten <0 oder >1 werden können.
Letztes Mal

Modell der logistischen Regression
𝑔 𝑃 𝑌𝑖 = 1 𝑥𝑖) = log𝑃 𝑌𝑖=1 𝑥𝑖)
𝑃 𝑌𝑖=0 𝑥𝑖)= 𝛽0 + 𝛽1𝑥𝑖
(1)+ 𝛽2𝑥𝑖
(2)+⋯+ 𝛽𝑚𝑥𝑖
𝑚
log odds(𝑌𝑖|𝑥𝑖)
Letztes Mal: Logistisches Regressionsmodell
Linearer Prädiktor 𝜂𝑖Link-Funktion (logit)

Kennt man den linearen Prädiktor 𝜂𝑖 (oder die Parameter 𝛽0, 𝛽1,…, 𝛽𝑚), dann erhält man die Wahrscheinlichkeit 𝑃 𝑌𝑖 = 1 𝑥𝑖) gemäss
𝑃 𝑌𝑖 = 1 𝑥𝑖) = 𝑔−1 𝜂𝑖 =exp{𝜂𝑖}
1+exp{𝜂𝑖}.
Entsprechend ist
𝑃 𝑌𝑖 = 0 𝑥𝑖) = 1 − 𝑃 𝑌𝑖 = 1 𝑥𝑖) =1
1+exp{𝜂𝑖}
Terminologie
• Die inverse Link-Funktion 𝑔−1 heisst logistische Funktion.
Letztes Mal: Inverse Link-Funktion 𝑔−1

Ader verengt (𝑌 = 1)
Ader nicht verengt (𝑌 = 0)
→ binäre Zielvariable
𝑌: Verengung (ja/nein)
→ erklärende Variablen
𝑉𝑜𝑙: Atem-Volumen
𝑅𝑎𝑡𝑒: Atem-Frequenz
Beispiel: Aderverengung
Logistisches Regressionsmodell:
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = 𝛽0 + 𝛽1 ∙ 𝑉𝑜𝑙 + 𝛽2 ∙ 𝑅𝑎𝑡𝑒

Beispiel: Aderverengung Regressionsgleichung
(wie bei lm()) Logistische Regression
Koeffizienten መ𝛽0, መ𝛽1, መ𝛽2

Das angepasste logistische Regressionsmodell lautet:
𝑔(𝑃 𝑌 = 1 𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)) = መ𝛽0 + መ𝛽1 ∙ 𝑉𝑜𝑙 + መ𝛽2 ∙ 𝑅𝑎𝑡𝑒
= −9.53 + 3.88 ∙ 𝑉𝑜𝑙 + 2.65 ∙ 𝑅𝑎𝑡𝑒
Punkte in der (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene mit gleichen Wahrscheinlichkeiten besitzen die
Eigenschaft, dass
−9.53 + 3.88 ∙ 𝑉𝑜𝑙 + 2.65 ∙ 𝑅𝑎𝑡𝑒 = konstant
Das heisst, 𝑅𝑎𝑡𝑒 hängt linear von 𝑉𝑜𝑙 ab.
Beispiel: Aderverengung

𝑉𝑜𝑙
→ (𝑉𝑜𝑙, 𝑅𝑎𝑡𝑒)-Ebene
• Punkte mit gleichen Wahrscheinlichkeiten liegen auf einer Geraden
• Geraden für unterschiedliche Wahrscheinlichkeiten sind zueinander parallel
Beispiel: Aderverengung
Ra
te
𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖) > 0.5
𝑃 𝑌𝑖 = 1 𝑉𝑜𝑙𝑖 , 𝑅𝑎𝑡𝑒𝑖) < 0.5

Für ein Individuum mit 𝑉𝑜𝑙 = 2.3 und 𝑅𝑎𝑡𝑒 = 0.9 ergibt sich gemäss obigem
Modell eine geschätzte Wahrscheinlichkeit für eine Aderverengung von:
𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 𝑔−1 1.779 =exp{1.779}
1+exp{1.779}= 0.86.
Beispiel: Aderverengung
Ƹ𝜂
𝑃 𝑌 = 1 ො𝜂 =exp{ ො𝜂}
1 + exp{ො𝜂}
1.779
0.86

Ƹ𝜂
Beispiel: Aderverengung
Da 𝑃 𝑌 = 1 𝑉𝑜𝑙 = 2.3, 𝑅𝑎𝑡𝑒 = 0.9 = 0.86 > 0.5 würde man für das Individuum
eine Aderverengung (𝑌 = 1) vorhersagen.
True Positives (TP)
False Positives (FP)True Negatives (TN)
False Negatives (FN)

eduApp: FP, FN
11
False Postives
False Negatives
Das hängt von der Anwendung ab
Was ist schlimmer? False Positives oder False Negatives?

12
False Positives und False Negatives - Feueralarm
FeueralarmAlarm?
Ja NeinB
ren
nte
s? Ja
Feuer,
Alarm.
(“True Positive”)
Es brennt und der
Alarm geht nicht los.
(“False Negative”)
NeinFehlalarm!
(“False Positive”)
Kein Feuer
Kein Alarm
(“True Negative”)
* Beispiel und Darstellung übernommen und angepasst von Dr. D. Stekhoven, Vorlesung Mathematik IV: Statistik, HS 2017

13
SpamfilterFilter?
Löscht E-Mail Lässt E-Mail durchS
pa
m?
Ja
E-Mail ist Spam und
wird gelöscht.
(“True Positive”)
E-Mail ist Spam,
kommt in Inbox an.
(“False Negative”)
Nein
Kein Spam,
E-Mail wird gelöscht!
(“False Positive”)
E-Mail ist kein Spam
und kommt an.
(“True Negative”)
* Beispiel und Darstellung übernommen und angepasst von Dr. D. Stekhoven, Vorlesung Mathematik IV: Statistik, HS 2017
False Positives und False Negatives - Spamfilter

Ƹ𝜂
Beispiel: Aderverengung
Anzahl False Positives / False Negatives kann durch Wahl des Klassifikations-
Schwellenwerts beeinflusst werden.
• Grösserer Schwellenwert (z.B. 0.75): Mehr False Negatives, weniger False Postives
• Kleinerer Schwellenwert (z.B. 0.25): Weniger False Negatives, mehr False Positives
True Positives (TP)
False Positives (FP)True Negatives (TN)
False Negatives (FN)

Erinnerung: Das Modell der logistischen Regression lautet:
log(odds(Y|x))=log𝑃 𝑌=1 𝑥)
𝑃 𝑌=0 𝑥)= 𝛽0 + 𝛽1𝑥
1 + 𝛽2𝑥2 +⋯+ 𝛽𝑚𝑥
𝑚
Wenn man 𝑥(𝑗) um eine Einheit erhöht (und alles andere fix lässt), dann
• Erhöhen sich die log-odds von 𝑌 = 1|𝑥 um 𝛽𝑗
• Ändern sich die odds von 𝑌 = 1|𝑥 um den Faktor exp 𝛽𝑗
• Für das Doppelverhältnis (odds ratio) gilt:
𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗+1)
𝑜𝑑𝑑𝑠(𝑌|𝑥 𝑗 =𝑐𝑗)= exp 𝛽𝑗 für beliebiges 𝑐𝑗.
.
Interpretation der Parameter

Logistische Regression:
Gruppierte Daten

Man hat zu den gleichen erklärenden Variablen mehrere Beobachtungen (Replikate)
der Zielvariable.
Beispiel: Frühgeburten
Angaben von 247 Säuglingen
Gruppierte Daten
Mittleres Gewicht
(Klasse 500-600g)
# Beobachtungen
in dieser Kategorie
# überlebende
Säuglinge
# nicht überle-
bende Säuglinge
Einteilung in 10 Gewichtsklassen

Notation
𝑚𝑙 Beobachtungen 𝑌𝑖 zu gleichen Bedingungen 𝑥𝑖 = 𝑥𝑙
Definiere ෨𝑌𝑙 =1
𝑚𝑙σ𝑖:𝑥𝑖= 𝑥𝑙
𝑌𝑖 (Anteil Erfolge)
Es gilt dann
→ 𝑌𝑖 mit 𝑥𝑖 = 𝑥𝑙 unabhängige Versuche mit Erfolgswahrscheinlichkeit 𝜋𝑙 = 𝑃 𝑌𝑖 = 1 𝑥𝑙 .
→ 𝑚𝑙෨𝑌𝑙 ~ 𝐵𝑖𝑛(𝑚𝑙 , 𝜋𝑙) binomialverteilt
→ 𝐸 ෨𝑌𝑙 = 𝜋𝑙
Wir verwenden das gleiche Modell wie vorher und modellieren:
𝑔 𝜋𝑙 = 𝑥𝑙𝑇𝛽
Gruppierte Daten

Die Grösse der Kreise ist
proportional zu der Anzahl
Beobachtungen 𝑚𝑙
Ante
il Ü
berlebe
nde
(෨ 𝑌 𝑙
)
Gewicht
Beispiel: Frühgeburten

Beispiel: Frühgeburten

An
teil
Üb
erl
eb
en
de
(෨ 𝑌 𝑙
)
Gewicht
Beispiel: Frühgeburten

Logistische Regression:
Theorie

Schätzungen & Tests
Güte des Modells
R-Funktion summary(glm(…))

Logistische Regression:
Schätzungen & Tests

Frage: Wie schätzt man die Parameter 𝛽 = (𝛽0, 𝛽1,…, 𝛽𝑚)?
Man verwendet das Maximum Likelihood Prinzip → man wählt die Parameter 𝛽 so,
dass die Wahrscheinlichkeit der beobachteten Ereignisse maximal ist.
Likelihood-Funktion
𝑙 𝛽 = 𝑃𝛽(𝑌1 = 𝑦1, 𝑌2 = 𝑦2,…, 𝑌𝑛 = 𝑦𝑛) = ς𝑖=1𝑛 𝑃𝛽(𝑌𝑖 = 𝑦𝑖)
wobei 𝑃𝛽 𝑌𝑖 = 𝑦𝑖 = 𝜋𝑖𝑦𝑖(1 − 𝜋𝑖)
1−𝑦𝑖 über 𝜋𝑖 von 𝛽 abhängt: 𝑔 𝜋𝑖 = 𝑥𝑖𝑇𝛽.
Fasst W’keiten des logistischen Modells in einem Ausdruck zusammen:
𝑃𝛽 𝑌𝑖 = 1 = 𝜋𝑖 und 𝑃𝛽 𝑌𝑖 = 0 = 1 − 𝜋𝑖
Logit-Funktion
Maximum Likelihood Schätzung

Um das Produkt zu vermeiden arbeitet man mit der log-Likelihood-Funktion:
𝑙𝑙 𝛽 = log 𝑙 𝛽
Man erhält durch Einsetzen von 𝜋𝑖 =exp 𝑥𝑖
𝑇𝛽
1+exp 𝑥𝑖𝑇𝛽
und Umformen
𝑙𝑙 𝛽 = σ𝑖=1𝑛 𝑦𝑖𝑥𝑖
𝑇𝛽 − log 1 + exp 𝑥𝑖𝑇𝛽 .
Maximieren bezüglich 𝛽 ergibt Parameterschätzer መ𝛽.
Bemerkungen:
• Im Gegensatz zur linearen Regression existiert keine geschlossen darstellbare
Lösung
• Lösung durch iterative numerische Verfahren
Maximum Likelihood Schätzung

Das numerische Lösungsverfahren mit gewichteten linearen Regressionsproblemen
liefert eine approximative Verteilung der geschätzten Parameter.
→ መ𝛽 ist approximativ multivariat normalverteilt mit Erwartungswert 𝛽 und einer
Kovarianzmatrix 𝑽(𝛽)
→ Approximative Tests und Vertrauensintervalle für die Koeffizienten:
Teststatistik (Wald Test)
𝑇𝑗 =𝛽𝑗−𝛽𝑗
𝑽𝑗𝑗
(𝛽)ist approximativ 𝑁(0,1)-verteilt.
Bemerkung
• 𝑽𝑗𝑗
(𝛽)bezeichnet das j-te Diagonalelement von 𝑽(𝛽) («Standardfehler von መ𝛽𝑗»)
Verteilung von መ𝛽

Beispiel: Aderverengung
Koeffizienten መ𝛽0, መ𝛽1, መ𝛽2 Standardfehler von መ𝛽0, መ𝛽1, መ𝛽2
Teststatistik (Wald-Tests)
Zugehörige p-Werte(𝐻0: 𝛽𝑗 = 0)

Logistische Regression:
Güte des Modells

1. Anpassungstest, um zu testen, wie gut die Zielvariable durch die Einflussgrössen
erklärt wird → Vergleich von gefittetem Modell mit bestmöglichem («maximalem»)
Modell via Residuen-Devianz.
2. Vergleich zweier geschachtelter Modelle → Vergleich eines grösseren mit einem
kleineren Modell via Devianz-Differenz.
3. Hat das gefittete Modell überhaupt einen erklärenden Wert → Vergleich mit
«Nullmodell», das aussagt, dass erklärende Variablen keinen Effekt haben via
Null-Devianz.
→ Alle diese Fragestellungen können mittels Likelihood-Quotienten-Tests
beantwortet werden.
Drei Fragestellungen

• Wie gut wird Zielvariable durch Einflussgrössen erklärt?
• Nur für gruppierte Daten sinnvoll.
• 𝐻0: Angepasstes Modell mit 𝑝 Parametern passt gut.
• 𝐻1: Maximales Modell 𝑀 (mit einem Parameter pro Gruppe) ist richtig.
• Teststatistik: 𝐷(𝑦; ො𝜋) = 2 𝑙𝑙 𝑀 − 𝑙𝑙( መ𝛽)
• Approximative Verteilung unter 𝐻0: 𝜒𝑑2 (falls 𝑚𝑙 genug gross)
Anzahl Freiheitsgrade 𝑑 = #Gruppen − #Parameter
1. Anpassungstest
Residuen-Devianz

Anpassungstest (Beispiel: Frühgeburten)
Residuen-Devianz 10 Gruppen – 2 Parameter

• Vergleich zweier geschachtelter Modelle.
• Insbesondere auch geeignet um den Einfluss von kategoriellen erklärenden Variablen
auf die Zielgrösse zu prüfen.
• 𝐻0: Kleineres Modell 𝐾 ist richtig.
• 𝐻1: Grösseres Modell 𝐺 (welches Modell 𝐾 enthält) ist richtig.
• Teststatistik: 𝑇 = 2 𝑙𝑙 𝐺 − 𝑙𝑙 𝐾 = 𝐷(𝑦; ො𝜋(𝐾)) − 𝐷( 𝑦; ො𝜋(𝐾))
• Approximative Verteilung von 𝑇 unter 𝐻0: 𝜒𝑑2
Anzahl Freiheitsgrade 𝑑 ist die Differenz der Anzahl
Parameter der beiden Modelle: 𝑑 = 𝐺 − |𝐾|
2. Modellvergleich
Devianz-Differenz

Vergleich geschachtelter Modelle: R-Befehle
Residuen-Devianz 𝐷(𝑦; ො𝜋(𝐾))
Teststatistik ~ 𝜒12
(Devianz-Differenz)
Zugehöriger p-Wert
Residuen-Devianz 𝐷(𝑦; ො𝜋(𝐺))

Einfluss einzelner erklärender Variablen: R-Befehle
• Einfluss von kategoriellen erklärenden Variablen auf die Zielgrösse

• 𝐻0: alle 𝛽𝑗 = 0, 𝑗 = 1,… ,𝑚.
• 𝐻1: mind. ein 𝛽𝑗 ≠ 0, 𝑗 = 1,… ,𝑚.
• Teststatistik: 𝑇 = 2 𝑙𝑙( መ𝛽) − 𝑙𝑙( መ𝛽(0)) = 𝐷( 𝑦; ො𝜋(0)) − 𝐷( 𝑦; ො𝜋)
• Approximative Verteilung von 𝑇 unter 𝐻0: 𝜒𝑚−12
• Hat das geschätzte Modell einen erklärenden Wert?
• Vergleich mit kleinstem sinnvollem Modell (Nullmodell), welches nur aus dem
Achsenabschnitt besteht, d.h. 𝜋𝑖 ist für alle Beobachtungen gleich:
ො𝜋(0) = σ𝑖=1𝑛 𝑦𝑖 /𝑛 (globaler Anteil «Erfolge»).
Gesamttest für die Regression
Residuen-DevianzNull-Devianz

Gesamttest für die Regression (Beispiel: Aderverengung)
Null-Devianz Residuen-Devianz

Logistische Regression:
Residuenanalyse

Es existieren mehrere mögliche Definitionen von Residuen.
• Rohe Residuen (response residuals)
• Prädiktor Residuen (working residuals, link residuals)
𝑅𝑙(𝐿)
= 𝑅𝑙𝑑𝜂
𝑑𝜋ො𝜋𝑙 = 𝑅𝑙
1
ෝ𝜋𝑙+
1
1−ෝ𝜋𝑙(nach 𝜂 projiziert)
• Pearson Residuen
• Devianz-Residuen
Residuen

• QQ Plots machen in der Regel keinen Sinn
• Tukey-Anscombe Plots: z.B. Rohe Residuen gegen ො𝜋𝑙
TA-plot (Ungruppierte Daten)
Rohe R
esid
uen
ො𝜋

Pe
ars
on
Re
sid
ue
n
TA-plot (Gruppierte Daten)
ො𝜋