![Page 1: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/1.jpg)
Generalisierte additive Modelle
Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen
Stefanie Sprung8.11.2004
![Page 2: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/2.jpg)
2
Überblick
Lineare Modelle Verschiedene Splines Optimierung: Validierung AIC Freiheitsgrade GAM Beispiel
![Page 3: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/3.jpg)
3
Lineares Modell
X Kovariablen, Y Responsevariablen
Additiver linearer Zusammenhang zwischen Y und X
Mit zufälliger Störgröße ε
),...,()( 0 pXXfxfY
ppXXY ...00
ppXXY ...00
![Page 4: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/4.jpg)
4
Polynom 3. Grades
Rückführung des Modells auf einfaches lineares Modell mit:
Designmatrix
iiiiiii zzzzfy 33
2210)(
33
221 ,, iiiiii zxzxzx
32
31
211
1
::::
1
nnn zzz
zzz
X
![Page 5: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/5.jpg)
5
Schätzung
Basierend auf KQ-Schätzung P ist Projektionsmatrix rgP= spP= rgX= Anzahl der Spalten =Anzahl
der freien Parameter
PyyXXXXXyEy ')'(ˆ)(ˆˆ 1
![Page 6: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/6.jpg)
6
Smoother
Problem: bei manchen Datensätzen gibt es keine einfache Transformation
Lösung: Ersetzen der linearen Beziehung durch: f unspezifische Funktion, die bestimmten
Glattheitsforderungen genügt (etwa f stetig, stetig differenzierbar etc.)
xY 10
)(xfY
![Page 7: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/7.jpg)
7
Basisfunktionsansätze
Approximiere die unbekannte Funktion durch möglichst flexiblen Funktionenraum
Darstellung der Funktion f als
Linearkombination einer endlichen Menge
von Basisfunktionen
)(...)()()( 1100 xBxBxBxf pp
![Page 8: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/8.jpg)
8
Polynome vom Grad p
einfacher Basisansatz basiert auf Polynome als Basisfunktionen verwenden wir Problem: Wahl von p?
pp xxxY ...2
210
ppi xxBxxBxxBxB )(,...,)(,)(,1)( 2
210
![Page 9: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/9.jpg)
9
Polynomial Splines
Intervall [a,b] R und Knoten
a-ξ1< ξ2<....< ξm-b Funktion s:[a,b]->R heißt Spline-Funktion Spline-Funktion
vom Grad l (Ordnung l+1), wenn S ist Polynom (max Grad k) auf [ξ j, ξ j+1] j=0,..,m S besitzt stetige Ableitungen der Ordnung l-1 auf [a,b]
Menge der Polynomsplines ist ein Vektorraum der Ordnung m+(l-1) (Anzahl der Knoten + Grad)
![Page 10: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/10.jpg)
10
B-Splines
Basisfunktion für Splines
Dann erhalten wir für z [a,b]
0
1)(0 zB j sonst
z jj 1
)()()( 11
11
11 zBz
zBz
zB lj
jlj
ljlj
jlj
jlj
)()(1
1
zBzs lj
m
ljj
![Page 11: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/11.jpg)
11
B-Splines
zur Berechnung benötigen wir 2l zusätzliche Knoten
Knotenmenge bildet erweiterte Partition äquidistante Knotenwahl: Intervall [xmin,xmax]
und erhalten Knoten Wie viele Knoten sollen spezifiziert werden? Wo sollen die Knoten plaziert werden?
lmmmll ......... 1121
1minmax
m
xxh hjxj )1(min
![Page 12: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/12.jpg)
12
Bilder B-Spline
![Page 13: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/13.jpg)
13
P-Splines
definiere eine relativ große Anzahl äquidistanter Knoten (ca. 20-40) um ausreichende Flexibilität des Splineraums zu gewähren
zu starke Abweichungen benachbarter Regressionskoeffizienten βj werden durch Strafterme basierend auf quadrierte Differenzen k-ter Ordnung bestraft
![Page 14: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/14.jpg)
14
P-Spline
unbekannte Funktion f durch einen Spline vom Grad l approximieren
Bj ist eine B-Spline Basis
)()(0
xBxf j
p
jj
![Page 15: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/15.jpg)
15
P-Splines
penalisierte Residuenquadratsumme
Differenzenoperator k-ter Ordnung Strafterm-> Verhindert zu starke Anpassung an Daten,
damit überfitten Glättungsparameter
2
1
2
01
)())(()( j
p
kj
kij
p
jj
n
ii xBySP
k)(
1j
p
kj
k
λ
![Page 16: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/16.jpg)
16
Glättungsspline
x1<x2<…<xn
->min Lösung: natürliche kubische Splines
ist Polynom 3.Grades auf [xi;xi+1] für alle i f´´(xi) ist stetig in allen Beobachtungen f´´(x1)=f´´(xn)=0 d.h. am Rand verschwindet die 2.
Ableitung
dxxfxfyfSP i
n
ii
22
1
))(''())(()(
f
![Page 17: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/17.jpg)
17
kubische Splines
a<x1<...<xn<b eine Unterteilung des Intervalls [a,b]
zusätzliche Randbedingung: s‘‘(a)=0, s‘‘(b)=0 in den Intervallen [a,xn] und [xn,b] ist s linear
bei Glättungssplines mehr Basisfunktionen notwendig penalisierter KQ-Kriterium wobei ein NKS in B-Spline Basis ist
dxxsxsySP i
n
ii
22
1
))(''())(()(
)()(1
xBxs j
p
jj
![Page 18: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/18.jpg)
18
lokale Polynome
Nächste Nachbar Schätzer Lokale polynomiale Regression Locally-weighted running-line smoother im statistischen Programmpaket loessloess k nahsten Nachbarn
![Page 19: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/19.jpg)
19
Nächste Nachbar Schätzer
„Mittelwert“ der Responsebeobachtungen in einer Nachbarschaft
formal: Ave Mittelwertoperator und N(xi) eine Nachbarschaft
von xi
symmetrische Nachbarschaft k nächsten Nachbarn (unsymmetrische
Nachbarschaft)
)(ˆ xf
)()(ˆ)( jxNji yAvexfi
![Page 20: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/20.jpg)
20
Mittelwertoperatoren
Running mean Schätzer: arithmetisches Mittel der Beobachtung in N(xi) zur Bestimmung von
Running median Schätzer: Median der Beobachtung in N(xi), nichtlinearer Glätter
Running line Schätzer: Beim Running line Schätzer definieren wir KQ-Schätzer basierend auf Beobachtungen
)(ˆ xf
ii xxf 10ˆˆ)(ˆ
![Page 21: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/21.jpg)
21
Lokale polynomiale Regression
Taylorapproximation
gewichtete Residuenquadratsumme
wobei als Schätzer bedingter Erwartungswert
p
j
jijiii xxxx
xfxxxfxfxf
10 )(...)²(
2
)(''))((')()(
),()(1 1
0 i
n
i
p
j
jiji xxwxxy
xx
Kxxw ii ),(
)(
),()|()(ˆ
xd
dyyxydxXYExf
![Page 22: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/22.jpg)
22
Berechnung der lokalen Polynome
K nächste Nachbar von x0 wird identifiziert, bezeichnet als N(x0)
wird berechnet, Distanz des weitesten nahsten Nachbarn von x0
Gewichte wi sind zugewiesen zu jedem Punkt in N(x0), sie benutzen das tri-kubsiche Gewichtsfunktion:
||max)( 1)(0 0xxx oxN
![Page 23: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/23.jpg)
23
Berechnung der lokalen Polynome
definierten Gewichte
mit 0≤u≤1
bestimmen durch gewichtete lineare Regression
))(
||(
x
xxKw i
i
0
)1()(
33uuK
)(ˆ xf
![Page 24: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/24.jpg)
24
Glättungsparameterwahl
λ steuert den Ausgleich zwischen Bias und Variabilität
λopt minimiert ein Kriterium
mean average squared error
predicted squared-error
²)()(ˆ)(1
1ii
n
in xfxfEMSE
))²(ˆ(1
)(1
*i
n
ii xfyE
nPSE
![Page 25: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/25.jpg)
25
Kreuz-Validierung
Leaving one out Schätzung aller Daten ohne (yi,xi)
Summe der neuen Gewichte Σ(sij/(1-sii))=1
))²(ˆ(1
)(1
ii
n
ii xfy
nCV
j
n
ijj ii
iji
i yS
Sxf
1 )(1
)()(ˆ
![Page 26: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/26.jpg)
26
Generalisierte Kreuz-Validierung
Rechentechnisch einfacher
Sii durch Spur ersetzt
)))²((1
1(
))²(ˆ(1
)( 1
Sspn
xfy
nGCV
n
iii
![Page 27: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/27.jpg)
27
Additive Modelle
Additivität der Einflußgrößen wird beibehalten,
während der lineare Einfluss fallen gelassen wird
f1,...,fp sind unbekannte „glatte“ Funktionen
iipii xxfy ),...( 1
iippiiii xfxfy )(...)( 110
![Page 28: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/28.jpg)
28
AIC-Statistik
Erste Term bestraft eine mangelnde Anpassung an die
Daten Zweite Term bestraft die hohe Modellkomplexität Menge des AIC hat Form des Akaike-
Informationskriterium Matrix R ist Gesamtsmoothermatrix
)(²ˆ2²ˆ
)²ˆ(
1
Rspy
AICn
i
ii
Ry
![Page 29: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/29.jpg)
29
Freiheitsgrade
SST =SSM+SSE n-1 = p +n-p-1 Freiheitsgrade σ²=SSE/n-p -> erwartungstreuer Schätzer
df=sp(Sλ) (alternativ: n-sp(2Sλ-SλSλT ) oder
sp(SλSλT)) Freiheitsgrade
Freiheitsgrade der Fehler
)2()2( )()()(Tjjj
Terrj RRRspRRRspdf
![Page 30: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/30.jpg)
30
Projektionsmatrix
df(model)=tr(S) df(error)=E(RSS)=σ²(n-tr(2S-SST) S ist symmetrisch und idempotent Für polynomiale Regression, Regressions-
Splines df(error)=σ²(n-tr(S))
![Page 31: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/31.jpg)
31
Generalisierte Lineare Modelle
Bedingte Verteilung gehört Exponentialfamilie an Es gilt:
Erwartungswertr hängt über Responsefunktion ab
),,()(
exp),,,|( iiiiii
iiiii wycwby
xwyd
)(')|( iiii bxyE
i
iii w
bxyVar
)('')|(
)( ii h 'ii x
![Page 32: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/32.jpg)
32
Generalisierte additive Modelle
Lineare Prädiktor wird durch additiven ersetzt
Unbekannte Funktionen könne durch KQ-Algorithmus und Backfitting Algorithmus geschätzt werden
Residuenquadratsumme wird durch Devianzen ersetzt
)(...)( 110 ippii xfxf
![Page 33: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/33.jpg)
33
Generalisierte additive Modelle
Loglikelihood in Abhängigkeit vom geschätzten Erwartungswert
Devianz: Je höher Devianz, desto schlechter Anpassung
)ˆ( iil ).ˆ(ˆ ii h
))()ˆ((2:)ˆ,(1
iii
n
ii yllyD
)²/)(1(
)ˆ,(/1)(
nRsp
ynDGCV
)(2 RspDAIC
![Page 34: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/34.jpg)
34
Generalisiertes lineares Modell
50 100 150 200
02
46
81
01
2
PMME
RE
S5
![Page 35: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/35.jpg)
35
Polynom 3. Grades
50 100 150 200
02
46
81
01
2
PMME
RE
S5
![Page 36: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/36.jpg)
36
Kubischer Spline mit 3 Knoten
50 100 150 200
02
46
81
01
2
PMME
RE
S5
![Page 37: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/37.jpg)
37
Kubischer Spline mit 7 Knoten
50 100 150 200
02
46
81
01
2
PMME
RE
S5
![Page 38: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/38.jpg)
38
Lokal gewichteter Spline
50 100 150 200
02
46
81
01
2
PMME
RE
S5
![Page 39: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/39.jpg)
39
Smoothing Spline
50 100 150 200
02
46
810
12
PMME
RE
S5
![Page 40: Generalisierte additive Modelle Seminar: Statistische Analysen zur Wirkung von Luftschadstoffen Stefanie Sprung 8.11.2004](https://reader035.vdocuments.net/reader035/viewer/2022062622/55204d6949795902118bf5da/html5/thumbnails/40.jpg)
40
Quellenangabe
Studie „Assesing Confounding, Effect Modification, and Thresholds in the Association between Ambient Particles and Daily Deaths“ Joel Schwarz
„Generalized Additive Models“ Hastie/Tibsherani „Multivariate Statistical Modelling Based on
Generalized Linear Models“ Fahrmeir/Tutz „Computerintensive Verfahren der Statistik“ Stefan
Lang