versuchsplanung und multivariate statistik file4 lineare und nichtlineare modellierung i in den...
TRANSCRIPT
Versuchsplanung und multivariate Statistik
Kapitel 4: Lineare und nichtlineare Modellierung
Prof. Dr. Hans-Jorg Starkloff
TU Bergakademie FreibergInstitut fur Stochastik
Sommersemester 2019
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 1
4 Lineare und nichtlineare Modellierung
I In den Naturwissenschaften und ihren Anwendungen mussen oftZusammenhange zwischen verschiedenen Großen untersucht werden.Dies geschieht auf der Basis theoretischer Untersuchungen und/odermit Hilfe von experimentellen Daten.
I Verfahren, um uberhaupt eine Abhangigkeit einer Große von anderenGroßen zu erkennen, werden in der Statistik unter anderem imRahmen der Korrelationsanalyse oder Varianzanalyse entwickelt.
I Mit Hilfe von Verfahren der Regressionsanalyse konnen beivorliegenden Messdaten (bei denen in der Regel Zufallseinflusseunterstellt und beobachtet werden) konkrete funktionaleAbhangigkeiten gefunden und statistisch uberpruft werden.
I In der Chemometrie werden vor allem Fragestellungen derKalibrierung und der Optimierung mit Hilfe von Wirkungsflachen(Response-Surface-Modellen) durch die Regressionsanalysebearbeitet.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 2
Die Methode der kleinsten Quadrate
I Eine grundlegende Methode fur die Regressionsanalyse ist dieMethode der kleinsten Quadrate. Sie kann als heuristische Methodezur beschreibenden Regressionsanalyse genutzt werden, aber auchfur geeignete stochastische Modelle gut begrundet werden.
I Es seien z.B. Punkte (x1, y1), . . . , (xn, yn) gegeben und eine KlasseR von moglichen Regressionsfunktionen, so dass die funktionaleAbhangigkeit der Große y von der Große x voraussichtlich gutdurch eine Funktion aus dieser Klasse beschreibbar ist.
I Die Methode der kleinsten Quadrate besteht dann darin, aus Rdiejenige Funktion y = f (x) als empirische Regressionsfunktion zuden Daten auszuwahlen, fur die die Summe der Quadrate derAbstande zwischen den theoretischen Funktionswerten f (xi ) undden beobachteten Funktionswerten yi (jeweils bei den Argumentenxi , i = 1, . . . , n), d.h. die Summe der Abweichungsquadrate oder
Residual-Quadratsumme d =n∑
i=1
(yi − f (xi ))2 minimal wird.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 3
Weitere Bezeichnungen und Bemerkungen
I Die Abweichungen εi = yi − f (xi ) (bei einer gewahlten Funktiony = f (x) ) nennt man Residuen.
I Ist eine funktionale Abhangigkeit der Große y von der Große xgesucht, nennt man x auch Regressor, exogene Variable oderEinflussgroße. Die Große y wird auch Regressand, endogeneVariable oder Wirkungsgroße genannt.
I Der Name”Regression“ (
”Ruckschritt“) geht auf Galton zuruck.
Ausgangspunkt war damals eine Untersuchung von Pearson uberdie Große der Sohne (Variable y) im Zusammenhang mit der Großeder Vater (Variable x). Galton schrieb damals:
”Each pecularity in a
man is shared by his kinsman but on the average in a less degree.“(vgl. Hartung, Statistik. Lehr- und Handbuch der angewandtenStatistik, Oldenbourg Verlag Munchen, 15. Auflage, 2009, S. 569)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 4
4.1 Lineare Regressionsmodelle
I Bei linearen (auch: parameterlinearen) Regressionsmodellen gehtman von gesuchten funktionalen Abhangigkeiten aus, bei der dieParameter linear in die Funktionsgleichung eingehen, zum Beispielfur eine abhangige Große y und unabhangige Großen x1, . . . , xm
y = θ1x1 + . . .+ θmxm
bzw. bei einer unabhangigen Große x
y = θ0 + θ1x + . . .+ θkxk .
I Fur vorliegende n Messergebnisse (yi , xi1, . . . , xim) bzw. (yi , xi ) ,i = 1, . . . , n , sind geeignete Parameter θ` , ` = 1, . . . ,m , bzw.` = 0, . . . , k , zu bestimmen, die die Messergebnisse moglichst gut(oder bestmoglichst in einem bestimmten Sinne) beschreiben. Manspricht von linearen Regressionsmodellen, da die gesuchtenParameter linear in die Abhangigkeitsbeziehung eingehen.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 5
4.1.1 Einfache lineare Regression
I Gegeben seien Punkte (x1, y1), . . . , (xn, yn) .
I Die Abhangigkeit der y−Werte von den x−Werten soll bei dereinfachen linearen Regression durch eine (affin-)lineare Funktiony = f (x) = a + bx beschrieben werden. Die Grafik der mit derMethode der kleinsten Quadrate geschatzten Regressionsfunktionnennt man Ausgleichsgerade oder Regressionsgerade.
I Zur Bestimmung der geschatzten Regressionsfunktion muss dieResiduen-Quadratsumme d = d(a, b) als Funktion der beidenParameter (Variablen) minimiert werden,
d = d(a, b) =n∑
i=1
(yi − f (xi ))2 =n∑
i=1
(yi − a− bxi )2 .
I Als notwendige Bedingung mussen fur die optimalen Werte (dieSchatzwerte) a und b die ersten partiellen Ableitungen derFunktion d(a, b) nach a und b Null gesetzt werden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 6
Die Regressionsgerade
I Die Schatzwerte sind mit x = 1n
∑ni=1 xi , y = 1
n
∑ni=1 yi
b =
n∑i=1
(xi − x)(yi − y)
n∑i=1
(xi − x)2=
n∑i=1
xiyi − nx y
n∑i=1
x2i − nx2, a = y − bx
und damit die Gleichung der geschatzten Regressionsgeraden
y = a + bx .
I Dann gelten mit den Schatzwerten yi = a + bxiI die Summe der Residuen ist Null,
∑ni=1(yi − yi ) = 0 ;
I die Summe∑n
i=1 xi (yi − yi ) ist Null;I das arithmetische Mittel y der beobachteten y−Werte ist gleich
dem arithmetischen Mittel der geschatzten y−Werte yi = a + bxi ;I die Regressionsgerade verlauft durch den Schwerpunkt der
Punktwolke mit den Koordinaten (x , y) .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 7
Beispiel: Loslichkeit von NaNO3 (Mendelejew)
Bsp. 4.1.1
I Daten aus Linnik, Methode der kleinsten Quadrate in modernerDarstellung, Berlin, 1961; entnommen aus Mendelejew,Grundlagen der Chemie, 1906 .
I Daten:i Nummer der Messungxi Temperatur in ◦Cyi Loslichkeit von NaNO3 (in g pro 100 ml)
i 1 2 3 4 5 6 7 8 9
xi 0 4 10 15 21 29 36 51 68
yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1
I Theoretische Uberlegungen lassen eine gute Beschreibung durch einelineare Abhangigkeit vermuten.
I In Tafelwerken: Loslichkeit bei 20 ◦C : 874 g l−1 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 8
Regressionsgerade im Beispiel 4.1.1
Regressionsgerade: y = 67.5 + 0.87x .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 9
Residuenplot zum Beispiel 4.1.1
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 10
Streuungszerlegung
Es gilt die Streuungszerlegung
SST = SSE + SSR
mit (erste Bezeichnungen entsprechend dem Buch von Otto (2017))
I SScorr = SST =n∑
i=1
(yi − y)2, der Totalvariabilitat (Totalvarianz;
korrigiert um Mittelwert);
I SSfact = SSE =n∑
i=1
(yi − y)2, der”erklarten“ Variabilitat (erklarte
Varianz; Faktoren);
I SSR = SSR =n∑
i=1
(yi − yi )2, der Restvariabilitat (Restvarianz;
Residuen).
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 11
Bestimmtheitsmaß
I Das Verhaltnis B =SSE
SST= 1− SSR
SSTheißt Bestimmtheitsmaß.
I Es gelten 0 ≤ B ≤ 1 und B = r2X ,Y mit dem gewohnlichenempirischen Korrelationskoeffizienten rX ,Y .
I Liegt der Wert des Bestimmtheitsmaßes nahe bei 1, deutet dies aufdie gute Approximation der Punktwolke durch die Regressionsgeradehin.
I Im Beispiel 4.1.1 ist das Bestimmtheitsmaß fur die einfache lineareRegression gleich B = 0.998 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 12
4.2 Weitere Ergebnisse zu linearen Regressionsmodellen
Bem. 4.2.1
I Ist die gesuchte Abhangigkeitsfunktion eine nichtlineare Funktion(eine Gerade ist schlecht an die Daten anpassbar), kann manmitunter durch geeignete Variablentransformationen dieAufgabenstellung in eine der einfachen linearen Regressiontransformieren. Diese ist dann aber eigentlich nicht aquivalent zurursprunglichen Aufgabenstellung.
I Nichtlineare, in lineare transformierbare Funktionen sind z.B.
y = αxβ ⇒ ln y = lnα + β ln x
y = αeβx ⇒ ln y = lnα + βx
y = (α + βx)−1 ⇒ y−1 = α + βx
y = x(α + βx)−1 ⇒ y−1 = αx−1 + β
y = αeβ/x ⇒ ln y = lnα + βx−1
y =(α + βe−x
)−1 ⇒ y−1 = α + βe−x
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 13
Matrix-Vektor-Form fur die einfache lineare Regression
Bem. 4.2.2
I Die Modellgleichungen fur die einfache lineare Regression lauten
yi = a + bxi + εi , i = 1, . . . , n .
I In Matrix-Vektor-Form lauten diese Gleichungen
y = xθ + ε
mitI y = (y1, . . . , yn)T (Vektor der abhangigen Variablen) ,
I ε = (ε1, . . . , εn)T (Vektor der Residuen) ,
I θ = (a, b)T (Parametervektor, Vektor der Regressionskoeffizienten) ,
I x =
1 x11 x2...
...1 xn
(Planmatrix, Designmatrix) .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 14
Normalgleichungssystem fur die einfache lineare Regression
Bem. 4.2.3Die Methode der kleinsten Quadrate besteht in der Bestimmung desSchatzvektors θ durch
θ = arg minθ∈R2
(y − xθ)T(y − xθ) = arg minθ∈R2
εTε .
Satz 4.2.4Ein in Bem. 4.2.3 definierter Vektor θ ist Losung des linearenGleichungssystems (des Normalgleichungssystems)
xTx θ = xTy .
Ist die Matrix xTx regular (invertierbar), dann existiert eine eindeutigeLosung
θ =(
xTx)−1
xTy .
Die empirischen Regressionskoeffizienten (die Komponenten von θ ) sindLinearkombinationen der Messwerte y1, . . . , yn .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 15
Beispiel Fe-Bestimmung
Bsp. 4.2.5
I Daten aus: Danzer, Hobert, Fischbacher, Jagemann,Chemometrik Grundlagen und Anwendungen, Springer, 2001,Tabelle 7.2, S. 265.
I Daten: Fe-Bestimmung,die mittels GF-AAS (Graphitrohr-Atomabsorbtionsspektrometrie) beiλ = 334.1 nm uber eine Variation der Einwage durchgefuhrt wurde.xi Masse in ngyi Peakhohe
i 1 2 3 4 5 6 7
xi 0.0162 1.4094 3.0132 5.5080 8.1000 10.3032 11.8422yi 0.0089 0.0265 0.0400 0.0650 0.0835 0.1017 0.1092
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 16
Regressionsgerade im Beispiel 4.2.5
Regressionsgerade: y = 0.013567 + 0.008455x .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 17
Residuenplot zum Beispiel 4.2.5 (Regressionsgerade)
Bestimmtheitsmaß: B = 0.9919 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 18
Regressionsparabel im Beispiel 4.2.5
Regressionsparabel: y = 0.0095075 + 0.0111917x − 0.0002308x2 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 19
Residuenplot zum Beispiel 4.2.5 (Regressionsparabel)
Bestimmtheitsmaß: B = 0.9989 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 20
Gleichungssystem zur Bestimmung der Regressionsparabel
Satz 4.2.6Das lineare Gleichungssystem zur Bestimmung der Regressionsparabel(Ausgleichsparabel) y = a + bx + cx2 lautet
nn∑
i=1xi
n∑i=1
x2in∑
i=1xi
n∑i=1
x2in∑
i=1x3i
n∑i=1
x2in∑
i=1x3i
n∑i=1
x4i
a
bc
=
1 . . . 1x1 . . . xnx21 . . . x2n
y1
...yn
oder xTx θ = xTy mit
x =
1 . . . 1x1 . . . xnx21 . . . x2n
T
, θ = (a , b , c)T
und y = (y1 , . . . , yn)T .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 21
Der Fall symmetrisch liegender Werte xi
Bem. 4.2.7Liegen die Werte xi , i = 1, . . . , n , symmetrisch zu Null (dies kann ggf.durch eine affin lineare Transformation erreicht werden), ergeben sicheinfachere Formeln, da dann
∑ni=1 x
pi = 0 fur ungerade p gilt.
I Im Fall der einfachen linearen Regression erhalt man so
a =
∑ni=1 yin
= y , b =
∑ni=1 xiyi∑ni=1 x
2i
.
I Fur die Regressionsparabel erhalt man in diesem Fall mith1 =
∑ni=1 x
2i , h2 =
∑ni=1 x
4i , h3 = nh1h2 − h31 die Formeln
a =h1h3
(h2
n∑i=1
yi − h1
n∑i=1
x2i yi
), b =
nh2 − h21h3
n∑i=1
xiyi ,
c =h1h3
(n
n∑i=1
x2i yi − h1
n∑i=1
yi
).
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 22
Das stochastische Modell (einfache lineare Regression)
Fur weiterfuhrende statistische Aussagen wie Konfidenzintervalle oderTests muss ein stochastisches Modell genutzt werden.
Modell 4.2.8
Yi = a + bxi + εi , i = 1, . . . , n,
wobei die Werte xi deterministische, einstellbare Werte sind und derZufallseinfluss (Messfehler bei der Messung der Große y , nichtberucksichtigte Einflussgroßen, Fehler in der Wahl der Klasse derRegressionsfunktionen –
”zufallige Fehler“) durch unabhangige
normalverteilte Zufallsgroßen εi mit E[εi ] = 0 und Var[εi ] = σ2
(unbekannt, nicht von i abhangig) modelliert werden. Damit werden diebeobachteten Werte als Realisierungen von Zufallsgroßen angesehen,wobei obige Gleichungen das stochastische Beobachtungsmodell (oderMessmodell) definieren. Die Koeffizienten a und b werden alsdeterministische, aber unbekannte Parameter angesehen (im Rahmen derklassischen mathematischen Statistik).
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 23
Eigenschaften der Schatzer fur die Parameter a und b
Satz 4.2.9Unter den Voraussetzungen fur Modell 4.2.8 gelten:
I Die Kleinste-Quadrat-Schatzwerte b bzw. a sind Realisierungenerwartungstreuer und konsistenter Schatzfunktionen
B =
n∑i=1
(xi − x)(Yi − Y )
n∑i=1
(xi − x)2=
n∑i=1
xiYi − nx Y
n∑i=1
x2i − nx2, A = Y − Bx
fur die Modellparameter b bzw. a .
I Die Schatzfunktionen fur a bzw. b sind auch die besten linearenunverzerrten Schatzer (d.h. die linearen erwartungstreuen Schatzermit kleinstmoglicher Varianz, ”BLUE”, ”best linear unbiasedestimator”) fur die Modellparameter a bzw. b .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 24
Schatzung der Fehlervarianz
Satz 4.2.10Unter den Voraussetzungen fur Modell 4.2.8 gilt:Die Fehlervarianz Var[εi ] = σ2 kann geschatzt werden durch
σ2 = s2Rest =1
n − 2SSR =
1
n − 2
n∑i=1
(yi − yi )2 .
Der Schatzwert ist die Realisierung der erwartungstreuen Schatzfunktion
σ2 = S2Rest =
1
n − 2SSR =
1
n − 2
n∑i=1
(Yi − Yi )2 .
(Der Nenner n − 2 gewahrleistet die Erwartungstreue, d.h.Unverzerrtheit, des Schatzers und hangt damit zusammen, dass 2Parameter geschatzt werden und nicht als bekannte Werte vorliegen.)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 25
Tests fur die Parameter a und b
Satz 4.2.11Unter den Voraussetzungen fur Modell 4.2.8 gelten:
I Hypothesen: H0 : a = a0, HA : a 6= a0bzw. H0 : b = b0, HA : b 6= b0 .
I Testwerte: t =a− a0sa
mit s2a =(1n + x2∑n
i=1(xi−x)2
)σ2
bzw. t =b − b0sb
mit s2b = σ2∑ni=1(xi−x)2
.
Die dazugehorigen Testgroßen sind unter H0 t−verteilt mit n − 2Freiheitsgraden.
I Kritischer Bereich zum Niveau α: K = {t ∈ R : |t| > tn−2;1−α/2} .
I Analog konnen einseitige Tests durchgefuhrt werden.
I Unter den angegebenen Bedingungen gelten
Var[A]
=
(1
n+
x2∑ni=1(xi − x)2
)σ2, Var
[B]
=σ2∑n
i=1(xi − x)2.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 26
Konfidenzintervalle fur die Parameter
Satz 4.2.12Unter den Voraussetzungen fur Modell 4.2.8 gelten:
I Ein Konfidenzintervall fur a zum Niveau 1− α ist
[a− satn−2;1−α/2; a + satn−2;1−α/2] .
I Ein Konfidenzintervall fur b zum Niveau 1− α ist
[b − sbtn−2;1−α/2; b + sbtn−2;1−α/2] .
I Ein Konfidenzintervall fur die Fehlervarianz σ2 zum Niveau 1−α ist[(n − 2)σ2/χ2
n−2;1−α/2; (n − 2)σ2/χ2n−2;α/2
].
I Simultane Konfidenzintervalle zum Niveau 1− α sind die folgenden.Das erste Intervall uberdeckt a, das zweite b, wobei insgesamt dasNiveau 1− α eingehalten wird:[
a−√
2s2aF2;n−2;1−α; a +√
2s2aF2;n−2;1−α
],[
b −√
2s2bF2;n−2;1−α; b +√
2s2bF2;n−2;1−α
].
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 27
Konfidenzintervalle fur die Regressionsgerade
I Haufig mochte man jedoch Konfidenzintervalle fur den Wert derRegressionsgerade an einer Stelle x (oder fur ein Intervall vonx−Werten) bestimmen, d.h. fur E[Y (x)] = a + bx .
I Satz 4.2.13Ein solches Konfidenzintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch
[y(x)− d ; y(x) + d ] mit y(x) = a + bx und
d = sRest · tn−2,1−α/2
√1
n+
(x − x)2∑ni=1(xi − x)2
.
I Fur unterschiedliche Werte x erhalt man unterschiedliche Abstandezwischen der oberen und unteren Grenze. Fur alle x−Wertebetrachtet ergibt sich ein Konfidenzstreifen (Konfidenzschlauch), deran der Stelle x = x am schmalsten ist.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 28
Prognoseintervalle fur Y (x)
I Berechnet man ein zufalliges Intervall, welches mit einervorgegebenen Wahrscheinlichkeit 1− α eine Realisierung vonY (x) = a + bx + ε(x) uberdeckt, erhalt man ein sogenanntesPrognoseintervall fur Y (x) zum Niveau 1− α .
I Satz 4.2.14Ein solches Prognoseintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch
[y(x)− d ; y(x) + d ] mit y(x) = a + bx und
d = sRest · tn−2,1−α/2
√1 +
1
n+
(x − x)2∑ni=1(xi − x)2
.
I Bei Betrachtung beliebiger x−Werte erhalt man wieder einenStreifen um die Regressionsgerade, den Prognosestreifen. Er istbreiter als der zugehorige Konfidenzstreifen zum selben Niveau.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 29
Konfidenzstreifen fur Loslichkeitsdaten von NaNO3
Bsp. 4.2.15 Regressionsgerade (blau), Konfidenzstreifen (rot),Prognosestreifen (grun), Mittelwertlinie (grau) fur Daten aus Bsp. 4.1.1(Konfidenzniveau 0.95)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 30
Einfache lineare Regression durch den Koordinatenursprung
Bem. 4.2.16
I Bei bestimmten Problemstellungen ist es sinnvoll zu fordern, dassdie Regressionsgerade durch den Koordinatenursprung geht. Manspricht dann auch von einer Regression ohne Absolutglied oder einereigentlich-linearen Regression.
I Man erhalt nun als Modellansatz
Yi = b xi + εi , i = 1, . . . , n ;
als Schatzung fur den Parameter b
b =
∑ni=1 xiyi∑ni=1 x
2i
und als Schatzung fur die Varianz der zufalligen Fehler
σ2 =1
n − 1
n∑i=1
(yi − yi )2 mit yi = b xi .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 31
Regressionsgerade durch den Nullpunkt im Beispiel 4.2.5
Regressionsgerade: y = 0.009998x .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 32
Residuenplot zum Beispiel 4.2.5 lin. Regression durch 0
Bestimmtheitsmaß: B = 0.9855 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 33
Residualanalyse zur Uberprufung des Modells
Bem. 4.2.17
I Durch eine Analyse der Residuen ist eine Uberprufung derModellannahmen moglich, z.B. bei der linearen Einfachregression.
I Zu den Modellannahmen gehoren sowohl die Wahl der Klasse derRegressionsfunktionen als auch die Annahmen an die zufalligenFehler: der Typ der Verteilung (oft Normalverteilung) und derenParameter (Erwartungswerte gleich Null und konstante Varianzen –Homoskedastizitat) und Unabhangigkeit.
I Ist der Modellansatz, z.B. die Annahme einer Normalverteilung furdie zufalligen Fehler εi , i = 1, . . . , n , richtig, dann sind die Residuenεi = Yi − yi approximativ unabhangig und identisch normalverteilt.
I Die Uberprufung der Modellannahmen mit Hilfe der Residuen kanndurch statistische Tests erfolgen (z.B. Verteilungstests). Hinweisekann auch eine grafische Analyse liefern.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 34
Grafische Analyse der Residuen - Heteroskedastizitat
Bem. 4.2.18Bei bestimmten typischen Mustern in den Grafiken kann man dann unterUmstanden auf spezielle Modellfehler schliessen.
⇒ Vermutung, dass Fehlerzufallsgroßen unterschiedliche Varianzenbesitzen (Heteroskedastizitat).
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 35
Grafische Analyse der Residuen
⇒ Vermutung: Fehlspezifikationder Regressionsfunktion, z.B. qua-dratische Regression oder Struk-turbruch.
⇒ Vermutung: richtige Spezi-fikation des Regressionsmodellsund Homoskedastizitatsannahmeerfullt.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 36
Verschiedene Residuendarstellungen
Bem. 4.2.19Die grafische Darstellung der Residuen kann z.B. bezuglich derFallnummern, der xi−Werte oder der geschatzten Werte yi erfolgen.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 37
4.3 Multiple parameterlineare Regression
Bem. 4.3.1
I Im Folgenden soll die Abhangigkeit eines Regressanden (einerWirkungsgroße oder einer endogenenen Variablen) Y von mehrerenRegressoren (Einflussgroßen oder exogenen Variablen) X1, . . . ,Xm
beschrieben werden, d.h. es soll gelten
Y ≈ f (X1, . . . ,Xm)
mit einer geeigneten Funktion f : Rm → R .
I Wir werden wieder annehmen, dass die Regressoren deterministischsind (z.B. mit exakt einstellbaren Werten) und dies durch kleineBuchstaben x1, . . . , xm in den Gleichungen kennzeichnen.
I Man erhalt dann als Modellgleichung
Y (x1, . . . , xm) = f (x1, . . . , xm) + ε
mit einem zufalligen Fehler ε = ε(x1, . . . , xm) .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 38
Beispiele fur parameterlineare Ansatze
Bsp. 4.3.2
I Haufig werden bei solchen Aufgabenstellungen parameterlineareAnsatze verwendet, d.h. man setzt eine Beziehung
Y (x1, . . . , xm) = a1f1(x1, . . . , xm) + . . .+ ar fr (x1, . . . , xm) + ε
mit speziell gewahlten, bekannten Funktionen f1, . . . , fr und zubestimmenden Koeffizienten (Parametern) a1, . . . , ar voraus.
I Im eigentlich nichtmultiplen Fall m = 1 (nur eine Einflussgroße)gilt bei der polynomiellen Regression vom Grade k
Y (x) = a0 + a1x + . . .+ akxk + ε .
I Der m−faktorielle Ansatz ohne Wechselwirkungen
Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm + ε
definiert die Ausgleichsebene (ebene Regression).
I Bem.: Eine Gleichung y = a0 + a1x1 + . . .+ amxm definiert eine(Hyper-)Ebene im (m + 1)−dimensionalen Raum.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 39
Fortsetzung Beispiele fur parameterlineare Ansatze
I Als Beispiel eines m−faktoriellen Ansatzes mit Wechselwirkungenwerde hier noch der Fall einer multiplen quadratischen Regressionvorgestellt:
Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm
+ a12 x1x2 + . . .+ am−1,m xm−1xm
+ a11 x21 + . . .+ amm x2m
+ ε .
I Auch hohere Polynomgrade oder andere Funktionen der Variablenx1, . . . , xm sind moglich und werden auch verwendet.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 40
Regressionsansatz in Vektorschreibweise
Bem. 4.3.3
I Analog zu fruheren Ausfuhrungen ist es vorteilhaft, dieVektorschreibweise zu nutzen. Es seien
x = (x1, . . . , xm)T =
x1...xm
, a = (a1, . . . , ar )T =
a1...ar
,
f(x) = (f1(x), . . . , fr (x))T =
f1(x)...
fr (x)
.
I Der parameterlineare Ansatz kann dann geschrieben werden als
Y (x) = aTf(x) + ε(x) . (1)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 41
Die Methode der kleinsten Quadrate
Bem. 4.3.4I Sind die (zufallsbeeinflussten)
”Wirkungen“ yi fur i = 1, . . . , n an
den”Einflussstellen“ xi = (xi1, . . . , xim)T durch Messungen
bestimmt worden, kann man mit Hilfe der Methode der kleinstenQuadrate eine geeignete Schatzung a des Vektors a derRegressionskoeffizienten im parameterlinearen Ansatz (1) finden.
I Die Schatzung a ist ein Vektor von Regressionskoeffizienten a , fur
denn∑
i=1
(yi − aTf(xi )
)2minimal wird.
I Die geschatzte Regressionsfunktion ist dann
y(x) = a1f1(x) + . . .+ ar fr (x) = aTf(x) = f(x)Ta .I Im Weiteren genutzte Bezeichnungen sind y = (y1, . . . , yn)T und
f = (f(x1), . . . , f(xn))T =
f1(x1) . . . fr (x1)...
. . ....
f1(xn) . . . fr (xn)
.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 42
Das Normalgleichungssystem
Satz 4.3.5
I Die Schatzung a des Vektors a der Regressionskoeffizienten kanndann mit Hilfe des Normalgleichungssystems gefunden werden:
fTf a = fTy . (2)
Dies ist ein lineares Gleichungssystem zur Bestimmung derKomponenten von a .
I Ist die Matrix fTf regular, dann ist (2) eindeutig auflosbar und esgilt
a =(
fTf)−1
fTy . (3)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 43
Eigenschaften der Schatzung
Satz 4.3.6Unter der Annahme, dass die beobachteten Werte yi Realisierungen derZufallsgroßen
Yi = a1f1(xi ) + . . .+ ar fr (xi ) + εi
sind, wobei die zufalligen Fehler εi unabhangige normalverteilteZufallsgroßen mit Erwartungswert 0 und konstanter Varianz σ2
sind, ist die Schatzung a aus (3) erwartungstreu und konsistent.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 44
Beispiel
Bsp. 4.3.7Bearbeitungszeit y , Durchmesser x1 und Lange x2 von Werkstucken(Quelle: Hartung, Elpelt, Klosener, Statistik – Lehr- undHandbuch der angewandten Statistik, Oldenbourg Verlag, 2009, Kap. 10,Tab. 9)
I Daten:
y 24 28 25 13 27 14 15 32 14 28
x1 4 6 5 3 5 3 3 6 4 5
x2 31 3 7 29 27 18 28 17 8 12
I Gleichung der Regressionsebene
y = −12.3787 + 6.8289x1 + 0.2406x2 .
I Bestimmheitsmaß: B = 0.9253 .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 45
Beobachtete versus geschatzte Werte im Beispiel 4.3.7
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 46
Residuenplot zum Beispiel 4.3.7
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 47
Streuungszerlegung
Beh. und Def. 4.3.8
I Wie im Fall der einfachen linearen Regression gilt fur denparameterlinearen Ansatz die Quadratsummenzerlegung(Streuungszerlegung) SST = SSE + SSR (bei Schatzung derRegressionskoeffizienten mit der Methode der kleinsten Quadrate).
I Dabei sind wieder
SST =n∑
i=1
(yi − y)2, die Totalvariabilitat (Totalvarianz);
SSE =n∑
i=1
(yi − y)2, die”erklarte“ Variabilitat (erklarte Varianz);
SSR =n∑
i=1
(yi − yi )2, die Restvariabilitat (Restvarianz).
I Das Bestimmtheitsmaß ist B = SSESST = 1− SSR
SST = r2Y |(f1(X),...,fr (X))
(multipler Korrelationskoeffizient).
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 48
Schatzung der Fehlervarianz
Bem. 4.3.9
I Eine konstante Varianz der zufalligen Fehler εi (und damit derZufallsgroßen Y (xi ) kann analog zum Fall der einfachen linearenRegression durch
σ2 = s2Rest =SSR
n − r
geschatzt werden. Der Nenner n− r ist durch die Schatzung von rParametern bedingt.
I Fur die folgenden Aussagen zu Konfidenzschatzungen und Testssetzen wir wieder voraus, dass die zufalligen Fehler εiunabhangige normalverteilte Zufallsgroßen mitErwartungswert 0 und konstanter Varianz σ2 sind.
I Mit mi wird in den nachsten Folien das i−te Diagonalelement derMatrix (fTf)−1 bezeichnet.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 49
Konfidenzschatzungen
Bem. 4.3.10
I Konfidenzintervall zum Niveau 1− α fur die Komponente ai von a :
I =
[ai − tn−r ;1−α/2
√s2Restmi ; ai + tn−r ;1−α/2
√s2Restmi
].
I Konfidenzintervall zum Niveau 1− α fur die Regressionsfunktionf(x)Ta :
I =
[f(x)Ta− tn−r ;1−α/2
√s2Restf(x)T(fTf)−1f(x) ;
f(x)Ta + tn−r ;1−α/2
√s2Restf(x)T(fTf)−1f(x)
].
I Auch Prognoseintervalle konnen konstruiert werden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 50
t−Test fur die einzelnen Parameter
Bem. 4.3.11
I Hypothesen: H0 : ai = a(0)i , HA : ai 6= a
(0)i .
I Testgroße: T =ai − a
(0)i√
s2Restmi
.
Diese Testgroße ist unter H0 t−verteilt mit n− r Freiheitsgraden.
I Kritischer Bereich zum Niveau α :
K = {t ∈ R : |t| > tn−r ;1−α/2 } .
I Analog konnen einseitige Tests durchgefuhrt werden.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 51
F−Test fur das Modell (Varianzanalyse)
Bem. 4.3.12
I Wir setzen voraus, dass f1(x) = 1 gilt, d.h. a1 ist die Konstanteim Modell.
I Hypothesen: H0 : a2 = . . . = ar = 0 , HA : ai 6= 0 fur ein i > 1 .
I Testgroße: T =MSE
MSRmit MSE =
SSE
r − 1, MSR =
SSR
n − r.
Diese Testgroße ist unter H0 F−verteilt mit (r − 1; n − r)Freiheitsgraden.
I Kritischer Bereich zum Niveau α :
K = {t ∈ R : t > Fr−1;n−r ;1−α } .
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 52
t−Test bezuglich der ganzen Regressionsfunktion
Bem. 4.3.13 Bem.
I Hypothesen: H0 : dTa = c , HA : dTa 6= c
mit gegebenem Vektor d und reeller Zahl c .
I Testgroße: T =dTa− c√
s2RestdT(fTf)−1d
.
Diese Testgroße ist unter H0 t−verteilt mit n − r Freiheitsgraden.
I Kritischer Bereich zum Niveau α :
K = {t ∈ R : |t| > tn−r ;1−α/2 } .I Setzt man insbesondere d = f(x) fur einen bestimmten Vektor x
der Regressoren, so kann man damit testen, ob der Wert derRegressionsfunktion f (x) = aTf(x) an der Stelle x signifikant vonc abweicht.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 53
F−Test zur Modelluberprufung
Bem. 4.3.14
I Allgemein gilt, dass bei großen Werten der Restvarianz (derRestquadratsumme) das gewahlte Modell schlecht ist.
I Ist eine gute Anpassung aber moglich, dann interessiert oft dieFrage, ob auch schon ein
”kleineres“ Modell, d.h. ein Modell mit
einer geringeren Anzahl von Ansatzfunktionen adaquat ist. Dieseskann fur ein gewahltes
”großes“ Modell (rg Ansatzfunktionen,
Restquadratsumme SSRg ) und ein gewahltes”kleines“ Modell (rk
Ansatzfunktionen, Restquadratsumme SSRk) mit Hilfe einesF−Tests uberpruft werden.
I Hypothesen: H0 : kleines Modell ist ausreichend ,HA : kleines Modell ist nicht ausreichend .
I Testgroße: T =n − rgrk
SSRk − SSRg
SSRg.
I Kritischer Bereich (Niveau α): K = {t ∈ R : t > Frk ;n−rg ;1−α}.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 54
4.4 Erganzungen
Bem. 4.4.1
I Gehen die zu bestimmenden Parameter nichtlinear in dieModellgleichung der Regressionsfunktion ein, muss dies bei Nutzungder Methode der kleinsten Quadrate entstehendeMinimierungsproblem mit Hilfe anderer, nichtlinearer Methoden,gelost werden.
I In der Chemometrie hat man es ofters mit vielen Merkmalen (undnicht so vielen Beobachtungen) zu tun. In diesen Fallen kann zumBeispiel die Hauptkomponentenregression oder die Methode derpartiellen kleinsten Quadrate (”partial least squares regression”,”PLS regression”) genutzt werden.
I Bei diesen Methoden werden als Regressoren nicht die urprunglichenMerkmale genutzt, sondern wenige, gut geeignete latente Variablen,die wieder linear mit den Beobachtungsvariablen zusammenhangen.
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 55
Beispielanwendung: Datensatz ”gasoline”
Bsp. 4.4.2
I Die Nutzung des R-Paketes ”pls” wird z.B. in Mevik, Wehrens,Introduction to the pls Package, 2016, beschrieben.
I Ein Beispiel ist der Datensatz ”gasoline”, wobei die Oktanzahl durchgeeignete latente Variablen, basierend auf den NIR-Spektrenwerten,beschrieben werden sollen.
I Beispielhaft wird eine PLS-Regression mit 10 Komponentenberechnet.
I Die Werte der Anteile der erklarten Varianzen fur die Gesamtdatendurch die berechneten Komponenten betragen
1 2 3 4 5 6 7 8 9 10
78.2 7.4 7.8 2.7 0.88 0.95 0.49 0.47 0.17 0.17
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 56
RMSEP-Grafik Beispiel 4.4.2
(RMSEP: Root Mean Squared Error of Prediction)
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 57
Beobachtete versus geschatzte Werte im Beispiel 4.4.2
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 58
Ladungen im Beispiel 4.4.2, erste 2 Komponenten
Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 59