versuchsplanung und multivariate statistik file4 lineare und nichtlineare modellierung i in den...

Versuchsplanung und multivariate Statistik

Kapitel 4: Lineare und nichtlineare Modellierung

Prof. Dr. Hans-Jorg Starkloff

TU Bergakademie FreibergInstitut fur Stochastik

Sommersemester 2019

Prof. Dr. Hans-Jorg Starkloff Versuchsplanung & multivariate Statistik 2019 Abschnitt 4 25.6.2019 1

4 Lineare und nichtlineare Modellierung

I In den Naturwissenschaften und ihren Anwendungen mussen oftZusammenhange zwischen verschiedenen Großen untersucht werden.Dies geschieht auf der Basis theoretischer Untersuchungen und/odermit Hilfe von experimentellen Daten.

I Verfahren, um uberhaupt eine Abhangigkeit einer Große von anderenGroßen zu erkennen, werden in der Statistik unter anderem imRahmen der Korrelationsanalyse oder Varianzanalyse entwickelt.

I Mit Hilfe von Verfahren der Regressionsanalyse konnen beivorliegenden Messdaten (bei denen in der Regel Zufallseinflusseunterstellt und beobachtet werden) konkrete funktionaleAbhangigkeiten gefunden und statistisch uberpruft werden.

I In der Chemometrie werden vor allem Fragestellungen derKalibrierung und der Optimierung mit Hilfe von Wirkungsflachen(Response-Surface-Modellen) durch die Regressionsanalysebearbeitet.


Die Methode der kleinsten Quadrate

I Eine grundlegende Methode fur die Regressionsanalyse ist dieMethode der kleinsten Quadrate. Sie kann als heuristische Methodezur beschreibenden Regressionsanalyse genutzt werden, aber auchfur geeignete stochastische Modelle gut begrundet werden.

I Es seien z.B. Punkte (x1, y1), . . . , (xn, yn) gegeben und eine KlasseR von moglichen Regressionsfunktionen, so dass die funktionaleAbhangigkeit der Große y von der Große x voraussichtlich gutdurch eine Funktion aus dieser Klasse beschreibbar ist.

I Die Methode der kleinsten Quadrate besteht dann darin, aus Rdiejenige Funktion y = f (x) als empirische Regressionsfunktion zuden Daten auszuwahlen, fur die die Summe der Quadrate derAbstande zwischen den theoretischen Funktionswerten f (xi ) undden beobachteten Funktionswerten yi (jeweils bei den Argumentenxi , i = 1, . . . , n), d.h. die Summe der Abweichungsquadrate oder

Residual-Quadratsumme d =n∑

i=1

(yi − f (xi ))2 minimal wird.


Weitere Bezeichnungen und Bemerkungen

I Die Abweichungen εi = yi − f (xi ) (bei einer gewahlten Funktiony = f (x) ) nennt man Residuen.

I Ist eine funktionale Abhangigkeit der Große y von der Große xgesucht, nennt man x auch Regressor, exogene Variable oderEinflussgroße. Die Große y wird auch Regressand, endogeneVariable oder Wirkungsgroße genannt.

I Der Name”Regression“ (

”Ruckschritt“) geht auf Galton zuruck.

Ausgangspunkt war damals eine Untersuchung von Pearson uberdie Große der Sohne (Variable y) im Zusammenhang mit der Großeder Vater (Variable x). Galton schrieb damals:

”Each pecularity in a

man is shared by his kinsman but on the average in a less degree.“(vgl. Hartung, Statistik. Lehr- und Handbuch der angewandtenStatistik, Oldenbourg Verlag Munchen, 15. Auflage, 2009, S. 569)


4.1 Lineare Regressionsmodelle

I Bei linearen (auch: parameterlinearen) Regressionsmodellen gehtman von gesuchten funktionalen Abhangigkeiten aus, bei der dieParameter linear in die Funktionsgleichung eingehen, zum Beispielfur eine abhangige Große y und unabhangige Großen x1, . . . , xm

y = θ1x1 + . . .+ θmxm

bzw. bei einer unabhangigen Große x

y = θ0 + θ1x + . . .+ θkxk .

I Fur vorliegende n Messergebnisse (yi , xi1, . . . , xim) bzw. (yi , xi ) ,i = 1, . . . , n , sind geeignete Parameter θ` , ` = 1, . . . ,m , bzw.` = 0, . . . , k , zu bestimmen, die die Messergebnisse moglichst gut(oder bestmoglichst in einem bestimmten Sinne) beschreiben. Manspricht von linearen Regressionsmodellen, da die gesuchtenParameter linear in die Abhangigkeitsbeziehung eingehen.


4.1.1 Einfache lineare Regression

I Gegeben seien Punkte (x1, y1), . . . , (xn, yn) .

I Die Abhangigkeit der y−Werte von den x−Werten soll bei dereinfachen linearen Regression durch eine (affin-)lineare Funktiony = f (x) = a + bx beschrieben werden. Die Grafik der mit derMethode der kleinsten Quadrate geschatzten Regressionsfunktionnennt man Ausgleichsgerade oder Regressionsgerade.

I Zur Bestimmung der geschatzten Regressionsfunktion muss dieResiduen-Quadratsumme d = d(a, b) als Funktion der beidenParameter (Variablen) minimiert werden,

d = d(a, b) =n∑

i=1

(yi − f (xi ))2 =n∑

i=1

(yi − a− bxi )2 .

I Als notwendige Bedingung mussen fur die optimalen Werte (dieSchatzwerte) a und b die ersten partiellen Ableitungen derFunktion d(a, b) nach a und b Null gesetzt werden.


Die Regressionsgerade

I Die Schatzwerte sind mit x = 1n

∑ni=1 xi , y = 1

n

∑ni=1 yi

b =

n∑i=1

(xi − x)(yi − y)

n∑i=1

(xi − x)2=

n∑i=1

xiyi − nx y

n∑i=1

x2i − nx2, a = y − bx

und damit die Gleichung der geschatzten Regressionsgeraden

y = a + bx .

I Dann gelten mit den Schatzwerten yi = a + bxiI die Summe der Residuen ist Null,

∑ni=1(yi − yi ) = 0 ;

I die Summe∑n

i=1 xi (yi − yi ) ist Null;I das arithmetische Mittel y der beobachteten y−Werte ist gleich

dem arithmetischen Mittel der geschatzten y−Werte yi = a + bxi ;I die Regressionsgerade verlauft durch den Schwerpunkt der

Punktwolke mit den Koordinaten (x , y) .


Beispiel: Loslichkeit von NaNO3 (Mendelejew)

Bsp. 4.1.1

I Daten aus Linnik, Methode der kleinsten Quadrate in modernerDarstellung, Berlin, 1961; entnommen aus Mendelejew,Grundlagen der Chemie, 1906 .

I Daten:i Nummer der Messungxi Temperatur in ◦Cyi Loslichkeit von NaNO3 (in g pro 100 ml)

i 1 2 3 4 5 6 7 8 9

xi 0 4 10 15 21 29 36 51 68

yi 66.7 71.0 76.3 80.6 85.7 92.9 99.4 113.6 125.1

I Theoretische Uberlegungen lassen eine gute Beschreibung durch einelineare Abhangigkeit vermuten.

I In Tafelwerken: Loslichkeit bei 20 ◦C : 874 g l−1 .


Regressionsgerade im Beispiel 4.1.1

Regressionsgerade: y = 67.5 + 0.87x .


Residuenplot zum Beispiel 4.1.1


Streuungszerlegung

Es gilt die Streuungszerlegung

SST = SSE + SSR

mit (erste Bezeichnungen entsprechend dem Buch von Otto (2017))

I SScorr = SST =n∑

i=1

(yi − y)2, der Totalvariabilitat (Totalvarianz;

korrigiert um Mittelwert);

I SSfact = SSE =n∑

i=1

(yi − y)2, der”erklarten“ Variabilitat (erklarte

Varianz; Faktoren);

I SSR = SSR =n∑

i=1

(yi − yi )2, der Restvariabilitat (Restvarianz;

Residuen).


Bestimmtheitsmaß

I Das Verhaltnis B =SSE

SST= 1− SSR

SSTheißt Bestimmtheitsmaß.

I Es gelten 0 ≤ B ≤ 1 und B = r2X ,Y mit dem gewohnlichenempirischen Korrelationskoeffizienten rX ,Y .

I Liegt der Wert des Bestimmtheitsmaßes nahe bei 1, deutet dies aufdie gute Approximation der Punktwolke durch die Regressionsgeradehin.

I Im Beispiel 4.1.1 ist das Bestimmtheitsmaß fur die einfache lineareRegression gleich B = 0.998 .


4.2 Weitere Ergebnisse zu linearen Regressionsmodellen

Bem. 4.2.1

I Ist die gesuchte Abhangigkeitsfunktion eine nichtlineare Funktion(eine Gerade ist schlecht an die Daten anpassbar), kann manmitunter durch geeignete Variablentransformationen dieAufgabenstellung in eine der einfachen linearen Regressiontransformieren. Diese ist dann aber eigentlich nicht aquivalent zurursprunglichen Aufgabenstellung.

I Nichtlineare, in lineare transformierbare Funktionen sind z.B.

y = αxβ ⇒ ln y = lnα + β ln x

y = αeβx ⇒ ln y = lnα + βx

y = (α + βx)−1 ⇒ y−1 = α + βx

y = x(α + βx)−1 ⇒ y−1 = αx−1 + β

y = αeβ/x ⇒ ln y = lnα + βx−1

y =(α + βe−x

)−1 ⇒ y−1 = α + βe−x


Matrix-Vektor-Form fur die einfache lineare Regression

Bem. 4.2.2

I Die Modellgleichungen fur die einfache lineare Regression lauten

yi = a + bxi + εi , i = 1, . . . , n .

I In Matrix-Vektor-Form lauten diese Gleichungen

y = xθ + ε

mitI y = (y1, . . . , yn)T (Vektor der abhangigen Variablen) ,

I ε = (ε1, . . . , εn)T (Vektor der Residuen) ,

I θ = (a, b)T (Parametervektor, Vektor der Regressionskoeffizienten) ,

I x =

1 x11 x2...

...1 xn

(Planmatrix, Designmatrix) .


Normalgleichungssystem fur die einfache lineare Regression

Bem. 4.2.3Die Methode der kleinsten Quadrate besteht in der Bestimmung desSchatzvektors θ durch

θ = arg minθ∈R2

(y − xθ)T(y − xθ) = arg minθ∈R2

εTε .

Satz 4.2.4Ein in Bem. 4.2.3 definierter Vektor θ ist Losung des linearenGleichungssystems (des Normalgleichungssystems)

xTx θ = xTy .

Ist die Matrix xTx regular (invertierbar), dann existiert eine eindeutigeLosung

θ =(

xTx)−1

xTy .

Die empirischen Regressionskoeffizienten (die Komponenten von θ ) sindLinearkombinationen der Messwerte y1, . . . , yn .


Beispiel Fe-Bestimmung

Bsp. 4.2.5

I Daten aus: Danzer, Hobert, Fischbacher, Jagemann,Chemometrik Grundlagen und Anwendungen, Springer, 2001,Tabelle 7.2, S. 265.

I Daten: Fe-Bestimmung,die mittels GF-AAS (Graphitrohr-Atomabsorbtionsspektrometrie) beiλ = 334.1 nm uber eine Variation der Einwage durchgefuhrt wurde.xi Masse in ngyi Peakhohe

i 1 2 3 4 5 6 7

xi 0.0162 1.4094 3.0132 5.5080 8.1000 10.3032 11.8422yi 0.0089 0.0265 0.0400 0.0650 0.0835 0.1017 0.1092


Regressionsgerade im Beispiel 4.2.5

Regressionsgerade: y = 0.013567 + 0.008455x .


Residuenplot zum Beispiel 4.2.5 (Regressionsgerade)

Bestimmtheitsmaß: B = 0.9919 .


Regressionsparabel im Beispiel 4.2.5

Regressionsparabel: y = 0.0095075 + 0.0111917x − 0.0002308x2 .


Residuenplot zum Beispiel 4.2.5 (Regressionsparabel)



Gleichungssystem zur Bestimmung der Regressionsparabel

Satz 4.2.6Das lineare Gleichungssystem zur Bestimmung der Regressionsparabel(Ausgleichsparabel) y = a + bx + cx2 lautet

nn∑

i=1xi

n∑i=1

x2in∑

i=1xi

n∑i=1

x2in∑

i=1x3i

n∑i=1

x2in∑

i=1x3i

n∑i=1

x4i

a

bc

=

1 . . . 1x1 . . . xnx21 . . . x2n

y1

...yn

oder xTx θ = xTy mit

x =

1 . . . 1x1 . . . xnx21 . . . x2n

T

, θ = (a , b , c)T

und y = (y1 , . . . , yn)T .


Der Fall symmetrisch liegender Werte xi

Bem. 4.2.7Liegen die Werte xi , i = 1, . . . , n , symmetrisch zu Null (dies kann ggf.durch eine affin lineare Transformation erreicht werden), ergeben sicheinfachere Formeln, da dann

∑ni=1 x

pi = 0 fur ungerade p gilt.

I Im Fall der einfachen linearen Regression erhalt man so

a =

∑ni=1 yin

= y , b =

∑ni=1 xiyi∑ni=1 x

2i

.

I Fur die Regressionsparabel erhalt man in diesem Fall mith1 =

∑ni=1 x

2i , h2 =

∑ni=1 x

4i , h3 = nh1h2 − h31 die Formeln

a =h1h3

(h2

n∑i=1

yi − h1

n∑i=1

x2i yi

), b =

nh2 − h21h3

n∑i=1

xiyi ,

c =h1h3

(n

n∑i=1

x2i yi − h1

n∑i=1

yi

).


Das stochastische Modell (einfache lineare Regression)

Fur weiterfuhrende statistische Aussagen wie Konfidenzintervalle oderTests muss ein stochastisches Modell genutzt werden.

Modell 4.2.8

Yi = a + bxi + εi , i = 1, . . . , n,

wobei die Werte xi deterministische, einstellbare Werte sind und derZufallseinfluss (Messfehler bei der Messung der Große y , nichtberucksichtigte Einflussgroßen, Fehler in der Wahl der Klasse derRegressionsfunktionen –

”zufallige Fehler“) durch unabhangige

normalverteilte Zufallsgroßen εi mit E[εi ] = 0 und Var[εi ] = σ2

(unbekannt, nicht von i abhangig) modelliert werden. Damit werden diebeobachteten Werte als Realisierungen von Zufallsgroßen angesehen,wobei obige Gleichungen das stochastische Beobachtungsmodell (oderMessmodell) definieren. Die Koeffizienten a und b werden alsdeterministische, aber unbekannte Parameter angesehen (im Rahmen derklassischen mathematischen Statistik).


Eigenschaften der Schatzer fur die Parameter a und b

Satz 4.2.9Unter den Voraussetzungen fur Modell 4.2.8 gelten:

I Die Kleinste-Quadrat-Schatzwerte b bzw. a sind Realisierungenerwartungstreuer und konsistenter Schatzfunktionen

B =

n∑i=1

(xi − x)(Yi − Y )

n∑i=1

(xi − x)2=

n∑i=1

xiYi − nx Y

n∑i=1

x2i − nx2, A = Y − Bx

fur die Modellparameter b bzw. a .

I Die Schatzfunktionen fur a bzw. b sind auch die besten linearenunverzerrten Schatzer (d.h. die linearen erwartungstreuen Schatzermit kleinstmoglicher Varianz, ”BLUE”, ”best linear unbiasedestimator”) fur die Modellparameter a bzw. b .


Schatzung der Fehlervarianz

Satz 4.2.10Unter den Voraussetzungen fur Modell 4.2.8 gilt:Die Fehlervarianz Var[εi ] = σ2 kann geschatzt werden durch

σ2 = s2Rest =1

n − 2SSR =

1

n − 2

n∑i=1

(yi − yi )2 .

Der Schatzwert ist die Realisierung der erwartungstreuen Schatzfunktion

σ2 = S2Rest =

1

n − 2SSR =

1

n − 2

n∑i=1

(Yi − Yi )2 .

(Der Nenner n − 2 gewahrleistet die Erwartungstreue, d.h.Unverzerrtheit, des Schatzers und hangt damit zusammen, dass 2Parameter geschatzt werden und nicht als bekannte Werte vorliegen.)


Tests fur die Parameter a und b


I Hypothesen: H0 : a = a0, HA : a 6= a0bzw. H0 : b = b0, HA : b 6= b0 .

I Testwerte: t =a− a0sa

mit s2a =(1n + x2∑n

i=1(xi−x)2

)σ2

bzw. t =b − b0sb

mit s2b = σ2∑ni=1(xi−x)2

.

Die dazugehorigen Testgroßen sind unter H0 t−verteilt mit n − 2Freiheitsgraden.

I Kritischer Bereich zum Niveau α: K = {t ∈ R : |t| > tn−2;1−α/2} .

I Analog konnen einseitige Tests durchgefuhrt werden.

I Unter den angegebenen Bedingungen gelten

Var[A]

=

(1

n+

x2∑ni=1(xi − x)2

)σ2, Var

[B]

=σ2∑n

i=1(xi − x)2.


Konfidenzintervalle fur die Parameter


I Ein Konfidenzintervall fur a zum Niveau 1− α ist

[a− satn−2;1−α/2; a + satn−2;1−α/2] .

I Ein Konfidenzintervall fur b zum Niveau 1− α ist

[b − sbtn−2;1−α/2; b + sbtn−2;1−α/2] .

I Ein Konfidenzintervall fur die Fehlervarianz σ2 zum Niveau 1−α ist[(n − 2)σ2/χ2

n−2;1−α/2; (n − 2)σ2/χ2n−2;α/2

].

I Simultane Konfidenzintervalle zum Niveau 1− α sind die folgenden.Das erste Intervall uberdeckt a, das zweite b, wobei insgesamt dasNiveau 1− α eingehalten wird:[

a−√

2s2aF2;n−2;1−α; a +√

2s2aF2;n−2;1−α

],[

b −√

2s2bF2;n−2;1−α; b +√

2s2bF2;n−2;1−α

].


Konfidenzintervalle fur die Regressionsgerade

I Haufig mochte man jedoch Konfidenzintervalle fur den Wert derRegressionsgerade an einer Stelle x (oder fur ein Intervall vonx−Werten) bestimmen, d.h. fur E[Y (x)] = a + bx .

I Satz 4.2.13Ein solches Konfidenzintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch

[y(x)− d ; y(x) + d ] mit y(x) = a + bx und

d = sRest · tn−2,1−α/2

√1

n+

(x − x)2∑ni=1(xi − x)2

.

I Fur unterschiedliche Werte x erhalt man unterschiedliche Abstandezwischen der oberen und unteren Grenze. Fur alle x−Wertebetrachtet ergibt sich ein Konfidenzstreifen (Konfidenzschlauch), deran der Stelle x = x am schmalsten ist.


Prognoseintervalle fur Y (x)

I Berechnet man ein zufalliges Intervall, welches mit einervorgegebenen Wahrscheinlichkeit 1− α eine Realisierung vonY (x) = a + bx + ε(x) uberdeckt, erhalt man ein sogenanntesPrognoseintervall fur Y (x) zum Niveau 1− α .

I Satz 4.2.14Ein solches Prognoseintervall zum Niveau 1− α kann unter denVoraussetzungen fur Modell 4.2.8 berechnet werden durch

[y(x)− d ; y(x) + d ] mit y(x) = a + bx und

d = sRest · tn−2,1−α/2

√1 +

1

n+

(x − x)2∑ni=1(xi − x)2

.

I Bei Betrachtung beliebiger x−Werte erhalt man wieder einenStreifen um die Regressionsgerade, den Prognosestreifen. Er istbreiter als der zugehorige Konfidenzstreifen zum selben Niveau.


Konfidenzstreifen fur Loslichkeitsdaten von NaNO3

Bsp. 4.2.15 Regressionsgerade (blau), Konfidenzstreifen (rot),Prognosestreifen (grun), Mittelwertlinie (grau) fur Daten aus Bsp. 4.1.1(Konfidenzniveau 0.95)


Einfache lineare Regression durch den Koordinatenursprung

Bem. 4.2.16

I Bei bestimmten Problemstellungen ist es sinnvoll zu fordern, dassdie Regressionsgerade durch den Koordinatenursprung geht. Manspricht dann auch von einer Regression ohne Absolutglied oder einereigentlich-linearen Regression.

I Man erhalt nun als Modellansatz

Yi = b xi + εi , i = 1, . . . , n ;

als Schatzung fur den Parameter b

b =

∑ni=1 xiyi∑ni=1 x

2i

und als Schatzung fur die Varianz der zufalligen Fehler

σ2 =1

n − 1

n∑i=1

(yi − yi )2 mit yi = b xi .


Regressionsgerade durch den Nullpunkt im Beispiel 4.2.5

Regressionsgerade: y = 0.009998x .


Residuenplot zum Beispiel 4.2.5 lin. Regression durch 0



Residualanalyse zur Uberprufung des Modells

Bem. 4.2.17

I Durch eine Analyse der Residuen ist eine Uberprufung derModellannahmen moglich, z.B. bei der linearen Einfachregression.

I Zu den Modellannahmen gehoren sowohl die Wahl der Klasse derRegressionsfunktionen als auch die Annahmen an die zufalligenFehler: der Typ der Verteilung (oft Normalverteilung) und derenParameter (Erwartungswerte gleich Null und konstante Varianzen –Homoskedastizitat) und Unabhangigkeit.

I Ist der Modellansatz, z.B. die Annahme einer Normalverteilung furdie zufalligen Fehler εi , i = 1, . . . , n , richtig, dann sind die Residuenεi = Yi − yi approximativ unabhangig und identisch normalverteilt.

I Die Uberprufung der Modellannahmen mit Hilfe der Residuen kanndurch statistische Tests erfolgen (z.B. Verteilungstests). Hinweisekann auch eine grafische Analyse liefern.


Grafische Analyse der Residuen - Heteroskedastizitat

Bem. 4.2.18Bei bestimmten typischen Mustern in den Grafiken kann man dann unterUmstanden auf spezielle Modellfehler schliessen.

⇒ Vermutung, dass Fehlerzufallsgroßen unterschiedliche Varianzenbesitzen (Heteroskedastizitat).


Grafische Analyse der Residuen

⇒ Vermutung: Fehlspezifikationder Regressionsfunktion, z.B. qua-dratische Regression oder Struk-turbruch.

⇒ Vermutung: richtige Spezi-fikation des Regressionsmodellsund Homoskedastizitatsannahmeerfullt.


Verschiedene Residuendarstellungen

Bem. 4.2.19Die grafische Darstellung der Residuen kann z.B. bezuglich derFallnummern, der xi−Werte oder der geschatzten Werte yi erfolgen.


4.3 Multiple parameterlineare Regression

Bem. 4.3.1

I Im Folgenden soll die Abhangigkeit eines Regressanden (einerWirkungsgroße oder einer endogenenen Variablen) Y von mehrerenRegressoren (Einflussgroßen oder exogenen Variablen) X1, . . . ,Xm

beschrieben werden, d.h. es soll gelten

Y ≈ f (X1, . . . ,Xm)

mit einer geeigneten Funktion f : Rm → R .

I Wir werden wieder annehmen, dass die Regressoren deterministischsind (z.B. mit exakt einstellbaren Werten) und dies durch kleineBuchstaben x1, . . . , xm in den Gleichungen kennzeichnen.

I Man erhalt dann als Modellgleichung

Y (x1, . . . , xm) = f (x1, . . . , xm) + ε

mit einem zufalligen Fehler ε = ε(x1, . . . , xm) .


Beispiele fur parameterlineare Ansatze

Bsp. 4.3.2

I Haufig werden bei solchen Aufgabenstellungen parameterlineareAnsatze verwendet, d.h. man setzt eine Beziehung

Y (x1, . . . , xm) = a1f1(x1, . . . , xm) + . . .+ ar fr (x1, . . . , xm) + ε

mit speziell gewahlten, bekannten Funktionen f1, . . . , fr und zubestimmenden Koeffizienten (Parametern) a1, . . . , ar voraus.

I Im eigentlich nichtmultiplen Fall m = 1 (nur eine Einflussgroße)gilt bei der polynomiellen Regression vom Grade k

Y (x) = a0 + a1x + . . .+ akxk + ε .

I Der m−faktorielle Ansatz ohne Wechselwirkungen

Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm + ε

definiert die Ausgleichsebene (ebene Regression).

I Bem.: Eine Gleichung y = a0 + a1x1 + . . .+ amxm definiert eine(Hyper-)Ebene im (m + 1)−dimensionalen Raum.


Fortsetzung Beispiele fur parameterlineare Ansatze

I Als Beispiel eines m−faktoriellen Ansatzes mit Wechselwirkungenwerde hier noch der Fall einer multiplen quadratischen Regressionvorgestellt:

Y (x1, . . . , xm) = a0 + a1x1 + . . .+ amxm

+ a12 x1x2 + . . .+ am−1,m xm−1xm

+ a11 x21 + . . .+ amm x2m

+ ε .

I Auch hohere Polynomgrade oder andere Funktionen der Variablenx1, . . . , xm sind moglich und werden auch verwendet.


Regressionsansatz in Vektorschreibweise

Bem. 4.3.3

I Analog zu fruheren Ausfuhrungen ist es vorteilhaft, dieVektorschreibweise zu nutzen. Es seien

x = (x1, . . . , xm)T =

x1...xm

, a = (a1, . . . , ar )T =

a1...ar

,

f(x) = (f1(x), . . . , fr (x))T =

f1(x)...

fr (x)

.

I Der parameterlineare Ansatz kann dann geschrieben werden als

Y (x) = aTf(x) + ε(x) . (1)


Die Methode der kleinsten Quadrate

Bem. 4.3.4I Sind die (zufallsbeeinflussten)

”Wirkungen“ yi fur i = 1, . . . , n an

den”Einflussstellen“ xi = (xi1, . . . , xim)T durch Messungen

bestimmt worden, kann man mit Hilfe der Methode der kleinstenQuadrate eine geeignete Schatzung a des Vektors a derRegressionskoeffizienten im parameterlinearen Ansatz (1) finden.

I Die Schatzung a ist ein Vektor von Regressionskoeffizienten a , fur

denn∑

i=1

(yi − aTf(xi )

)2minimal wird.

I Die geschatzte Regressionsfunktion ist dann

y(x) = a1f1(x) + . . .+ ar fr (x) = aTf(x) = f(x)Ta .I Im Weiteren genutzte Bezeichnungen sind y = (y1, . . . , yn)T und

f = (f(x1), . . . , f(xn))T =

f1(x1) . . . fr (x1)...

. . ....

f1(xn) . . . fr (xn)

.


Das Normalgleichungssystem

Satz 4.3.5

I Die Schatzung a des Vektors a der Regressionskoeffizienten kanndann mit Hilfe des Normalgleichungssystems gefunden werden:

fTf a = fTy . (2)

Dies ist ein lineares Gleichungssystem zur Bestimmung derKomponenten von a .

I Ist die Matrix fTf regular, dann ist (2) eindeutig auflosbar und esgilt

a =(

fTf)−1

fTy . (3)


Eigenschaften der Schatzung

Satz 4.3.6Unter der Annahme, dass die beobachteten Werte yi Realisierungen derZufallsgroßen

Yi = a1f1(xi ) + . . .+ ar fr (xi ) + εi

sind, wobei die zufalligen Fehler εi unabhangige normalverteilteZufallsgroßen mit Erwartungswert 0 und konstanter Varianz σ2

sind, ist die Schatzung a aus (3) erwartungstreu und konsistent.


Beispiel

Bsp. 4.3.7Bearbeitungszeit y , Durchmesser x1 und Lange x2 von Werkstucken(Quelle: Hartung, Elpelt, Klosener, Statistik – Lehr- undHandbuch der angewandten Statistik, Oldenbourg Verlag, 2009, Kap. 10,Tab. 9)

I Daten:

y 24 28 25 13 27 14 15 32 14 28

x1 4 6 5 3 5 3 3 6 4 5

x2 31 3 7 29 27 18 28 17 8 12

I Gleichung der Regressionsebene

y = −12.3787 + 6.8289x1 + 0.2406x2 .

I Bestimmheitsmaß: B = 0.9253 .


Beobachtete versus geschatzte Werte im Beispiel 4.3.7


Residuenplot zum Beispiel 4.3.7


Streuungszerlegung

Beh. und Def. 4.3.8

I Wie im Fall der einfachen linearen Regression gilt fur denparameterlinearen Ansatz die Quadratsummenzerlegung(Streuungszerlegung) SST = SSE + SSR (bei Schatzung derRegressionskoeffizienten mit der Methode der kleinsten Quadrate).

I Dabei sind wieder

SST =n∑

i=1

(yi − y)2, die Totalvariabilitat (Totalvarianz);

SSE =n∑

i=1

(yi − y)2, die”erklarte“ Variabilitat (erklarte Varianz);

SSR =n∑

i=1

(yi − yi )2, die Restvariabilitat (Restvarianz).

I Das Bestimmtheitsmaß ist B = SSESST = 1− SSR

SST = r2Y |(f1(X),...,fr (X))

(multipler Korrelationskoeffizient).


Schatzung der Fehlervarianz

Bem. 4.3.9

I Eine konstante Varianz der zufalligen Fehler εi (und damit derZufallsgroßen Y (xi ) kann analog zum Fall der einfachen linearenRegression durch

σ2 = s2Rest =SSR

n − r

geschatzt werden. Der Nenner n− r ist durch die Schatzung von rParametern bedingt.

I Fur die folgenden Aussagen zu Konfidenzschatzungen und Testssetzen wir wieder voraus, dass die zufalligen Fehler εiunabhangige normalverteilte Zufallsgroßen mitErwartungswert 0 und konstanter Varianz σ2 sind.

I Mit mi wird in den nachsten Folien das i−te Diagonalelement derMatrix (fTf)−1 bezeichnet.


Konfidenzschatzungen

Bem. 4.3.10

I Konfidenzintervall zum Niveau 1− α fur die Komponente ai von a :

I =

[ai − tn−r ;1−α/2

√s2Restmi ; ai + tn−r ;1−α/2

√s2Restmi

].

I Konfidenzintervall zum Niveau 1− α fur die Regressionsfunktionf(x)Ta :

I =

[f(x)Ta− tn−r ;1−α/2

√s2Restf(x)T(fTf)−1f(x) ;

f(x)Ta + tn−r ;1−α/2

√s2Restf(x)T(fTf)−1f(x)

].

I Auch Prognoseintervalle konnen konstruiert werden.


t−Test fur die einzelnen Parameter

Bem. 4.3.11

I Hypothesen: H0 : ai = a(0)i , HA : ai 6= a

(0)i .

I Testgroße: T =ai − a

(0)i√

s2Restmi

.

Diese Testgroße ist unter H0 t−verteilt mit n− r Freiheitsgraden.

I Kritischer Bereich zum Niveau α :

K = {t ∈ R : |t| > tn−r ;1−α/2 } .

I Analog konnen einseitige Tests durchgefuhrt werden.


F−Test fur das Modell (Varianzanalyse)

Bem. 4.3.12

I Wir setzen voraus, dass f1(x) = 1 gilt, d.h. a1 ist die Konstanteim Modell.

I Hypothesen: H0 : a2 = . . . = ar = 0 , HA : ai 6= 0 fur ein i > 1 .

I Testgroße: T =MSE

MSRmit MSE =

SSE

r − 1, MSR =

SSR

n − r.

Diese Testgroße ist unter H0 F−verteilt mit (r − 1; n − r)Freiheitsgraden.


K = {t ∈ R : t > Fr−1;n−r ;1−α } .


t−Test bezuglich der ganzen Regressionsfunktion

Bem. 4.3.13 Bem.

I Hypothesen: H0 : dTa = c , HA : dTa 6= c

mit gegebenem Vektor d und reeller Zahl c .

I Testgroße: T =dTa− c√

s2RestdT(fTf)−1d

.

Diese Testgroße ist unter H0 t−verteilt mit n − r Freiheitsgraden.


K = {t ∈ R : |t| > tn−r ;1−α/2 } .I Setzt man insbesondere d = f(x) fur einen bestimmten Vektor x

der Regressoren, so kann man damit testen, ob der Wert derRegressionsfunktion f (x) = aTf(x) an der Stelle x signifikant vonc abweicht.


F−Test zur Modelluberprufung

Bem. 4.3.14

I Allgemein gilt, dass bei großen Werten der Restvarianz (derRestquadratsumme) das gewahlte Modell schlecht ist.

I Ist eine gute Anpassung aber moglich, dann interessiert oft dieFrage, ob auch schon ein

”kleineres“ Modell, d.h. ein Modell mit

einer geringeren Anzahl von Ansatzfunktionen adaquat ist. Dieseskann fur ein gewahltes

”großes“ Modell (rg Ansatzfunktionen,

Restquadratsumme SSRg ) und ein gewahltes”kleines“ Modell (rk

Ansatzfunktionen, Restquadratsumme SSRk) mit Hilfe einesF−Tests uberpruft werden.

I Hypothesen: H0 : kleines Modell ist ausreichend ,HA : kleines Modell ist nicht ausreichend .

I Testgroße: T =n − rgrk

SSRk − SSRg

SSRg.

I Kritischer Bereich (Niveau α): K = {t ∈ R : t > Frk ;n−rg ;1−α}.


4.4 Erganzungen

Bem. 4.4.1

I Gehen die zu bestimmenden Parameter nichtlinear in dieModellgleichung der Regressionsfunktion ein, muss dies bei Nutzungder Methode der kleinsten Quadrate entstehendeMinimierungsproblem mit Hilfe anderer, nichtlinearer Methoden,gelost werden.

I In der Chemometrie hat man es ofters mit vielen Merkmalen (undnicht so vielen Beobachtungen) zu tun. In diesen Fallen kann zumBeispiel die Hauptkomponentenregression oder die Methode derpartiellen kleinsten Quadrate (”partial least squares regression”,”PLS regression”) genutzt werden.

I Bei diesen Methoden werden als Regressoren nicht die urprunglichenMerkmale genutzt, sondern wenige, gut geeignete latente Variablen,die wieder linear mit den Beobachtungsvariablen zusammenhangen.


Beispielanwendung: Datensatz ”gasoline”

Bsp. 4.4.2

I Die Nutzung des R-Paketes ”pls” wird z.B. in Mevik, Wehrens,Introduction to the pls Package, 2016, beschrieben.

I Ein Beispiel ist der Datensatz ”gasoline”, wobei die Oktanzahl durchgeeignete latente Variablen, basierend auf den NIR-Spektrenwerten,beschrieben werden sollen.

I Beispielhaft wird eine PLS-Regression mit 10 Komponentenberechnet.

I Die Werte der Anteile der erklarten Varianzen fur die Gesamtdatendurch die berechneten Komponenten betragen

1 2 3 4 5 6 7 8 9 10

78.2 7.4 7.8 2.7 0.88 0.95 0.49 0.47 0.17 0.17


RMSEP-Grafik Beispiel 4.4.2

(RMSEP: Root Mean Squared Error of Prediction)


Beobachtete versus geschatzte Werte im Beispiel 4.4.2


Ladungen im Beispiel 4.4.2, erste 2 Komponenten


versuchsplanung und multivariate statistik file4 lineare und nichtlineare modellierung i in den...

Documents