lineare modelle in der statistik - uni bremen ||...

172
Material zur Veranstaltung Lineare Modelle in der Statistik von Gerhard Osius ....... .At o Juni 2011 Fachbereich Mathematik/Informatik Universität Bremen Material zur Veranstaltung Lineare Modelle in der Statistik von Gerhard Osius ....... .At o Juni 2011 Fachbereich Mathematik/Informatik Universität Bremen

Upload: lamnga

Post on 11-Aug-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Material zur Veranstaltung

Lineare Modelle in der Statistik

von

Gerhard Osius

.ß~/to·:· ....... .At o

Juni 2011 Fachbereich Mathematik/Informatik

Universität Bremen

Material zur Veranstaltung

Lineare Modelle in der Statistik

von

Gerhard Osius

.ß~/to·:· ....... .At o

Juni 2011 Fachbereich Mathematik/Informatik

Universität Bremen

Page 2: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Vorwort 1.6.11 V-I

Vorwort

Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Au­flage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelas­sen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übun­gen ausführlicher behandelten Analysen ausgewählter Datensätze.

Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und we­niger in Untersuchungen ihrer Optimalitätseigenschaften.

Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Be­weis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise pa­rallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückver­weisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit hal­ber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.

Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das Gauss­Markov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Ei­genschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Be­obachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassi­schen lineareren Modell werden dann der t-Test (für Linearkombinationen des Pa­rametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.

Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Vari­anz- und Covarianz-Analyse) behandelt.

Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markov­auf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalen­faktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das Aitken­Modell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Me­thoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-

Vorwort 1.6.11 V-I

Vorwort

Dieses Manuskript ist aus Materialien zu statistischen Lehrveranstaltungen über Generalisierte Lineare Modelle im Laufe der letzten Jahre entstanden und hier liegt der Teil I über Lineare Modelle in einer neuen (veränderten und erweiterten) Au­flage vor, in der er auch im Sommersemester 2005 einer Vorlesung zu Grunde lag (wobei dort aus Zeitgründen einige Abschnitte teilweise oder vollständig ausgelas­sen wurden). Der Text ist in erster Linie als Begleit- und Referenz-Material für die Kursteilnehmer gedacht und nicht primär als Einführung in diese Materie im Selbststudium angelegt. Insbesondere fehlen hier (noch) die im Kurs und den Übun­gen ausführlicher behandelten Analysen ausgewählter Datensätze.

Der Kurs ))Lineare Modelle in der Statistik!! ist für fortgeschrittene Studierende der Mathematik mit Grundkenntnissen in Wahrscheinlichkeitsrechnung und Statistik vorgesehen. Ziel des Kurses ist es, eine mathematisch fundierte Einführung in die Theorie der Linearen Modelle zu geben, wobei die anwendungsrelevanten Methoden stärker betont werden. Der Schwerpunkt lag hierbei mehr in der Herleitung der Schätz- und Testverfahren - und ihrer "geometrischen" Interpretationen - und we­niger in Untersuchungen ihrer Optimalitätseigenschaften.

Die Beweise zu den Resultaten des vorliegenden Textes sind in einem separaten Be­weis-Band zusammengestellt. Das (historisch bedingte) Abtrennen der Beweise vom eigentlichen Text erscheint mir sinnvoll, weil dadurch einerseits die Ausführungen nicht durch Beweise unterbrochen werden, und man andererseits die Beweise pa­rallel zum Text nachvollziehen kann (was besonders bei den zahlreichen Rückver­weisen praktisch ist). Diverse verwendete speziellere Resultate (vorwiegend aus der Wahrscheinlichkeitstheorie und der Linearen Algebra) sind der Vollständigkeit hal­ber in einem ebenfalls separat erhältlichen Exkurs-Band zusammengestellt.

Der Stoff über Lineare Modelle ist wie folgt gegliedert. Nach einer Einführung in die Modellierung und Verteilungs modelle im Kapitell wird im Kapitel 2 das Gauss­Markov-Modell mit konstanten Varianzen behandelt. Als Schätzverfahren wird die geometrisch motivierte Methode der minimalen Quadrate verwendet und deren Ei­genschften hergeleitet, die im Klassischen Linearen Modell (mit normalverteilten Be­obachtungen) mit der Maximum-Likelihood-Schätzung übereinstimmt. Im klassi­schen lineareren Modell werden dann der t-Test (für Linearkombinationen des Pa­rametervektors) und der F-Test (für lineare Hypothesen) behandelt, wobei auch auf die für die Praxis wichtige Testschärfe näher eingegangen wird.

Im Kapitel 3 werden einige grundsätzliche Methoden zur Modellbildung besprochen und einige elementare Modelle (Regressionsanalyse einer Variablen, einfache Vari­anz- und Covarianz-Analyse) behandelt.

Das Kapitel 4 enthält die Verallgemeinerungen des 2. Kapitels vom Gauß-Markov­auf das Aitken-Modell, d.h. mit beliebiger und - bis auf einen unbekannten Skalen­faktor - bekannter Covarianzstruktur der Beobachtungen. Obwohl sich das Aitken­Modell vollständig auf das Gauß-Markov-Modell zurückführen läßt, werden die Me­thoden und Resultate trotzdem ausführlich formuliert und dabei auch auf den (in der Praxis nie auszuschließenden) Fall erweitert, daß das der Analyse zugrunde ge-

Page 3: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Vorwort 1.6.11 V-2

legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Kon­fidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.

Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zu­nächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorge­stellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchver­fahren angegeben.

Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Be­obachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebi­gen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.

In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfeh­ler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei­

tert.

Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurver­zeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charak­ter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, des­sen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.

Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.

Bremen, im Juni 2011 Gerhard Osius

Vorwort 1.6.11 V-2

legte Modell nicht korrekt sapezifiziert ist. Weiter werden mehrdimensionale Kon­fidenzbereiche und simultane (eindimensionale) Konfidenzintervalle konstruiert.

Im Kapitel 5 werden weitere Analysen für das Gauß-Markov-Modell vorgestellt. Zu­nächst werden die Auswirkungen einer Fehlspezijikation des Modelle untersucht und für einfache Modellklassen (Regression einer Variabeln und Varianzanalyse) wird gezeigt, daß sich die Fehlspezifikation unter gewissen Bedingungen durch eine Randomisierung bei der Datenerhebung vermeiden läßt. Für die Modellüberprüfung wird ein Anpassungsstest angegeben und die Analyse der Residuen kurz vorge­stellt. Zur Modellsuche werden sequentielle Testprozeduren und Modell-Suchver­fahren angegeben.

Das Kapitel 6 ist asymptotische Resultaten im Gauß-Markov-Modell gewidmet. Hier wird für eine geeignete Asymptotik gezeigt, daß die für normalverteilte Be­obachtungen entwickelten t-Tests, F-Tests und Konfidenzbereiche auch bei beliebi­gen Verteilung (der Fehlervariablen) das vorgegebene Niveau asymptotisch einhalten.

In der vorliegende Fassung ist gegenüber der Auflage vom Juli 2010 neben Druckfeh­ler-Korrekturen nur das Kapitel 6 (bis inklusive 6.2) leicht umformuliert und erwei­

tert.

Bei der Zusammenstellung dieses Skripts habe ich auf zahlreiche (im Literaurver­zeichnis zusammengestellte) Quellen zurückgegriffen, die allerdings - dem Charak­ter eines Skriptes entsprechend - nur gelegentlich im Text explizit erwähnt sind. Hervorzuheben sind dabei zwei Monographien, die hier einen besonders starken Einfluß ausgeübt haben. In erster Linie ist hier Haberman (1974) zu erwähnen, des­sen Ideen an vielen Stellen - insbesondere bei den Darstellungen via Projektionen bzgl. eines anderen Skalarproduktes - eingeflossen sind. Weiter hat das Buch von Seber (1977) die Ausführungen unterschiedlich stark beeinflußt.

Mein besonderer Dank gilt Frau Heidi Eckl für die Erstellung der Rohfassungen der Texte.

Bremen, im Juni 2011 Gerhard Osius

Page 4: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Inhaltsverzeichnis 8.7.10 1

Inhalt (Seiten pro Kapitel)Kapitel - Seite

Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im

Kurs ganz oder teilweise ausgelassen.

o Einführung (1)1 Modellierung und Verteilungsmodelle (9)

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 11.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 31.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6

2 Das Gauß-Markov-Modell (40)2.1. Minimale-Quadrate-Schätzung 2 - 3

2.1.1 Lineare Regression mit einer Variablen 2 - 52.1.2 Polynomregression mit einer Variablen 2 - 6

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 72.3 Residuen und Schätzung der Varianz 2 - 92.4 Das klassische lineare Modell 2 - 132.5 Tests für Linearkombinationen des Parameters 2 - 16

2.5.1 Testen einzelner Komponenten des Parameters 2 - 162.5.2 Testen von Linearkombinationen des Parameters 2 - 192.5.3 Schärfe der Tests 2 - 212.5.4 Lineare Regression mit einer Variablen 2 - 26

2.6 Testen von linearen Hypothesen 2 - 282.6.1 Herleitung des F-Tests 2 - 282.6.2 Schärfe des F-Tests 2 - 35

2.7* Schätzung von Nichtzentralität und Testschärfe 2 - 362.7.1 Schätzungen für den t-Test 2 - 362.7.2 Schätzungen für den F-Test 2 - 38

3 Elementare Modelle und Analysen (30)3.1 quantitative Covariablen und Faktoren 3 - 13.2 Modelle für eine beobachtete Covariable 3 - 3

3.2.1 Das konstante Modell 3 - 33.2.2 Modelle für eine quantitative Variable 3 - 43.2.3 Das vollständige Modell für einen Faktor 3 - 63.2.4 Schätzungen im vollständigen Modell für einen Faktor 3 - 93.2.5 Einfache Varianzanalyse 3 - 133.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse 3 - 16

3.3 Modelle für zwei beobachtete Covariablen 3 - 183.3.1 Einfache Covarianz-Analyse 3 - 183.3.2 Modelle für zwei quantitative Variablen 3 - 243.3.3 Modelle für zwei Faktoren 3 - 28

Inhaltsverzeichnis 8.7.10 1

Inhalt (Seiten pro Kapitel) Kapitel - Seite

Die mit * markierten Abschnitte werden im Folgenden nicht benötigt und werden deshalb im

Kurs ganz oder teilweise ausgelassen.

o Einführung (1) 1 Modellierung und Verteilungsmodelle (9)

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung 1 - 1 1.2 Varianz und Verteilung einer Einzelbeobachtung 1 - 3 1.3 Das Lineare Modell für mehrere Beobachtungen 1 - 6

2 Das Gauß-Markov-Modell (40) 2.1. Minimale-Quadrate-Schätzung 2 - 3

2.1.1 Lineare Regression mit einer Variablen 2 - 5 2.1.2 Polynomregression mit einer Variablen 2 - 6

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 2 - 7 2.3 Residuen und Schätzung der Varianz 2 - 9 2.4 Das klassische lineare Modell 2 - 13 2.5 Tests für Linearkombinationen des Parameters

2.5.1 Testen einzelner Komponenten des Parameters 2.5.2 Testen von Linearkombinationen des Parameters 2.5.3 Schärfe der Tests 2.5.4 Lineare Regression mit einer Variablen

2.6 Testen von linearen Hypothesen 2.6.1 Herleitung des F-Tests 2.6.2 Schärfe des F-Tests

2.7* Schätzung von Nichtzentralität und Testschärfe 2.7.1 Schätzungen für den t-Test 2.7.2 Schätzungen für den F-Test

3 Elementare Modelle und Analysen 3.1 quantitative Covariablen und Faktoren 3.2 Modelle für eine beobachtete Covariable

3.2.1 Das konstante Modell 3.2.2 Modelle für eine quantitative Variable 3.2.3 Das vollständige Modell für einen Faktor 3.2.4 Schätzungen im vollständigen Modell für einen Faktor 3.2.5 Einfache Varianzanalyse 3.2.6 Schärfe des F-Tests bei der balancierten Varianzanalyse

3.3 Modelle für zwei beobachtete Covariablen 3.3.1 Einfache Covarianz-Analyse 3.3.2 Modelle für zwei quantitative Variablen 3.3.3 Modelle für zwei Faktoren

2 - 16 2 - 16 2 - 19 2 - 21 2 - 26 2 - 28 2 - 28 2 - 35 2 - 36 2 - 36 2 - 38

(30) 3 - 1 3-3 3-3 3-4 3-6 3-9

3 - 13 3 - 16 3 - 18 3 - 18 3 - 24

3 - 28

Page 5: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Inhaltsverzeichnis 8.7.10 2

4 Das lineare Aitken-Modell (33)4.1 Das gewichtete Gauß-Markov-Modell 4-24.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3

4.2.1 Gewichtetes Gauß-Markov-Modell 4-44.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5

4.3.1 Gewichtetes Gauß-Markov-Modell 4-84.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-94.5 Tests für Linearkombinationen des Erwartungswerts

bei normalverteilten Beobachtungen 4 - 124.5.1 Formulierung der Hypothesen 4 - 124.5.2 Der ein- und zweiseitige t-Test 4 - 134.5.3 Die Schärfe des einseitigen t-Tests 4 - 154.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 164.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 174.5.6 Linearkombinationen des Parameters 4 - 18

4.6 Testen von linearen Hypothesen bei normalverteiltenBeobachtungen 4 - 194.6.1 Lineare Hypothesen über den Erwartungswert 4 - 194.6.2 Lineare Hypothesen über den Parameter 4 - 224.6.3 Schärfebetrachtungen beim F-Test 4 - 24

4.7 Konstruktion von Konfidenzbereichen 4 - 264.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 264.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 284.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30

5. Weitere Analysen im Gauss-Markov-Modell (33)5.1 Fehlspezifikation des Modells 5 - 2

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-65.1.2 Einfache Varianzanalyse mit Randomisierung 5-75.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 105.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11

5.2 Anpassungstests für lineare Modelle 5 - 145.3 Residuenanalyse 5 - 195.4 Modellsuche 5 - 23

5.4.1 Sequentielle Testprozeduren 5 - 235.4.2 Modell-Suchverfahren 5 - 285.4.3 Das Vorwärts-Suchverfahren 5 - 305.4.4 Das Rückwärts-Suchverfahren 5 - 315.4.5 Modifizierte Suchverfahren 5 - 32

Inhaltsverzeichnis 8.7.10 2

4 Das lineare Aitken-Modell (33) 4.1 Das gewichtete Gauß-Markov-Modell 4-2 4.2 Transformation des Aitken-Modells in ein Gauss-Markov-Modell 4-3

4.2.1 Gewichtetes Gauß-Markov-Modell 4-4 4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 4-5

4.3.1 Gewichtetes Gauß-Markov-Modell 4-8 4.4 Das Aitken-Modell mit normalverteilten Beobachtungen 4-9 4.5 Tests für Linearkombinationen des Erwartungswerts

bei normalverteilten Beobachtungen 4 - 12 4.5.1 Formulierung der Hypothesen 4 - 12 4.5.2 Der ein- und zweiseitige t-Test 4 - 13 4.5.3 Die Schärfe des einseitigen t-Tests 4 - 15 4.5.4 Die Schärfe des zweiseitigen t-Tests 4 - 16 4.5.5 Konfidenzgrenzen für Linearkombinationen 4 - 17 4.5.6 Linearkombinationen des Parameters 4 - 18

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen 4 - 19 4.6.1 Lineare Hypothesen über den Erwartungswert 4 - 19 4.6.2 Lineare Hypothesen über den Parameter 4 - 22 4.6.3 Schärfebetrachtungen beim F-Test 4 - 24

4.7 Konstruktion von Konfidenzbereichen 4 - 26 4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor 4 - 26 4.7.2 Simultane Konfidenzintervalle nach Bonferroni 4 - 28 4.7.3 Simultane Konfidenzintervalle nach Scheffe 4 - 30

5. Weitere Analysen im Gauss-Markov-Modell (33) 5.1 Fehlspezifikation des Modells 5 - 2

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse 5-6 5.1.2 Einfache Varianzanalyse mit Randomisierung 5-7 5.1.3 Fehlspezifikation bei linearer Regression einer Variablen 5 - 10 5.1.4 Lineare Regression einer Variablen mit Randomisierung 5 - 11

5.2 Anpassungstests für lineare Modelle 5 - 14 5.3 Residuenanalyse 5 - 19 5.4 Modellsuche 5 - 23

5.4.1 Sequentielle Testprozeduren 5 - 23 5.4.2 Modell-Suchverfahren 5 - 28 5.4.3 Das Vorwärts-Suchverfahren 5 - 30 5.4.4 Das Rückwärts-Suchverfahren 5 - 31 5.4.5 Modifizierte Suchverfahren 5 - 32

Page 6: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Inhaltsverzeichnis 8.7.10 3

6. Asymptotische Resultate im Gauß-Markov-Modell6.1 Grundlagen der Asymptotik6.2 Asymptotische Verteilung der Schätzer6.3 Asymptotische Test für Linearkombinationen

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests6.3.2 Asymptotische Eigenschaften des t-Tests6.3.3 Schärfeapproximation für den asymptotischen t-Test6.3.4 Asymptotische Konfidenzbereiche

6.4 Asymptotische Test für lineare Hypothesen

LiteraturIndex

(16)6-26-8

6 - 106 - 106 - 116 - 136 - 146 - 15

(1)(3)

Inhaltsverzeichnis 8.7.10

6. Asymptotische Resultate im Gauß-Markov-Modell 6.1 Grundlagen der Asymptotik 6.2 Asymptotische Verteilung der Schätzer 6.3 Asymptotische Test für Linearkombinationen

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests 6.3.2 Asymptotische Eigenschaften des t-Tests 6.3.3 Schärfeapproximation für den asymptotischen t-Test 6.3.4 Asymptotische Konfidenzbereiche

6.4 Asymptotische Test für lineare Hypothesen

Literatur Index

3

(16) 6-2 6-8

6 - 10 6 - 10 6 - 11 6 - 13 6 - 14 6 - 15

(1) (3)

Page 7: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Einführung 25.7.05 0 - 1

0 Einführung

Die von Nelder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line-

aren Modelle (engl.: Generalized Linear Models, abgekürzt: GLM) bildet einen gemeinsa-

men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die

zuvor isoliert betrachtet wurden, darunter in erster Linie

Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver-

teilte Beobachtungsdaten,

Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,

Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.

Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer

beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf

einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor X = (xl, ... ,xs),

der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht

des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari-

ablen-Vektor X auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird

die Analyse auf die beobachteten Covariablen-Werte X = X bedingt. Die einzelnen

Covariablen-Komponenten X können hierbei stetige Variablen (mit Werten aus ei- S

nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-

fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.

Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische

Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari-

ablen X auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh-

rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs-

wert ,L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden

charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden

Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine

Einzelbeobachtung (x,Y) zu betrachten und erst danach auf einen Datensatz

( X . , Y .) von j = 1, ... ,J Beobachtungen einzugehen. 3 3

Einführung 25.7.05 0-1

o Einführung

Die von NeIder und Wedderburn (1972) eingeführte Theorie der Generalisierten Line­

aren Modelle (engl.: Generalized Linear Models) abgekürzt: GLM) bildet einen gemeinsa­

men Rahmen für die Behandlung zahlreicher wichtiger statistische Verfahren, die

zuvor isoliert betrachtet wurden, darunter in erster Linie

• Lineare Modelle: Regressions-, Varianz- und Covarianz-Analyse für normalver­

teilte Beobachtungsdaten,

• Quantal-Response Modelle für binomialverteilte Beobachtungsdaten,

• Log-lineare Modelle für Poisson-verteilte Beobachtungsdaten.

Bei diesen statistischen Verfahren geht es um Modellierung der Abhängigkeit einer

beobachteten Zufallsvariablen Y - der Zielvariablen (z.B. ein Krankheitszustand auf

einer geeigneten Skala) von einem zusätzlichen Covariablen-Vektor x = (xl' ... ,xS

)'

der die möglichen Einflussvariablen (z.B. Art der Behandlung, Alter und Geschlecht

des Patienten etc.) enthält und als fest vorgegeben angesehen wird. Wenn der Covari­

ablen-Vektor x auch zufällig, d.h. Realisierung eines Zufallsvektors X ist, so wird

die Analyse auf die beobachteten Covariablen-Werte X = x bedingt. Die einzelnen

Covariablen-Komponenten x können hierbei stetige Variablen (mit Werten aus ei-s

nem Intervall reeller Zahlen), Faktoren (mit ganzzahligen Werten, sogenannten Stu-

fen) oder auch Indikatoren (mit Werten 0 oder 1) sein.

Es ist zweckmäßig, die Modellbildung in eine deterministische und eine stochastische

Komponente zu zerlegen. Im deterministischen Teil wird der Einfluß der Covari­

ablen x auf den Erwartungswert der Zielvariablen Y parametrisch modelliert, wäh­

rend der stochastische Teil die Streuung der Zielvariablen Y um ihren Erwartungs­

wert f-L durch die Angabe einer Verteilungsklasse für Y präzisiert wird. Im folgenden

charakterierisieren wir nur die Klasse der Linearen Modelle indem wir ihre beiden

Komponenten separat beschreiben. Hierbei ist es zweckmäßig, zunächst nur eine

Einzelbeobachtung (x) Y) zu betrachten und erst danach auf einen Datensatz

(x. , Y.) von j = 1, ... ,J Beobachtungen einzugehen. ] ]

Page 8: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1-1

1. Modellierung und Verteilungsmodelle

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung

S Ausgangspunkt ist ein Covariablen-Vektor X = (X . X ) E R und eine davon abhän- 1'

gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo-

dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek-

tor X unter Verwendung eines unbekannten Parameter-Vektors B = (Bl, ... , BS) E R S

wie folgt

d.h. jede einzelne Covariablenkomponente X E R wirkt über den Summanden B X S S S

T additiv auf den Erwartungswert. Der Erwartungswert P(X) = X 0 ist sowohl linear

im Parameter 8 (daher kommt der Name Lineares Modell) als auch linear im Cova-

riablenvektor X.

Unter Verwendung der Abweichung vom Erwartungswert

(I> &(X) = Y(.) - E(Y(x)) (Zentrierung, Fehlervariable)

- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch

(LM)E T Y(X) = 6 + &(X) mit E(E(x)) = 0.

Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari-

ablen-Vektor X fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber

kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli-

gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen

Zufallsvektor X von Covariablen aus und betrachten das zu (LM)' analoge Zufäl- E lige Lineare Modell

T Y = X B + & mit E(&) = 0

wobei die Fehlervariable e von X stochastisch unabhängig ist. Dieses Modell besagt,

daß die Zielvariable Y bis auf einen zufälligen Fehler e durch die Covariable X be-

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06

1. Modellierung und Verteilungsmodelle

1.1 Das Lineare Modell für den Erwartungswert einer Einzelbeobachtung

1-1

Ausgangspunkt ist ein Covariablen-Vektor x = (xl' ... , XS

) E IRS und eine davon abhän­

gende reelle Zufallsvariable Y = Y(x). Der deterministische Teil des Linearen Mo­

dells beschreibt die Abhängikeit des Erwartungswert E(Y(x)) vom Covariablenvek­

tor x unter Verwendung eines unbekannten Parameter-Vektors () = (()l' ... , () 5) E IRS

wie folgt

d.h. jede einzelne Covariablenkomponente x E IR wirkt über den Summanden () x s s s

additiv auf den Erwartungswert. Der Erwartungswert p,(x) = x T() ist sowohl linear

im Parameter () (daher kommt der Name Lineares Modell) als auch linear im Cova­

riablenvektor x.

Unter Verwendung der Abweichung vom Erwartungswert

(1) c(x) = Y(x) - E(Y(x)) (Zentrierung) Fehlervariable)

- auch Fehlervariable genannt - lässt sich das Modell äquivalent beschreiben durch

mit E(c(x)) = o.

Man beachte, daß wir hier - und später - stets davon ausgehen, daß der Covari­

ablen-Vektor x fest vorgegeben und somit keine Zufallsvariable ist. Wir wollen aber

kurz darauf eingehen, wie man die Methoden der Lineare Modelle auch bei zufälli­

gen Covariablen verwenden kann. Hierbei gehen wir von einem S-dimensionalen

Zufallsvektor X von Covariablen aus und betrachten das zu (LM)'E analoge Zufäl­

lige Lineare Modell

mit E(c) = 0

wobei die Fehlervariable c von X stochastisch unabhängig ist. Dieses Modell besagt,

daß die Zielvariable Y bis auf einen zufälligen Fehler c durch die Covariable X be-

Page 9: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1 - 2

stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen

will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die

bedingte Verteilung .d(Y I X = X) zu betrachten (vgl. Exkurs BV Bedingte Verteilun-

gen), wobei X der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän-

gigkeit von X und e ergibt sich der bedingten Erwartungswert von Y zu

Folglich gilt das Lineare Modell (LM) für den bedingten Erwartungswert, d.h. es E ist

(BLM)E ,L(x):= E ( Y I X = x ) (Bedingtes Lineares Modell).

In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle

mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann ,L(x)

als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu-

fälligem X auf den beobachteten Wert X bedingt.

Genau genommen, umfaßt das bedingte Modell (BLM) sogar das Modell (LM)E E für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert X hat, d.h.

P{X = X) = 1.

1.1 Modellierung des Erwartungswertes einer Einzelbeobachtung 31.7.06 1- 2

stimmt ist. Wenn man nur die Abhängikeit der Zielvariablen Y von X untersuchen

will und nicht an der Verteilung der Covariablen X interessiert ist, so genügt es, die

bedingte Verteilung L(YI X = x) zu betrachten (vgl. Exkurs BV Bedingte Verteilun­

gen), wobei x der konkret beobachtete Covariablenvektor ist. Wegen der Unabhän­

gigkeit von X und c ergibt sich der bedingten Erwartungswert von Y zu

Folglich gilt das Lineare Modell (LM)E für den bedingten Erwartungswert, d.h. es

ist

p,(x) : = E(YI X = x) (Bedingtes Lineares Modell).

In diesem Sinn lassen sich die hier zu entwickelnden Methoden für Lineare Modelle

mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei dann p,(x)

als bedingter Erwartungswert zu interpretieren ist. Konkret wird die Analyse bei zu­

fälligem X auf den beobachteten Wert x bedingt.

Genau genommen, umfaßt das bedingte Modell (BLM)E sogar das Modell (LM)E

für den Fall, daß X eine Einpunktverteilung im vorgegebenen Wert x hat, d.h.

P{X=x}=1.

Page 10: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 3

1.2 Varianz und Verteilung einer Einzelbeobachtung

Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz

der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor X ist

( H V a r M ) E ~ a r ( ~ ( x ) ) = a2 (homogenes Varianzmodell der Einzelbeobachtung)

2 mit a > 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi-

schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.

Wenn Y(x) z.B. eine Bernoulli-Verteilung ~ ( 1 , ,L(x)) oder eine Poisson-Verteilung

~ o i s ( ~ ( x ) ) hat, so hängt ihre Varianz vom Erwartunsgwert ,L(x) und somit auch

von X ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.

Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von

Y(x) als Normalverteilung postuliert

( W E Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung),

wobei der Erwartungswert durch (LM) und die Varianz durch (VarM) gegeben E E sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren

durch

( K W E Y(x) - ~ ( x ~ e , a2) (Klassisches Lineares Modell).

Unter Verwendung der Fehlervariablen &(X) ergeben sich die äquivalenten Fassun-

gen

( W h &(X) ist normalverteilt,

T (KLM)E Y(x) = X B + E ( x ) mit &(X) - N(0, a2).

Man beachte, daß die Verteilung N(0, a2) der Fehlervariablen &(X) hier nicht mehr

vom Covariablenvektor X abhängt.

Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der

Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re-

sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV) E nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1- 3

1.2 Varianz und Verteilung einer Einzelbeobachtung

Der stochastische Teil des Linearen Modells fordert zunächst nur, daß die Varianz

der Zufallsvariablen Y(x) homogen d.h. unabhängig vom Covariablenvektor x ist

(HVarM)E Var(Y(x)) = 0-2 (homogenes Varianzmodell der Einzelbeobachtung)

mit 0-2> 0 als Skalen- oder Dispersions-Parameter. Zusammen mit dem deterministi­

schen Teil wird hierdurch die Verteilung von Y(x) bereits wesentlich eingeschränkt.

Wenn Y(x) z.B. eine Bernoulli-Verteilung B(l, ,u(x)) oder eine Poisson-Verteilung

Pois(,u( x)) hat, so hängt ihre Varianz vom Erwartunsgwert ,u( x) und somit auch

von x ab, und das obige Varianzmodell gilt nicht für diese Verteilungen.

Im sogenannten Klassischen Linearen Modell wird zusätzlich noch die Verteilung von

Y(x) als Normalverteilung postuliert

Y(x) ist normalverteilt (Normalverteilung der Einzelbeobachtung) ,

wobei der Erwartungswert durch (LM)E und die Varianz durch (Var M)E gegeben

sind. Insgesamt läßt sich das Klassische Lineare Modell daher charakterisieren

durch

(Klassisches Lineares Modell).

Unter Verwendung der Fehlervariablen c(x) ergeben sich die äquivalenten Fassun­

gen

(NV)~

(KLM)'E

c(x) ist normalverteilt,

mit

Man beachte, daß die Verteilung N(O, 0-2

) der Fehlervariablen c(x) hier nicht mehr

vom Covariablenvektor x abhängt.

Die Normalverteilungsannahme ist eine wesentliche Einschränkung, die sich in der

Praxis nicht immer rechtfertigen lässt. Deshalb ist es sinnvoll möglichst viele Re­

sultate ohne diese Annahme zu erzielen. Wir werden deshalb die Bedingung (NV)E

nicht generell voraussetzen, sondern sie nur bei Bedarf explizit fordern.

Page 11: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 4

Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen

Varianzmodells besteht darin, die Varianz unter Verwendung eines belcannten und

von X abhängigen Gewichtsfaktors w(x) > 0 wie folgt zu modellieren

0 2

(GVarM)E ~ a r ( ~ ( x ) ) = - (gewichtetes Varianzmodell der Einzelbeob.). w(x>

Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits

ein Mittelwert aus n unabhängigen Einzelwerten ist, wobei dann w(x) = n ist. X X

Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianzmodell

(GVarM) zusammen mit (LM) - läßt sich durch Übergang auf die umskalierten E E Variablen

auf das homogene Modell zurückführen, weil

Prinzipiell genügt es daher, das homogene Modell (VarM) zu betrachten, was wir E auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen

zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich-

tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho-

mogene Modell zurückzuführen.

Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen-

Vektor X eingehen

T Y = X B + & mit E(&) = 0

wobei e und X voneinander unabhängig sind. Für die auf X = X bedingte Varianz

von Y - d.h. die Varianz der bedingten Verteilung .d(Y I X = X) - ergibt sich dann

2 Setzen wir a = Var(&), so gilt das bedingte homogene Varianzmodell

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-4

Eine geringfügige - aber sehr zweckmässige - Verallgemeinerung des homogenen

Varianzmodells besteht darin, die Varianz unter Verwendung eines bekannten und

von x abhängigen Gewichtsfaktors w( x) > 0 wie folgt zu modellieren

2 (GVarM)E Var(Y(x)) = ~x) (gewichtetes Varianzmodell der Einzelbeob.).

Eine Varianz dieser Form liegt z.B. dann vor, wenn die Beobachtung Y(x) bereits

ein Mittelwert aus nunabhängigen Einzelwerten ist, wobei dann w( x) = n ist. x x

Das Gewichtete Lineare Modell - bestehend aus dem gewichteten Varianz modell

(GVarM)E zusammen mit (LM)E - läßt sich durch Übergang auf die umskalierten

Variablen

(1) Y*(x) x* Jw(x)·x,

auf das homogene Modell zurückführen, weil

(2)

Prinzipiell genügt es daher, das homogene Modell (VarM)E zu betrachten, was wir

auch zunächst (im Kapitel 2) tun werden. Im Hinblick auf die Verallgemeinerungen

zu Generalisierten Linearen Modellen ist es jedoch zweckmäßig, auch das gewich­

tete Lineare Modell näher zu betrachten (in Kapitel 4 und 5) - ohne es auf das ho­

mogene Modell zurückzuführen.

Wir wollen noch kurz auf das Zufällige Lineare Modell mit zufälligem Covariablen­

Vektor X eingehen

mit E(c) = 0

wobei c und X voneinander unabhängig sind. Für die auf X = x bedingte Varianz

von Y - d.h. die Varianz der bedingten Verteilung L(Y I X = x) - ergibt sich dann

(3) Var(YI X = x) = Var(c).

Setzen wir 0-2 = Var(c), so gilt das bedingte homogene Varianz modell

Page 12: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.2 Verteilungsmodelle für eine Einzelbeobachtung 11.8.05 1 - 5

(BHVarM)E Var(Y1 X = X ) = o 2 für alle X

(bedingtes homogenes Varianzmodell der Einzelbeobachtung).

Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be-

trachten.

Anstelle der Normalverteilung in ( N V ) tritt hier die bedingte Normalverteilung E

(BNV)E .d(Y I X = X ) ist eine Normalverteilung

(Bedingte Normalverteilung der Einzelbe~bachtun~).

Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei-

lung von (X,Y') eine Normalverteilung ist, was natürlich höchstens dann der Fall

sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere S

auch stetige Zufallsvariable - sind.

Und das Bedingte Klassische Lineare Modell ist gegeben durch

T 2 (BKLNQE .d(Y 1 X = X ) = N ( x B, o )

(Bedingtes Klassisches Lineares Modell).

Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über-

gang auf die bedingte Verteilung .d(Y I X = X ) zu den dem entsprechenden Modell

mit vorgegebener Covariablen X . Folglich lassen sich die Methoden für Lineare Mo-

delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man

lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung .d(Y I X = X )

zu interpretieren hat.

1.2 Verteilungs modelle für eine Einzelbeobachtung 11.8.05 1-5

(BHVarM)E Var(YI X = x) = 0-2 für alle x

(bedingtes homogenes Varianzmodell der Einzelbeobachtung).

Insbesondere besteht hier keine Notwendigkeit ein gewichtetes Varianzmodell zu be­

trachten.

Anstelle der Normalverteilung in (NV)E tritt hier die bedingte Normalverteilung

L(YI X = x) ist eine Normalverteilung

(Bedingte Normalverteilung der Einzelbeobachtung).

Diese Normalverteilungsannahme ist z.B. dann erfüllt, wenn die gemeinsame Vertei­

lung von (X, Y) eine Normalverteilung ist, was natürlich höchstens dann der Fall

sein kann, wenn alle Komponenten X von X normalverteilt - also insbesondere s

auch stetige Zufallsvariable - sind.

Und das Bedingte Klassische Lineare Modell ist gegeben durch

(Bedingtes Klassisches Lineares Modell).

Wie schon in 1.1, gelangt man auch hier bei zufälligen Covariablen X durch Über­

gang auf die bedingte Verteilung L(Y I X = x) zu den dem entsprechenden Modell

mit vorgegebener Covariablen x. Folglich lassen sich die Methoden für Lineare Mo­

delle mit festen Covariablen auch bei zufälligen Covariablen anwenden, wobei man

lediglich Y(x) als eine Zufallsvariable mit der (bedingten) Verteilung L(Y I X = x)

zu interpretieren hat.

Page 13: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 6

1.3 Das Lineare Modell für mehrere Beobachtungen

Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen

betrachten , d.h. für jedes j = 1, ..., J ist ein S-dimensionaler Covariablen-Vektor X . = S 3

(xjl, ..., X . ) E IR und eine relle Zufallsvariable Y. = Y(x .) gegeben. Hierbei soll S < J 3 s 3 3

-

gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl

der unbekannten Parameter-Komponenten von 8.

Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die Modellie-

rung der Erwartungswerte ,LL . = E(Y .) , die wie in 1.1 modelliert werden durch - wo- 3 3

bei wir zur Vereinfachung ,LL. = ,LL(X .) setzen - 3 3

S mit einem gemeinsamen S-dimensionalen Parameter-Vektor 8 = (8 ..., BS) E IR . Wir 1'

fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor 3

zusammen, der dann folgenden Erwartungs-Vektor hat

Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen

T deren j-te Zeile gerade der transponierte Covariablen-Vektor X . ist. Die Matrix X 1

wird auch als Covariablen-, Struktur- oder Design-Matrix bezeichnet. Der Vektor der

Erwartungswerte ist dann

Um zu einer „parameterfreienn Formulierung des Modells zu gelangen, betrachten

wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 6

1.3 Das Lineare Modell für mehrere Beobachtungen

Wir wollen jetzt das Lineare Modell für einen Datensatz mit J> 0 Beobachtungen

betrachten, d.h. für jedes j = 1, ... , J ist ein S-dimensionaler Covariablen-Vektor x. = J

(x.1

, ... , x ·5) E IRS und eine relle Zufallsvariable Y. = Y( x.) gegeben. Hierbei soll S < J J J J J -

gelten, damit die Anzahl der Beoachtungen mindestens so groß ist wie die Anzahl

der unbekannten Parameter-Komponenten von ().

Wir beschreiben zunächst den deterministischen Teil des Modells, d.h. die ModelIie­

rung der Erwartungswerte p,. = E(Y.), die wie in 1.1 modelliert werden durch - wo-J J

bei wir zur Vereinfachung p,. = p,( x.) setzen -J J

(LM). J

T p,. = E(Y.) = x. () J J J

mit einem gemeinsamen S-dimensionalen Parameter-Vektor () = (()1' ... , () 5) E IRS. Wir

fassen nun alle Beobachtungen Y. zu einem J-dimensionalen Beobachtungs-Vektor J

(1) J Y = (Y1, .... , Y

J) E IR

zusammen, der dann folgenden Erwartungs-Vektor hat

(2)

Und die Covariablen-Vektoren fassen wir zu einer JxS-Matrix zusammen

(3) X=(x.). JS JS

deren j-te Zeile gerade der transponierte Covariablen-Vektor x! ist. Die Matrix X J

wird auch als Covariablen-) Struktur- oder Design-Matrix bezeichnet. Der Vektor der

Erwartungswerte ist dann

(4) p,=X().

Um zu einer "parameterfreien" Formulierung des Modells zu gelangen, betrachten

wir den von den Spalten der Covariablen-Matrix X erzeugten linearen Teilraum

Page 14: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 7

und können das Modell dann äquivalent in der Form schreiben

Dieses Modell schränkt also die Variabilität des Erwartungsvektors ,!L ein auf den

linearen Modellraum A des Erwartungswert (Dies ist der eigentliche Grund, warum

man von einem Linearen Modell spricht).

Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie

nur noch den Modellraum A, aber nicht mehr seine explizite Parametrisierung

verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter 8 nicht

eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter 8 ein-

deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern

(RB) Die Spalten von X sind linear unabhängig sind, d.h. es gilt

Rang X = S (Rang bedingung) .

Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse

T -1 T (8) X P : = ( X X ) X falls (RB) gilt,

J und folglich ist die lineare Abbildung X: IRs+ IR mit A = Bild X injektiv und S hat die lineare Abbildung X-: IRJ+ IR als Links-Inverse. Und dann ist der Para-

meter 8 eindeutig durch den Erwartungsvektor ,!L = X8 bestimmt:

(9) p = ~ 8 ~ = x - P falls (RB) gilt.

Falls die Rangbedingung jedoch nicht gilt, so ist 8 in (LM) nur durch zusätzliche

Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For-

mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son-

dern bei Bedarf als Zusatzvoraussetzung erwähnen.

Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei-

lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For-

derung ist die Unabhängiglceit der Einzelbeobachtungen:

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1-7

(6) vft =vft(X) := { X() I ()E IRS } C IR] ,

und können das Modell dann äquivalent in der Form schreiben

(LM) ,

Dieses Modell schränkt also die Variabilität des Erwartungsvektors Jl ein auf den

linearen Modellraum vft des Erwartungswert (Dies ist der eigentliche Grund, warum

man von einem Linearen Modell spricht).

Die parameterfreie Darstellung des Modells hat viele theoretische Vorzüge, weil sie

nur noch den Modellraum vft, aber nicht mehr seine explizite Parametrisierung

verwendet. Dies spielt insbesondere dann eine Rolle, wenn der Parameter () nicht

eindeutig durch (LM) bestimmt ist. Um sicherzustellen, daß der Parameter () ein­

deutig bestimmt ist, genügt es, die folgende Rangbedingung zu fordern

(RB) Die Spalten von X sind linear unabhängig sind) d.h. es gilt

Rang X = S (Rang bedingung) .

Unter der Rangbedingung besitzt die Matrix X folgende Links-Inverse

(8) falls (RB) gilt,

und folglich ist die lineare Abbildung X: IRS -----t IR] mit vft = Bild X injektiv und

hat die lineare Abbildung X-: IR] -----t IRS als Links-Inverse. Und dann ist der Para­

meter () eindeutig durch den Erwartungsvektor Jl = X() bestimmt:

(9) Jl = X() falls (RB) gilt.

Falls die Rangbedingung jedoch nicht gilt, so ist () in (LM) nur durch zusätzliche

Bedingungen eindeutig bestimmt. Da die Rangbedingung für parameterfreie For­

mulierungen nicht erforderlich ist, wollen wir sie nicht generell voraussetzen, son­

dern bei Bedarf als Zusatzvoraussetzung erwähnen.

Wir wollen jetzt den stochastischen Teil des Modells beschreiben, indem wir Vertei­

lungsmodelle für den Beobachtungsvektor Y formulieren. Eine grundlegende For­

derung ist die Unabhängigkeit der Einzelbeobachtungen:

Page 15: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 8

(Unab) Yl, ..., YJ sind stochastisch unabhängig,

die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate

(mit Ausnahme von Ver te i l~n~saussa~en) bereits aus der schwächeren Unkorrelier-

theit der Beobachtungen herleiten lassen:

(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die JxJ-Covarianzmatrix

von Y hat Diagonalgestalt:

Cov(Y) := (COV(Y., Y ~ ) ) . = Diag { Var(Y .) } . 3 3k 3 3

Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun-

gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un-

korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn

nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten

und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.

Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. 3

gelten

2 (GVarM). Var(Y.) = W . (gewichtetes Varianz-Modell).

3 3 3

2 mit einem gemeinsamen Dispersions-Parameter a >0, aber individuellen Gewichten

W . = w(x .) > 0. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende 3 3

Modell für die Covarianz-Struktur des Beobachtungsvektors

(CovM) Cov(Y) = a2 . ~ i a ~ - l {W} (Covarianz-Model l),

J wobei Diag{w} die JxJ Diagonal-Matrix mit Diagonale W = (W ..., wJ E IR be- 1'

zeichnet. Man beachte, daß das Covarianz-Modell (CovM) äquivalent zu den beiden

Bedingungen (Unkor) und (VarM) . für alle j ist. 3

Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova-

rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich

ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.

Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert

zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn

dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1- 8

(Unab) Y1, ... , Y

J sind stochastisch unabhängig)

die wir allerdings nicht generell vorrausetzen wollen, da sich die meisten Resultate

(mit Ausnahme von Verteilungsaussagen) bereits aus der schwächeren Unkorrelier­

theit der Beobachtungen herleiten lassen:

(Unkor) Y1, ... , Y

J sind paarweise unkorreliert) d.h. die lxl-Covarianzmatrix

von Y hat Diagonalgestalt:

Cov(Y) := (Cov(Y., Yk)) 'k = Diag {Var(Y.) .} . J J J J

Im (linearen) Aitken-Modell werden wir allgemeiner auch korrelierte Beobachtun­

gen betrachten, weil sich diese durch eine lineare Transformation wieder auf un­

korrelierte Beobachtungen zurückführen lassen. Generell wollen wir aber, wenn

nicht explizit etwas anderes gesagt ist, die Unkorreliertheit (Unkor) voraussetzten

und bei Bedarf die Unabhängigkeit als zusätzliche Vorraussetzung angeben.

Darüberhinaus soll das gewichtete Varianz-Modell aus 1.2 für jede Beobachtung Y. ]

gelten

(GVarM). J

2 Var(Y.) = !!...-

J W· ]

(gewichtetes Varianz-ModelV.

mit einem gemeinsamen Dispersions-Parameter 0'2> 0, aber individuellen Gewichten

w. = w(x.) > O. Zusammen mit der Unkorreliertheit ergibt sich somit das folgende J J

Modell für die Covarianz-Struktur des Beobachtungsvektors

(CovM) Cov(Y) = 0'2. Diag -1 {w} (Covarianz-ModelV)

J wobei Diag{w} die lxl Diagonal-Matrix mit Diagonale w = (w1, ... , w) E IR be-

zeichnet. Man beachte, daß das Covarianz-Modell (Cov M) äquivalent zu den beiden

Bedingungen (Unkor) und (Var M) . für alle j ist. ]

Da durch (LM) nur der Erwartungsvektor E(Y) und durch (CovM) nur die Cova­

rianz-Matrix Cov(Y) des Beobachtungsvektors modelliert werden, so ergeben sich

ingsgesamt nur Bedingungen an die Momente von Y bis zur zweiten Ordnung.

Die Herleitung von exakten Verteilungsaussagen (z.B. für Teststatistiken) erfordert

zusätzlich noch eine Verteilungsannahme für den Beobachtungsvektor Y. Wenn

dies erforderlich ist, so werden wir neben der Unabhängigkeit (Unab) noch voraus-

Page 16: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen 11.8.05 1 - 9

setzen, daß alle Beobachtung normalverteilt sind

(NV) Y . ist normalverteilt für alle j = 1, ..., J. 3

Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte

Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi-

variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt

(KLMG) Y - N ~ ( X8 , o2 ~ i a ~ - ' { W))

(Klassisches Lineares Modell mit Gewichten).

Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son-

dern bei Bedarf explizit als Voraussetzung erwähnen.

Nachdem wir die deterministische und stochastische Komponente des Linearen

Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im

Rahmen dieser Modelle wie folgt charakterisieren:

Modellbildung: Wahl von X bzw. 4,

2 Schätzung der Modellparameter 8 (bzw. ,u) und o sowie gegebenenfalls weiterer

Funktionen dieser Parameter,

Bestimmung der Verteilung der Schätzer 8, P, und 82 (exakt oder asympto-

tisch),

Testen von Hypothesen über die Modellparameter,

Konstruktion von Konfidenzbereichen für die Modellparameter,

Überprüfung der Modellanpassung.

1.3 Das Allgemeine Lineare Modell für mehrere Beobachtungen

setzen, daß alle Beobachtung normalverteilt sind

(NV) Y. ist normalverteilt für alle j = 1, ... , 1. ]

11.8.05 1- 9

Die Bedingungen (LM), (CovM) und (NV) zusammen definieren das sogenannte

Klassische Lineare Modell mit Gewichten, welches sich unter Verwendung der multi­

variaten Normalverteilung auch wie folgt äquivalent beschreiben lässt

(KLMG) Y '" N j xe , 0-2 Diag -1 { w } )

(Klassisches Lineares Modell mit Gewichten).

Wir wollen die Normalverteilungsannahme jedoch nicht generell voraussetzen, son­

dern bei Bedarf explizit als Voraussetzung erwähnen.

Nachdem WIr die deterministische und stochastische Komponente des Linearen

Modells beschrieben haben, lassen sich die Aufgaben einer statistischen Analyse im

Rahmen dieser Modelle wie folgt charakterisieren:

• Modellbildung: Wahl von X bzw. A,

• Schätzung der Modellparameter e (bzw. Jl) und 0-2 sowie gegebenenfalls weiterer

Funktionen dieser Parameter,

• Bestimmung der Verteilung der Schätzer 0, {1" und 52 (exakt oder asympto­

tisch),

• Testen von Hypothesen über die Modellparameter,

• Konstruktion von Konfidenzbereichen für die Modellparameter,

• Überprüfung der Modellanpassung.

Page 17: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2. Das Gauß-Markov-Modell 11.8.05 2 - 1

2 Das Gauß-Markov-Mode11

In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer-

den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be-

~bachtun~svektor

und der JxS-Covariablen-Matrix

für das lineare Modell gilt

(LM) p = E(Y) = X e .

Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt

(Unkor) Y1, ..., YJ sind paarweise unkorreliert, d.h. die Jd-Covarianzmatrix

vonY hat Diagonalgestalt:

Cov(Y) := (COV(Y., Y ~ ) ) . = Diag {Var(Y .) } , 3 3k 3 3

und die Varianzen sollen 1 homogen sein, d.h.

(HVar) Var(Y.) = a 2 für j = 1, ..., J (homogene Varianzen) . 3

Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu

2 (GMC) Cov(Y) = a . lIJ (Gauj3-Markov-Covarianzstruktur)

wobei lIJ die J x J Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge-

legte Modell wird auch als Gauj3-Markov-Modell (mit homogenen Varianzen) bezeich-

net.

Unter Verwendung der Abweichung vom Erwartungswert

(3> & = Y - E ( Y ) = Y - p (Fehler- oder Resiuduemvektor)

wird das lineare Modell auch in der Form geschrieben

2. Das Gauß-Markov-Modell 11.8.05 2-1

2 Das Gauß-Markov-Modell

In diesem Kapitel soll das lineare Modell mit homogenen Varianzen untersucht wer­

den. Ausgangspunkt ist also ein Datensatz (X, Y) mit dem J-dimensionalen Be­

obachtungsvektor

(1) J Y = (Y1, .... , Y

J) E IR

und der JxS-Covariablen-Matrix

(2) X=(x.). JS JS

für das lineare Modell gilt

(LM) Jl = E(Y) = X() .

Weiter sollen die Beobachtungen unkorrelliert sein, d.h. es gilt

(Unkor) Y1' ... , Y

J sind paarweise unkorreliert) d.h. die JxJ-Covarianzmatrix

von Y hat Diagonalgestalt:

Cov(Y) := (Cov(Y., Yk)).k = Diag{Var(Y.).} , J J J J

und die Varianzen sollen 1 homogen sein, d.h.

(HVar) Var(Y.) = 0-2

J für j = 1, ... , J (homogene Varianzen).

Die letzten beiden Voraussetzungen lassen sich zusammenfassen zu

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur)

wobei 11J

die JxJ Einheitsmatrix bezeichnet. Das durch (LM) und (GMC) festge­

legte Modell wird auch als Gauß-Markov-Modell (mit homogenen Varianzen) bezeich­

net.

Unter Verwendung der Abweichung vom Erwartungswert

(3) c; = Y - E(Y) = Y - Jl (Fehler- oder Resiuduemvektor)

wird das lineare Modell auch in der Form geschrieben

Page 18: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2. Das Gauß-Markov-Modell 11.8.05 2 - 2

und die Gauß-Markov-Covarianzstruktur lautet äquivalent

2 (GMC)' COV(E) = a . II J .

Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer-

den die Schätzungen für 8 und ,U nach der Methode der minimalen Quadrate be-

stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen 2 Schätzer für die Varianz a an. Für die Konstruktion von (exakten) Tests über 8

bzw. ,U benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und

betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va-

rianzen), welches gegeben ist durch

(KLM) Y - N ~ ( X e , a2 I IJ ) (Klassisches Lineares Modell) .

Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für 8 bzw. ,U auch 2 der Maximum-Likelihood-Schätzer ist (für den Schätzer von a gilt dies nicht

exakt, aber zumindest asymptotisch).

Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy- T pothesen über eine Linearkombination C 8 des Parameters 8 und anschließend den

F-Test für lineare Nullhypothesen über 8 bzw. ,U.

2. Das Gauß-Markov-Modell 11.8.05 2-2

(LM)" y = x() + c,

und die Gauß-Markov-Covarianzstruktur lautet äquivalent

(GMC) , Cov(c) = 0-2

. 11 J.

Bei der Untersuchung des Gauß-Markov-Modell gehen wir wie folgt vor. Zuerst wer­

den die Schätzungen für () und Jl nach der Methode der minimalen Quadrate be­

stimmt, deren Eigenschaften hergeleitet, und im Anschluß daran geben wir einen

Schätzer für die Varianz 0-2 an. Für die Konstruktion von (exakten) Tests über ()

bzw. Jl benötigen wir (in 2.5-2.6) zusätzlich die Normalverteilungs-Annahme und

betrachten daher zuvor (in 2.4) das Klassische Lineare Modell (mit homogenen Va­

rianzen), welches gegeben ist durch

(Klassisches Lineares ModelV.

Es zeigt sich dann, daß der bisherige Minimal-Quadrate-Schätzer für () bzw. Jl auch

der Maximum-Likelihood-Schätzer ist (für den Schätzer von 0-2 gilt dies nicht

exakt, aber zumindest asymptotisch).

Im Klassische Lineare Modell behandeln wir dann zunächst den t-Test für Nullhy­

pothesen über eine Linearkombination cT () des Parameters () und anschließend den

F-Test für lineare Nullhypothesen über () bzw. Jl.

Page 19: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 3

2.1. Minimale-Quadrate-Schätzung

Wir wollen uns zuerst mit der Schätzung des Erwartungswerts p E & beschäftigen.

Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig

spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver-

fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua-

drate, welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer

Beobachtungsdaten eingesetzt wurde.

Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert p ist

definiert als Minimalstelle fi von

bzgl. PE &. Mit der orthogonalen Projektion PA : IRJ J, & auf den linearen Teil-

raum & läßt sich diese Minimalstelle fi schreiben als

Eine

(4)

bzgl.

Abb. 1: Die Schätzung fi als orthogonale Projektion der Beobachtung Y

M&-Schätzung 4 für den Parameter B ist eine Minimalstelle von

SQ(XSIY) = I I Y - X B I I ~ .

e E IR', d.h. es gilt

2.1 Minimale-Quadrate-Schätzung 31.7.06 2-3

2.1. Minimale-Quadra te-Schätzung

Wir wollen uns zuerst mit der Schätzung des Erwartungswerts Jl E .At beschäftigen.

Da wir die Verteilungsklasse des Beobachtsvektors Y zunächst nicht vollständig

spezifizieren wollen (das erfolgt erst in 2.4), steht das Maximum-Likelihood-Ver­

fahren nicht zur Verfügung. Wir verwenden daher das Prinzip der Minimalen Qua­

drate) welches bereits von C. F. Gauß (1777-1855) für die Analyse astronomischer

Beobachtungsdaten eingesetzt wurde.

Die minimale Quadrate-Schätzung (kurz: MQ-Schätzung) für den Erwartungswert Jl ist

definiert als Minimalstelle fi, von

(2)

bzgl. JlE.At. Mit der orthogonalen Projektion P c4: IR] -----+ .At auf den linearen Teil­

raum .At läßt sich diese Minimalstelle fi, schreiben als

Y Y-fi,

.. vi(

Abb. 1: Die Schätzung fi, als orthogonale Projektion der Beobachtung Y.

Eine MQ-Schätzung () für den Parameter () ist eine Minimalstelle von

(4) SQ(X()IY) = IIY-X()11 2.

bzgl. () E IRS, d.h. es gilt

(5) 4 = X().

Page 20: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 4

Zur Bestimmung von 8 setzen wir zunächst die Rangbedingung voraus

(RB) Rang(X) = S (Rang bedingung) .

T Dann ist X X eine nichtsinguläre SxS Matrix und die Matrix

ist eine Linksinverse von X, d.h. es gilt

(7) X-X = n,. Folglich ist die Parameterschätzung 8 durch fi eindeutig bestimmt:

(8) 8 = xg mit 1 T X- = (xTx)- X .

Zur expliziten Berechnung von 8 setzen wir die Ableitung von SQ(X0I Y) nach 0

gleich Null und erhalten die Normalen-Gleichung für 8

(9) (xTx)8=xTy (Normalen-Gleichung) .

Die MQ-Schätzungen ergeben sich dann explizit

(10) 8 = $Y) = X-Y ,

(11) fi = fi(Y) = X X - Y mit T -1 T X - = ( X X) X .

Für die orthogonale Projektion P, auf den linearen Raum .L& erhält man folgende

Darstellung als J x J Matrix

(12) T -1 T P , = X X = X ( X X) X .

Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .L& sind

(13) T -1 T P, = B(B B) B .

Folglich kann fi = P,Y unter Verwendung einer beliebigen Basis von .L& bestimmt

werden, und der Parameter 8 ergibt sich aus (5) und ist unter der Rangbedingung

(RB) eindeutig bestimmt.

Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine

eindeutige Lösung 8, aber jede Lösung 8 ist eine MQ-Schätzung für 0 und (5) liefert

2.1 Minimale-Quadrate-Schätzung 31.7.06 2-4

Zur Bestimmung von () setzen wir zunächst die Rangbedingung voraus

(RB) Rang(X) = S (Rang bedingung) .

Dann ist X T X eine nichtsinguläre SxS Matrix und die Matrix

ist eine Linksinverse von X, d.h. es gilt

Folglich ist die Parameterschätzung () durch (i, eindeutig bestimmt:

(8) mit

Zur expliziten Berechnung von () setzen wir die Ableitung von SQ(XO I Y) nach 0

gleich Null und erhalten die Normalen-Gleichung für ()

(9)

Die MQ-Schätzungen ergeben sich dann explizit

(10)

(11)

()(Y)

mit

(Normalen-Gleichung) .

Für die orthogonale Projektion P c4 auf den linearen Raum .At erhält man folgende

Darstellung als lxl Matrix

Allgemein gilt für eine beliebige Matrix B, deren Spalten eine Basis von .At sind

Folglich kann (i, = P c4 Y unter Verwendung einer beliebigen Basis von .At bestimmt

werden, und der Parameter () ergibt sich aus (5) und ist unter der Rangbedingung

(RB) eindeutig bestimmt.

Falls die Rangbedingung (RB) nicht gilt, so besitzt die Normalengleichung keine

eindeutige Lösung (), aber jede Lösung () ist eine MQ-Schätzung für 0 und (5) liefert

Page 21: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 5

die (eindeutige) MQ-Schätzung fi = XB für den Erwartungswert p. Unter Verwen- T - T dung einer beliebigen verallgemeinerten Inversen (X X) von (X X) ergibt sich die

orthogonale Projektion zu:

(14) PA = X ( X ~ X ) xT wobei (xTx) . (X T X) - . (xTx) = (xTx).

Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer IxJ

Matrix A definiert als eine beliebige J x I Matrix A- mit AA-A = A. Jede Matrix A

besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine

Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist

die Linksinverse X- aus (6) auch eine g-Inverse von X.

Die MQ-Schätzung für den Erwartungswert p besitzt dann die Darstellung

T - T (15) fi = X(X X) X Y

und eine MQ-Schätzung für den Parameter 8 ist:

T - T (16) B = ( x X) X Y.

Die orthogonale Projektion ist symmetrisch und idempotent

2.1.1 Lineare Regression mit einer Variablen

Für S= 2 sei X. = 1 eine konstante (formale) Covariable und X. = X. eine beobachtete 31 32 3

Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen X

(I> p . = E(Y.) = Bl+B X. für alle j. 3 3 2 3

Die Modell-Matrix X besteht aus zwei Spalten

(2) X = (e+ , X) mit

2.1 Minimale-Quadrate-Schätzung 31.7.06 2-5

die (eindeutige) MQ-Schätzung (i, = XO für den Erwartungswert J-L. Unter Verwen­

dung einer beliebigen verallgemeinerten Inversen (XT Xr von (XT X) ergibt sich die

orthogonale Projektion zu:

(14) wobei

Hierbei ist eine verallgemeinerte oder generalisierte Inverse (kurz: g-Inverse) einer Ixl

Matrix A definiert als eine beliebige lxI Matrix A - mit AA - A = A. Jede Matrix A

besitzt mindestens eine verallgemeinerte Inverse. Falls A eine Inverse, oder eine

Links- oder Rechts-Inverse besitzt, so ist diese stets auch eine g-Inverse. Speziell ist

die Linksinverse X- aus (6) auch eine g-Inverse von X.

Die MQ-Schätzung für den Erwartungswert J-L besitzt dann die Darstellung

und eine MQ-Schätzung für den Parameter () ist:

Die orthogonale Projektion ist symmetrisch und idempotent

(17)

(18)

T Pc4 = Pc4

Pc4

.Pc4

= Pc4

(Symmetrie),

(Idem potenz).

2.1.1 Lineare Regression mit einer Variablen

Für S = 2 sei x·1

= 1 eine konstante ( formale) Covariable und x.2

= x. eine beobachtete J J J

Covariable. Dann beschreibt (LM) das lineare Regressionsmodell in einer Variablen x

(1) J-L. = E(Y.) = ()1 + ()2x . J J J

für alle j.

Die Modell-Matrix X besteht aus zwei Spalten

(2)

(3)

X=(e+,x) mit

J J x = (x1

, ... ,xJ) EIR , e+ = (1, ... ,1) EIR .

Page 22: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.1 Minimale-Quadrate-Schätzung 31.7.06 2 - 6

J Allgemein bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten 3

(4) e . = 6. 3h 3h (6 ist das Kronecker-Symbol),

und es ist

Die Rangbedingung RangX = 2 ist genau dann erfüllt, wenn nicht alle Covari-

ablenwerte X ..., X gleich sind. Der Raum 4 wird von e+ und X aufgespannt 1' J

Unter Verwendung der Bezeichnungen

(Summe der X- Werte),

(Summe der Y- Werte),

(9) - -1 1 X = J X = - E x .

t J j I (Mittelwert der X-Werte), -

(10) 1 1 Y = J - Y = J C Y . t (Mittelwert der Y-Werte),

(11) sxx = C (X.-q2 2 = C x . - ' ( ~ x . ) ~

j J j 3 J j 3

(12) SXY = C (X.-z)(Y.-Y) 3 = CX.Y.-'(cx.)(cY~) j 3 3 J j 3 3 j 3

(13) S Y Y = C ( Y . - F ) ~ = CY: - ' ( cY. )~ j 3 3 J j s

läßt sich die MQ-Schätzung 8 = (Q1, Q2) explizit angeben:

SxY 1 (14) Q = - , 2 sxx

2.1.2 Polynomregression mit einer Variablen

Das Polynomregressionsmodell in einer Variablen X ergibt sich aus (LM) wenn für je- s -1 des s = 1 ,..., S gilt X . = X . bzw. wenn gilt

3s 3

(I) P . = 3 E(Y.) 3 = Q1 + Q x . + Q x2 + ... + QsxS-I für alle j.. 2 3 3 3

Die Modellmatrix X besteht aus den S Spalten

(2) 0 1 2 X = (X , X , X , ... , xs-l) mit

2.1 Minimale-Quadrate-Schätzung 31.7.06

Allgemein bezeichnet e. E lRJ den j-ten Einheitsvektor mit den Komponenten J

(4)

und es ist

(5) e+ = I; e .. . J J

(5 ist das Kronecker-Symbol),

2-6

Die Rangbedingung RangX 2 ist genau dann erfüllt, wenn nicht alle Covari­

ablenwerte xl' ... , xJ

gleich sind. Der Raum.At wird von e+ und x aufgespannt

Unter Verwendung der Bezeichnungen

(7) T I;x. (Summe der x-Werte), x+ x e+ j J

(8) Y+ T I;Y. (Summe der Y-Werte), Y e+

J J

(9) - r 1 _ 1 (Mittelwert der x-Werte), x - J x.

J J

(10) Y J-1 y 1 Y. (Mittelwert der Y-Werte), + J J J

(11) Sxx ~ (xj-x)2 2 }(~x)2 I;x.

J j J J

(12) SxY - ~ (xj - x)(Yj - Y) I;xY. - } (I;x.)(I;Y.) . J J . J . J J J J J

(13) SYY = 'E (Y. y)2 'Ey~ l(I;Y.? . J J J j J J J

läßt sich die MQ-Schätzung e = (°1, 02) explizit angeben:

(14)

2.1.2 Polynomregression mit einer Variablen

Das Polynomregressionsmodell in einer Variablen x ergibt sich aus (LJ\1) wenn für je­

des sI, ... , S gilt x. = x~-l bzw. wenn gilt JS J

(1) E( ) e e e 2 e 5-1 /-L.= Y. = 1 2x .+ 3 x . + ... + x

J J J J S

Die Modellmatrix X besteht aus den S Spalten

(2)

(3)

( 0 1 2 5-1) X- x,x1x, ... ,x

k (k k) J x - xl' ... , x J E lR ,

mit

für alle j ..

Page 23: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 7

2.2 Eigenschaften der Minimale-Quadrate-Schätzung

Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung fi = fi(Y) hergeleitet

werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere

wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von fi(Y) gezeigt.

Zunächst ist die MQ-Schätzfunktion fi(Y) = PA Y eine lineare Funktion der Zielva-

riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:

(1) ~(fi(Y)) = P, (fi ist erwartungstreu für ,U)

2 (2) cov(p (y ) )=D .PA

Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung 1 T ~ = B ( Y ) = (xTx)- X Y eindeutig definiert und ebenfalls eine lineare Funktion

von Y. Hieraus ergibt sich

(3) E ( ~ Y ) ) = 6, (B ist erwartungstreu für B)

(4) cov(B(y)) = D2 . (xTx)-'.

Neben dem Erwartungswert p sind auch dessen Linearkombinationen

(5) T

C p = C c p . mit j~

c ~ d

J von Interesse. Bezeichnet e . E IR den j-ten Einheitsvektor mit den Komponenten e. 3 3h

= 6. (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des 3h

Erwartungswerts p oder des Parameters B als Linearkombination darstellen

(6) T p . = e . p für j = 1, ..., J

3 3

(7) T T -1 T 8 . = e . B =(x(x X) ej) p für s = 1, ..., S.

3 3 T Und die Prognose des Erwartungswerts E(y(x0)) = xoB der Zielvariablen Y(xo)

S für einen „neuenn Covariablenwert X E IR ist auch eine Linearkombination von p 0

(8) x;e = ( X ( X ~ X ) - ~ ~ ~ ) ~ ~

T Die MQ-Schätzung einer (beliebigen) Linearkombination C p ist die entsprechende Li-

nearkombination der Schätzung fi

(9) T T

C p = c P Y . A

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-7

2.2 Eigenschaften der Minimale-Quadra te-Schätzung

Es sollen jetzt diejenigen Eigenschaften der MQ-Schätzung 4 = 4(Y) hergeleitet

werden, die keine weiteren Verteilungsannahmen über Y benötigen. Insbesondere

wird (im Gauß-Markov-Theorem) eine Optimalitätseigenschaft von 4(Y) gezeigt.

Zunächst ist die MQ-Schätzfunktion 4(Y) = P c4 Y eine lineare Funktion der Zielva­

riablen Y, und hieraus ergibt sich ihr Erwartungswert und ihre Covarianz-Matrix:

(1) E(4(Y)) = Jl, (4 ist erwartungstreu für Jl)

(2) Cov(4(Y)) = 0-2

. P uf{

Falls die Rangbedingung (RB) gilt, so ist die Parameterschätzung

0= O(Y) = (XTXr1X Ty eindeutig definiert und ebenfalls eine lineare Funktion

von Y. Hieraus ergibt sich

(3) E( O(Y)) = (), (0 ist erwartungstreu für ())

Neben dem Erwartungswert Jl sind auch dessen Linearkombinationen

(5) cT

Jl = ~ CjJ.Lj mit cE IR] ]

von Interesse. Bezeichnet e. E IR] den j-ten Einheitsvektor mit den Komponenten e.k ] ]

= 6jk (6 ist das Kronecker-Symbol), so lassen sich z.B. einzelne Komponenten des

Erwartungswerts Jl oder des Parameters () als Linearkombination darstellen

(6)

(7)

T J.L.=e.Jl

] ]

T (( T )-1 )T (). = e. () = X X X e. Jl ] ] ]

für j = 1, ... , J

für s = 1, ... , S.

Und die Prognose des Erwartungswerts E(Y(xo)) = x~() der Zielvariablen Y(xo)

für einen "neuen" Covariablenwert X o E IRS ist auch eine Linearkombination von Jl

Die MQ-Schätzung einer (beliebigen) Linearkombination cT Jl ist die entsprechende Li­

nearkombination der Schätzung 4

(9) TA Tp Y cJl=C c4.

Page 24: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2 - 8

T Diese Schätzung ist auch linear i n Y und somit erwartungstreu für C p

und ihre Varianz ist

W i r wollen jetzt zeigen, d a ß der MQ-Schätzer der beste Schätzer i n einer gewissen

Klasse v o n erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, w a n n

ein erwartungstreuer Schätzer besser ist als ein anderer.

Definition: Sind fil(Y) und fil'(Y) zwei erwartungstreue Schätzer für p, d.h.

E k f i l ( Y ) ) = El"(fil '(Y)) = P für alle p E A,

so heij't fil(Y) besser als fil'(Y), wenn die Varianz jeder Linearkombination von

fil(Y) ist nicht gröj'er als die der entsprechenden Linearkombination von fil'(Y),

d.h. wenn für alle p E A gilt

(12) TA''

V a r ( c T f i ' ( y ) ) < ~ a r k c p (Y)) für alle C E R J , bzw. P

T T C . ~ o v k f i ' ( ~ ) ) . C < C . ~ o v k f i " ( ~ ) ) . C für alle C E IR J , bzw.

c0vkfi1(y)) < c o v k f i " ( y ) ) ,

wobei die letzte Formulierung eine ablcürzende Schreibweise bzw. die Definition einer

Ordnung für positiv-semidefinite Matrizen ist. Der Index p in E etc. soll an die P

Abhängigkeit des jeweiliegen Wertes von p erinnern.

W i r zeigen jetzt, d a ß der MQ-Schätzer fi(Y) unter allen i n Y linearen und erwar-

tungstreuen Schätzern für p der beste Schätzer. Oder i n englisch: der MQ-Schätzer ist

ein Best Linear Unbiased Estimator (abgekürzt: BLUE):

Gau$-Markou-Theorem: Der MQ-SchätzeKr fi(Y) ist besser als jeder andere

Schätzer fi"(Y), der in Y linear, d.h. von der Form

(13) fil'(Y)=AY mit einer JxJ-Matrix A,

und erwartungstreu für p ist, d.h.

(14) ~ I " ( f i " ( ~ ) ) = p f ü r j e d e s p ~ A .

Ist umgekehrt auch fi"(Y) besser als fi(Y), so ist fil'(Y) bereits der MQ-Schätzer,

d.h. es gilt fil'(Y) =f i . (Y) .

2.2 Eigenschaften der Minimale-Quadrate-Schätzung 31.7.06 2-8

Diese Schätzung ist auch linear in Y und somit erwartungstreu für cT Jl

und ihre Varianz ist

Wir wollen jetzt zeigen, daß der MQ-Schätzer der beste Schätzer in einer gewissen

Klasse von erwartungstreuen Schätzern ist. Hierzu definieren wir zunächst, wann

ein erwartungstreuer Schätzer besser ist als ein anderer.

Definition: Sind fi,'(Y) und fi,"(Y) zwei erwartungstreue Schätzer für Jl, d.h.

E (fi,'(Y)) = E (fi,"(Y)) = Jl JL JL

für alle Jl E ~

so heißt fi,'(Y) besser als fi,"(Y), wenn die Varianz jeder Linearkombination von

fi,'(Y) ist nicht größer als die der entsprechenden Linearkombination von fi,"(Y),

d.h. wenn für alle Jl E .At gilt

(12) Var)cTfi,'(Y)) < VarJL(cTfi,"(Y))

cT. Cov JL(fi,'(Y)). c < cT. Cov JL(fi,"(Y)). c

Cov JL(fi,'(Y)) < Cov JL(fi,"(Y)),

für alle cE IRJ ,

für alle cE IRJ,

bzw.

bzw.

wobei die letzte Formulierung eine abkürzende Schreibweise bzw. die Definition einer

Ordnung für positiv-semidefinite Matrizen ist. Der Index Jl in E etc. soll an die fL

Abhängigkeit des jeweiliegen Wertes von Jl erinnern.

Wir zeigen jetzt, daß der MQ-Schätzer fi,(Y) unter allen in Y linearen und erwar­

tungstreuen Schätzern für Jl der beste Schätzer. Oder in englisch: der MQ-Schätzer ist

ein Best Linear Unbiased Estimator (abgekürzt: BLUE):

Gauß-Markov-Theorem: Der MQ-SchätzeKr fi,(Y) ist besser als jeder andere

Schätzer fi,"(Y), der in Y linear, d.h. von der Form

(13) fi,"(Y) = A Y mit einer lxl-Matrix A,

und erwartungstreu für Jl ist, d.h.

(14) E (fi," (Y)) = Jl JL

für jedes Jl E.At.

Ist umgekehrt auch fi,"(Y) besser als fi,(Y), so ist fi,"(Y) bereits der MQ-Schätzer,

d.h. es gilt fi,"(Y) =fi,.(Y).

Page 25: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.3 Residuen und Schätzung der Varianz 31.7.06 2 - 9

2.3 Residuen und Schätzung der Varianz

Nachdem wir bisher nur den Erwartungswert ,U bzw. den Parameter 8 geschätzt ha-

ben, wollen wir uns jetzt der Schätzung der Varianz o2 zuwenden. Den Ausgang-

spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom

geschätzten Erwartungswert fi, der sogenannte Residuenvektor

(I> R = Y - f i = P Al ly (Residuum).

Hierbei bezeichnet AL das orthogonale Komplement des linearen Modellraums A,

und PA, = II - PA ist die orthogonale Projektion auf AL. J

Das Minimum der quadratischen Form SQ(- I Y) auf A läßt sich unterschiedlich

darstellen und wird auch als Deviance (Abweichung, kurz: Dev) oder Residual Sum of

Squares (RSS) für das Modell A bezeichnet:

(2) Dev(A) = 1 1 ~ - f i 1 1 ~ = C(Y.-fi.) 2 (Deviance von 4, j J J

= 1 1 ~ 1 1 ~ T = Y .PAll.Y,

= 1 1 ~ 1 1 ~ - llfi112

= R S S ( 4 (Residual Sum of Squares).

Abb. 2: Darstel luq von Ekobachiuq Y, Erwartuqswert p, Schatzuq fiund Residuum R =Y- fi

2.3 Residuen und Schätzung der Varianz 31.7.06 2-9

2.3 Residuen und Schätzung der Varianz

Nachdem wir bisher nur den Erwartungswert Jl bzw. den Parameter () geschätzt ha­

ben, wollen wir uns jetzt der Schätzung der Varianz 0-2 zuwenden. Den Ausgang­

spunkt der Betrachtungen bildet hierfür die Abweichung der Beobachtung Y vom

geschätzten Erwartungswert 4, der sogenannte Residuenvektor

(1) R=Y-4=Pc4~Y (Residuum) .

Hierbei bezeichnet .At~ das orthogonale Komplement des linearen Modellraums .At,

und P c4 ~ = 11 J- P c4 ist die orthogonale Projektion auf .At~

Das Minimum der quadratischen Form SQ(-I Y) auf .At läßt sich unterschiedlich

darstellen und wird auch als Deviance (Abweichung) kurz: Dev) oder Residual Sum of

Squares (RSS) für das Modell .At bezeichnet:

(2) Dev(.At) = 11 Y - 4112

=IIRI1 2

= IIY11 2 -11411 2

= RSS(.At)

(Deviance von u«))

(Residual Sum of Squares).

.. : . : . : . : . : . : . : . : 0 ~: .. ":"~":" .~ .. ~ ... ~ .. ~ ... ~ ... ~ .. JL~ . .. ~ .. ~ ... ~ ... ~ ... ~ .......... .

""" ".;«"""""""""""""""""""":""""""""""""""""""""""""""""""""""""""""

..................................

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Page 26: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.3 Residuen und Schätzung der Varianz 31.7.06 2- 10

Da das Residuum R = Y - E AL orthogonal zur Differenz P-,U E A ist, ergibt

sich (mit dem ,,Pythagoras'? folgende wichtige Zerlegung

(3) S Q ( , U I Y ) = D ~ V ( ~ + I I P - P I I ~ bzw.

1 1 Y-P 1 1 2 = 1 1 Y-P 1 1 2 + IIP-P112 .

Es ist intuitiv naheliegend die Varianz a2 unter Verwendung der Abweichung

1 1 Y-P 1 1 2 ZU schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen

Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.

Theorem 1 (Erwartungswerte quadratischer Formen)

Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren, und T A sei eine symmetrische 1x1-Matrix. Dann hat die quadratische Form U A U den

Erwartungswert

(4) E( u T A U) = spur(A . COV(U)) + E(U) T . ~ .E(U) , wobei ,,Spur" bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.

Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem

Rang und somit gleich der Dimension des Bildraumes ist:

(5> Spur(PA) = Rang(PA) = Dim (.L&').

Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte

(6) 2

~(lly-,Ull~) = 0 . J ,

(7> E(llfi-,~11~) = a 2 . ~ i m ( & ) ,

[SI ~ ( ~ ~ Y - f i l l ~ ) = E ( ~ e v ( 4 ) = a 2 . F ~ mit

(9> FG = F G ( A ) = ~ i r n ( A ' ) (Freiheitsgrad des Modells A)

= J- Dim(.,$Z).

Wir definieren daher die MQ-Schätzung für a2 durch

2.3 Residuen und Schätzung der Varianz 31.7.06 2-10

Da das Residuum R = Y - (1, E.At~ orthogonal zur Differenz (1,- Jl E.At ist, ergibt

sich (mit dem ,'pythagoras") folgende wichtige Zerlegung

(3) SQ(JlIY) = Dev(.At) + 11(1,-JlI12

IIY-JlI12

= IIY-(1,112+ 11(1,-JlI1

2.

bzw.

Es ist intuitiv naheliegend die Varianz 0-2 unter Verwendung der Abweichung

11 Y - (1, 11 2 zu schätzen. Hierzu wollen wir die Erwartungswerte der quadratischen

Formen in (3) bestimmen und zeigen zuerst das folgende Resultat.

Theorem 1 (Erwartungswerte quadratischer Formen)

Sei U ein I-dimensionaler Zufallsvektor für den E(U) und Cov(U) existieren) und

A sei eine symmetrische lxI-Matrix. Dann hat die quadratische Form U T AU den

Erwartungswert

(4) E(UT AU) = Spur(A. Cov(U)) + E(U)T. A ·E(U) )

wobei )ßpur!! bezeichnet den Spur-Operator für quadratische Matrizen bezeichnet.

Weiter benutzen wir, daß bei einer orthogonaler Projektion die Spur gleich dem

Rang und somit gleich der Dimension des Bildraumes ist:

(5) Spur(P c4) = Rang(P c4) = Dirn (.At).

Mit diesen Vorbereitungen ergeben sich folgende Erwartungswerte

E(IIY - Jl11 2) = 0-2. J ,

E( 11(1,- Jl112

) = 0-2

. Dim(Jt) ,

E( 11 Y - (1, 112

) = E( Dev(.At)) = 0-2

. FG mit

(6)

(7)

(8)

(9) FG = FG(.At) = Dim(.At~) (Freiheitsgrad des Modells .At)

= J - Dim(.At).

Wir definieren daher die MQ-Schätzung für 0-2 durch

(10) Dev(.At)

FG(.At)

Page 27: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.3 Residuen und Schätzung der Varianz 31.7.06 2- 11

die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells & echt

kleiner ist als die Anzahl J der Beobachtungen ist , d.h. wenn gilt

(11> Dirn(&) < J bzw. FG(&) = Dirn(&') > 0

Im Fall D i m ( 4 =J ist fi = Y (weil dann &= IRJ ist) und somit sind Zähler und

Nenner in (10) gleich 0, d.h. 8 ist undefiniert. Wir wollen daher Dirn(&) <J bzw.

&S IRJ immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 8

verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung

stets Dim(~d!) = S gilt. Unter (11) ist die Schätzung 8 ist erwartungstreu

Bevor wir die Varianz der Schätzung 8 2 ( ~ ) bestimmen, notieren wir noch einige

Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null-

vektor

und die Covarianzmatrix des Residuenvektors lautet

Ferner sind das Residuum R und die Schätzung fi unkorreliert zueinander, d.h. es

gilt

Zur Bestimmung der Varianz der Schätzung 82 verwenden wir folgendes Theorem

aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.

2.3 Residuen und Schätzung der Varianz 31.7.06 2 -11

die allerdings nur dann wohldefiniert ist, wenn die Dimension des Modells vft echt

kleiner ist als die Anzahl J der Beobachtungen ist, d.h. wenn gilt

(11) Dim(vft) < J bzw. FG(vft) = Dim(vft~) > 0 .

Im Fall Dim(vft) = J ist (i, = Y (weil dann vft = IR] ist) und somit sind Zähler und

Nenner in (10) gleich 0, d.h. 5 ist undefiniert. Wir wollen daher Dim(vft) <J bzw.

vft:;= IR] immer dann (implizit) voraussetzen, wenn wir die Varianzschätzung 5

verwenden. Man beachte, daß unter der (hier nicht vorausgesetzten) Rangbedingung

stets Dim(Jt) =S gilt. Unter (11) ist die Schätzung 5 ist erwartungstreu

Bevor wir die Varianz der Schätzung 52(y) bestimmen, notieren wir noch einige

Eigenschaften des Residuums. Der Erwartungsvektor des Residuums ist der Null­

vektor

(13) E(R) = 0,

und die Covarianzmatrix des Residuenvektors lautet

Ferner sind das Residuum R und die Schätzung (i, unkorreliert zueinander, d.h. es

gilt

(15) Cov( R, (i,) = 0 .

Zur Bestimmung der Varianz der Schätzung 52 verwenden wir folgendes Theorem

aus Seber (1977, Thm. 1.8), das wir hier nicht beweisen wollen.

Page 28: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.3 Residuen und Schätzung der Varianz 31.7.06 2- 12

Theorem 2 (Varianzen quadratischer Formen)

Sei U = (Ul, ..., UI) ein I-dimensionaler Vektor unabhängiger Zufallsvariablen

U1, ..., UI mit Erwartungswert X = E(U) und gemeinsamen zentralen Momenten

(16) m k = E{[u.-x.]S < oo für k = 2, 3, 4 und i = l , ..., I. 2 2

I Ist A eine symmetrische 1x1-Matrix mit der Diagonalen a = Diag(A) E IR , so gilt:

T (17) Var {U AU} =

T (m4-3mf)~~a112 + 2 m f s p u r ( ~ % ) + 4 m 2 ~ ~ ~ X 1 1 2 + 4 m 3 a AX..

Für die Anwendung des Theorems auf U = Y und A = PA, benötigen wir zusätz-

lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo-

mente bis zur 4. Ordnung:

(HMom4) Y1, ..., YJ haben gleiche zentrale Momente 3. und 4. Ordnung: k

pk:=E{[Yj-131 } < CO für k = 3, 4 und j = 1, ..., J

(Homogenität der zentralen Momente 3. und 4. Ordnung).

Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei

Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich

(18) V - } =

4 2 4 2 T (p4-30 ) 11all + 2 0 Dirn(&') + 402 11~~~1.4 + 4p3 a PA,p

mit a = Di%(PA,), falls (HMom4) gilt.

Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell &nicht korrekt

spezifiziert ist, d.h. auch für pSf &. Wenn jedoch P E & gilt, so verschwinden die

beiden letzten Summanden in (18).

Die Varianz der Schätzung 8 2 ( ~ ) ergibt sich dann mit (18) und

2.3 Residuen und Schätzung der Varianz 31.7.06 2 -12

Theorem 2 (Varianzen quadratischer Formen)

Sei U = (U1, ... , U

1) ein I-dimensionaler Vektor unabhängiger Zujallsvariablen

U1, ... , U

1 mit Erwartungswert >. = E(U) und gemeinsamen zentralen Momenten

(16) mk = E{[U.- >. .l'J. < 00 jür k = 2, 3, 4 und i = 1 , ... ,1. z z

Ist A eine symmetrische lxI-Matrix mit der Diagonalen a = Diag( A) E IRI) so gilt:

(17) Var{UTA U} =

(m4-3m;)llaI12 + 2m;Spur(A2) + 4m211A>'112 + 4m3 a

TA>. ..

Für die Anwendung des Theorems auf U = Y und A = P c4...L benötigen wir zusätz­

lich zur Homogenität (HVar) der Varianzen auch die Homogenität der zentralen Mo­

mente bis zur 4. Ordnung:

(HMom4) Y1, ... , Y

J haben gleiche zentrale Momente 3. und 4. Ordnung:

J-Lk := E{[Y.- J-L·lk } < 00 für k = 3,4 undj = 1, ... ,l

J J (Homogenität der zentralen Momente 3. und 4. Ordnung).

Wir wollen diese Bedingung jedoch nicht generell voraussetzen, sondern sie nur bei

Bedarf explizit erwähnen. Nach diesen Vorbereitungen ergibt sich

(18) Var{IIY-4112} =

(J-L 4 -30"4) 11 al12 + 20"

4 Dim(...4~) + 40"2

11 P c4...LJ-L 112 + 4J-L3 a Tp c4...L J-L

mit a = Diag(Pc4...L), falls (HMom4) gilt.

Man beachte, daß dieses Resultat auch dann gilt, wenn das Modell ...4 nicht korrekt

spezifiziert ist, d.h. auch für J-L t/:..At. Wenn jedoch J-L E...4 gilt, so verschwinden die

beiden letzten Summanden in (18).

Die Varianz der Schätzung a2(y) ergibt sich dann mit (18) und

(19)

Page 29: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.4 Das klassische lineare Modell 31.7.06 2- 13

2.4 Das klassische lineare Modell

Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek-

tor Y vereinbart, sondern nur seinen Erwartungsvektor ,u=E(Y) durch (LM) und

seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)

modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die

Y multivariat normalverteilt ist:

(NVY) Y ist J-dimensional normalverteilt:

-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').

Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan-

nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi-

sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er-

wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege-

ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung-

sannahme (NVY), die man äquivalent zusammenfassen kann zu

(SKLM) 2(Y) = NJ(,u,02nJ) (Stochastischer Teil des KLhl).

Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten

Y1, ..., YJ genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert

sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.

Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander

unabhängig, d.h. (UnAb) gilt.

Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt

auch die Verteilungen der M&-Schätzer angeben können. Die Schätzungen fi und 8 sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach-

tung Y ebenfalls wieder normalverteilt:

(1) 4fi) = ~ J ( , u , o ~ p ~ ) ,

(2) 4 8 ) = NSB, o2 (xTx)-') falls (RB) gilt,

2 (3) J (R)=NJ(o ,o PA,) mit R=Y-fi .

2.4 Das klassische lineare Modell 31.7.06 2-13

2.4 Das klassische lineare Modell

Bisher haben wir keine expliziten Verteilungsannahmen über den Beobachtungsvek­

tor Y vereinbart, sondern nur seinen Erwartungsvektor Jl=E(Y) durch (LM) und

seine Covarianzmatrix Cov(Y) durch die Gauß-Markov-Covarianzstruktur (GMC)

modelliert. Für den Rest dieses Kapitels wollen wir zusätzlich voraussetzen, daß die

Y multivariat normalverteilt ist:

(NVY) Y ist i-dimensional normalverteilt:

L(Y) = NJ

( E(Y) , Cov(Y)) (Normalverteilung von Y).

Das bisherige Gauß-Markov-Modell zusammen mit dieser Normalverteilungsan­

nahme wird das Klassische Lineare Modell (kurz: KLM) genannt. Der deterministi­

sche Teil des klassischen linearen Modells beschreibt also die Modellierung des Er­

wartungswerts durch das lineare Modell (LM), und der stochastische Teil ist gege­

ben durch die Gauß-Markov-Covarianzstruktur (GMC) und die Normalverteilung­

sannahme (NVY), die man äquivalent zusammenfassen kann zu

(SKLM) L(Y) = N jJl, a 2 11) (Stochastischer Teil des KLM).

Man beachte, daß unter der Normalverteilungsannahme (NVY) die Komponenten

Y1, ... , Y

J genau dann stochastisch unabhängig sind, wenn sie paarweise unkorreliert

sind, d.h. die Bedingungen (UnAb) ist äquivalent zu (UnKor), falls (NVY) gilt.

Folglich sind im klassischen linearen Modell die Beobachtungen stets voneinander

unabhängig, d.h. (UnAb) gilt.

Die Einschränkung auf das klassische lineare Modell hat zu Folge, daß wir jetzt

auch die Verteilungen der MQ-Schätzer angeben können. Die Schätzungen {1, und ()

sowie das Residuum R sind als lineare Funktionen der normalverteilten Beobach­

tung Y ebenfalls wieder normalverteilt:

(1)

(2)

(3)

L({1,) = N jJl, a2 P.At) ,

L(()) = Njß,a2(XT Xf1)

L(R) =NjO,a2p.At~)

falls (RB) gilt,

mit R = Y -(1, .

Page 30: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.4 Das klassische lineare Modell 31.7.06 2- 14

2 Für die Deviance bzw. die Schätzung 82 ergibt sich eine umskalierte X -Verteilung

(4) 1 ~ e v ( j l ~ ) = $ 1 1 ~ - f i 1 1 ~ ist xFU-verteilt 2 bzw. D2

FG . 82 = Dev (A) ist a2 .X2 verteilt mit FG-

FG = FG(A) = D i m ( A L ) = J- Dirn(&)

Aus der Unkorreliertheit von Schätzung fi und Residuum R, vgl. 2.3(15), folgt im

klassischen linearen Modell sogar deren stochastzsche Unabhängzlcezt:

(5) fi ist von R - und somit auch von 82 - stochastisch unabhängig.

Man beachte, daß die Schätzungen fi und 82 zwar stochastisch unabhängig sind, aber

dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische

Unabhängigkeit von fi und 82 ist ein zentrales Resultat im klassischen linearen

Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa-

tistiken herleiten lassen.

Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die 2 unbekannten Parameter ,U und a vollständig spezifiziert ist, kann (und sollte) man

die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah-

ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li-

kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe-

kannten Parameter:

2 Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von ,U, a ist definiert

als Maximalstelle des Likelihoods L(,u, a2 IY) bzw. des Kerns des Log-Likelihoods

bzgl. ,U EA und a2> 0.

2 Die Maximierung von [ bzgl. ,U entspricht (unabhängig von a ) genau der Minimie-

rung von llY-,~11~, und folglich stimmt die ML-Schätzung des Erwartungswert ,U

mit der MQ-Schätzung überein:

2.4 Das klassische lineare Modell 31.7.06 2-14

Für die Deviance bzw. die Schätzung 0-2 ergibt sich eine umskalierte X2 -Verteilung

(4) ist X~G-verteilt bzw.

. 2 2 ·1 1st 17 . xFG

-vertel t mit

FG = FG(vft) = Dim(vft~) = J - Dim(vft)

Aus der Unkorreliertheit von Schätzung (i, und Residuum R, vgl. 2.3(15), folgt im

klassischen linearen Modell sogar deren stochastische Unabhängikeit:

(5) (i, ist von R - und somit auch von 0-2 - stochastisch unabhängig.

Man beachte, daß die Schätzungen (i, und 0-2 zwar stochastisch unabhängig sind, aber

dennoch beide funktional von der Beobachtung Y abhängen. Die stochastische

Unabhängigkeit von (i, und 0-2 ist ein zentrales Resultat im klassischen linearen

Modell, aus dem sich später (in 2.5-6) relativ einfach die Verteilungen von Teststa­

tistiken herleiten lassen.

Da im klassischen linearen Modell die Verteilung der Beobachtung Y bis auf die

unbekannten Parameter Jl und 172 vollständig spezifiziert ist, kann (und sollte) man

die Parameter nach der Maximum-Likelihood-Methode schätzen, weil dieses Verfah­

ren in mehrerer Hinsicht optimal ist. Ausgangspunkt ist hierbei das sogenannte Li­

kelihood, d.h. die Dichte der Beobachtung Y, aufgefaßt als eine Funktion der unbe­

kannten Parameter:

(6)

Die Maximum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, 172 ist definiert

als Maximalstelle des Likelihoods L(Jl, 172 IY) bzw. des Kerns des Log-Likelihoods

(7) e(Jl, a21Y) = - ~ [J . log 172 + :JY -Jl11 2 ]

bzgl. JlEvft und 172>0.

Die Maximierung von e bzgl. Jl entspricht (unabhängig von (72

) genau der Minimie­

rung von IIY - Jl11 2, und folglich stimmt die ML-Schätzung des Erwartungswert Jl

mit der MQ-Schätzung überein:

Page 31: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.4 Das klassische lineare Modell 31.7.06 2 - 15

Aber die ML-Schätzung für die Varianz a2 (die man durch Differenzieren von 2 nach a erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor < 1

(9) - 2 1 2 FG - 2 - 2 0 = JIIY-fiII = 7 . 0 < 0 .

Die ML-Schätzung 62 ist also nicht erwartungstreu für a2, und man kann die MQ-

Schätzung 82 als erzuartungstreue Korrektur der ML-Schätzung auffassen.

Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für ,U erweist

sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli-

hood-Methode.

2.4 Das klassische lineare Modell 31.7.06 2 -15

Aber die ML-Schätzung für die Varianz a 2 (die man durch Differenzieren von e nach a 2 erhält) unterscheidet sich von der MQ-Schätzung um einen Faktor< 1

(9) ~ 2 _ 1 IIY -11 2 _ FG A2 < A2 a- J -Jl -T· a a.

Die ML-Schätzung 0-2 ist also nicht erwartungstreu für a 2, und man kann die MQ­

Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.

Die geometrisch motiviert Schätzmethode der Minimalen Quadrate für Jl erweist

sich also bei normalverteilten Beobachtungen als äquivalent zur Maximum-Likeli­

hood-Methode.

Page 32: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 16

2.5 Tests für Linearkombinationen des Parameters

Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt

in der Lage, Hypothesen über den Parametervektor 8 zu testen. Da dies nur sinnvoll

ist, wenn der Parameter 8 eindeutig bestimmt ist, wollen wir in diesem Abschnitt

generell die Rangbedingung (RB) voraussetzen.

2.5.1 Testen einzelner Komponenten des Parameters

In konkreten Anwendungen sind die einzelnen Komponenten von 8 interpretierbare

Größen und für eine feste Komponente 1 < - s <S - sind Hypothesen über den zur Co-

variablenkomponente X gehörigen Parameter 8 von Interesse. Insbesondere inte- S S

ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable xs keinen

Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das

Testproblem

Nullhypothese: I9 = 0 (Covariable X hat keinen Einflug) VS. S S

Alternative: I9 r 0 (Covariable X hat Einflug). S S

Etwas allgemeiner ist der Fall, daß man den Parameter Bs mit einem beliebigen fest

vorgegebenen Referenzwert $0 E IR vergleichen will mit den Hypothesen

(1) Nullhypothese H-: 8 = 8 VS. s so

Alternative Hz: I9 r BSo . S

Statt der zweiseitigen Alternative Hz können auch die einseitigen Alternativen von

Interesse sein mit den Hypothesen

(2) Nullhypothese H,: QS 5 Bs0 VS. Alternative H>: 5 > BSo , -

Nullhypothese H>: QS > BSo VS. Alternative H<: 5 < $0 . -

Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von I9 be- S

trachten, d.h. die s-te Komponente ds der Parameter-Schätzung 8. Diese Schätzung

ist eindimensional normalverteilt

(3) 4 4 s = N1 (Ps, 0;) mit o2 s = o2 [(xTx)-l] ss und

T -1 T T -le [(X X) Iss = es (X X) s

T -1 s-tes Diagonalelement von (X X) .

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-16

2.5 Tests für Linearkombinationen des Parameters

Nachdem wir die Verteilungen der MQ-Schätzungen bestimmt haben, sind wir jetzt

in der Lage, Hypothesen über den Parametervektor () zu testen. Da dies nur sinnvoll

ist, wenn der Parameter () eindeutig bestimmt ist, wollen wir in diesem Abschnitt

generell die Rangbedingung (RB) voraussetzen.

2.5.1 Testen einzelner Komponenten des Parameters

In konkreten Anwendungen sind die einzelnen Komponenten von () interpretierbare

Größen und für eine feste Komponente 1 < s < S sind Hypothesen über den zur Co­

variablenkomponente x gehörigen Parameter () von Interesse. Insbesondere inte-8 8

ressiert hierbei, ob dieser Wert gleich Null ist (und somit die Covariable x keinen 8

Einfluß auf den Erwartungswert der Zielvariablen hat), d.h man betrachtet das

Testproblem

Nullhypothese: () = 0 (Covariable x hat keinen Einfluß) vs. 8 8

Alternative: () ;= 0 (Covariable x hat Einfluß). 8 8

Etwas allgemeiner ist der Fall, daß man den Parameter () mit einem beliebigen fest 8

vorgegebenen Referenzwert () 80 E IR vergleichen will mit den Hypothesen

(1) vs. Alternative H : () ;= () 0 . :;z':: 8 8

Statt der zweiseitigen Alternative H können auch die einseitigen Alternativen von :;z'::

Interesse sein mit den Hypothesen

(2) Nullhypothese H<: ()8 < ()80

Nullhypothese H>: ()8 2:: ()80

vs.

vs. Alternative H <: () 8 < () 80 .

Zur Überprüfung dieser Hypothesen wird man zunächst die Schätzung von () be-8

trachten, d.h. die s-te Komponente B der Parameter-Schätzung B. Diese Schätzung 8

ist eindimensional normalverteilt

(3) A 2 L(() ) = N

1(() ,17 )

8 8 8 mit und

s-tes Diagonalelement von (X T X) -1.

Page 33: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 17

4 ist stochastisch unabhängig von der Varianz-Schätzung 82. Es ist naheliegend, die S

standardisierte Abweichung der Schätzung dS vom Referenzwert Bso als Teststatistik

zu verwenden:

(4) T = 8s - O s 0 mit 82 s = 2 [(xTx)-l] SS'

6 s

Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung

(5) J 0 1 = tFG(y) mit

Y = 8s - O s 0 und FG = F G ( A ) = J-S.

0 s

Die Nichtzentralität y ist ein Maß für die Abweichung von der Nullhypothese H-, die -

sich äquivalent schreiben läßt als H P : y = 0. Man beachte, daß sich y von T nur da- -

durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.

Insbesondere ist die Teststatistik T unter der Nullhypothese H- daher @entral) -

tFG-verteilt. Da groj3e Werte von I T I eher für die zweiseitige Alternative Hz als für

die Nullhypothese H- sprechen, wird man H- zugunsten dieser Alternative ableh- - -

nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:

(6) Zweiseitiger t-Test von H vs. H zum Niveau a: - f

Ablehnung von H- -

U I T l 2 t„,:7

U 2@, I T I ) < a. FG

Hierbei ist @ die Verteilungsfunktion der zentralen tFG-Verteilung. Für den be- ,FG

obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit

L @ , (-ltl) = P{ lt„ I2 l t l ) FG

auch als zweiseitiger P-Wert oder zweiseitiges Signifikanzniveau des beobachteten Test-

werts t oder als P-Wert bzw. P-Level bezeichnet . Folglich lehnt der Test die Nullhy-

pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das

Testniveau a.

Durch analoge Überlegungen ergeben sich die einseitigen Tests:

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-17

e ist stochastisch unabhängig von der Varianz-Schätzung 52. Es ist naheliegend, die s

standardisierte Abweichung der Schätzung e vom Referenzwert e 0 als Teststatistik s s

zu verwenden:

(4) mit

Die Verteilung der Teststatistik ist eine nichtzentrale t-Verteilung

(5) mit

und FG = FG(vft) = J-5.

Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese H_, die

sich äquivalent schreiben läßt als H _: '"Y = o. Man beachte, daß sich '"Y von T nur da­

durch unterscheidet, daß es die wahren Parameter statt deren Schätzungen enthält.

Insbesondere ist die Teststatistik T unter der Nullhypothese H_ daher (zentraV

tFG-verteilt. Da große Werte von I T I eher für die zweiseitige Alternative H:;zt. als für

die Nullhypothese H_ sprechen, wird man H_ zugunsten dieser Alternative ableh-- -

nen, wenn I T leinen kritischen Wert übersteigt. Dies führt auf folgenden Test:

(6) Zweiseitiger t-Test von H = vs. H:;zt. zum Niveau a:

Ablehnung von H_ ITI > tFG 9" , 2

2 Pt ( -I TI) < a. FG

Hierbei ist Pt die Verteilungsfunktion der zentralen tFG-Verteilung. Für den be­FG

obachteten Testwert t (als Realisierung von T) wird die Wahrscheinlichkeit

2 Pt ( -I t I) = P { I t FG I > I tl } FG

auch als zweiseitiger P-Wert oder zweiseitiges SigniJikanzniveau des beobachteten Test­

werts t oder als P-Wert bzw. P-Level bezeichnet. Folglich lehnt der Test die Nullhy­

pothese ab, wenn das Signifikanzniveau der Beobachtung nicht größer ist als das

Testniveau a.

Durch analoge Überlegungen ergeben sich die einseitigen Tests:

Page 34: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tes ts für Linearkombinationen des Parameters 31.7.06 2 - 18

(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -

Ablehnung von H< U - T t ~ ~ , a

U m (-T) 5 C)L. t~~

(8) Einseitiger t-Test von H> vs. H< zum Niveau u: -

Ablehnung von H> U T <-tFGla , -

U ( T ) < u . FG

Für den beobachteten Testwert t wird die Wahrscheinlichkeit

G (Pt) = P { tFG > t ) ~ Z W . (t) = p { t F G < t ) t~~ t~~

wieder als einseitiges Signifikanzniveau des beobachteten Testwerts t oder als P-Wert

bzw. P-Level bezeichnet.

2 Unter Verwendung der Darstellung von tn = F als F-Verteilung (vgl. Exkurs V l1n

3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test

(9) Zweiseitiger F-Test von H vs. H zum Niveau a: - f

Ablehnung von H- U 2 T Fi, FG, a.

einseitiger Test Testentscheidung für

zweiseitiger Test Testentscheidung für

0 t FG, a

Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ableh- nungsbereichen des Tests.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-18

(7) Einseitiger t-Test von H< vs. H> zum Niveau a:

Ablehnung von H<

P (-T) < a· tFG

(8) Einseitiger t-Test von H> vs. H< zum Niveau a:

Ablehnung von H>

Für den beobachteten Testwert t wird die Wahrscheinlichkeit

bzw.

wieder als einseitiges SigniJikanzniveau des beobachteten Testwerts t oder als P-Wert

bzw. P-Level bezeichnet.

Unter Verwendung der Darstellung von t2 = Fl

als F-Verteilung (vgl. Exkurs V n ,n

3.1) ergibt sich eine äquivalente Darstellung des zweiseitigen t-Tests als F-Test

(9) Zweiseitiger F-Test von H= vs. H:;z::. zum Niveau a:

Ablehnung von H_

einseitiger Test Testentscheidung für

zweiseitiger Test Testentscheidung für

H< H> H H H :;z::. = :;z::.

l-a Q

2 l-a

o tpG -tpG 0 0 +tpG 0 ,Q '2'2

Q

2

Abb. 1: Dichte der Teststatistik T des t-Tests unter der Nullhypothese mit den Ableh­nungsbereichen des Tests.

Page 35: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 19

Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die

Parameter-Komponente I9 herleiten. Die einseitige untere bzw. obere Konfidenzgrenzen S

für I9 zum Niveau ci! ergibt sich zu S

(10) 4 - A (untere Grenze) S

bzw. 4 + A (obere Grenze) S

mit ~ = a . t ~ ~ , a .

2.5.2 Testen von Linearkombinationen des Parameters

Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para- T S metervektors B betrachten wir jetzt eine feste Linearkombination C B für C E R mit

C r 0, die wir mit einem fest vorgegeben Referenzwert c E R (etwa c = 0) verglei- 0 0

chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind

T (1) Nullhypothese H-: C B = c VS. T

0 Alternative Hz: C B r co ,

T (2) Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .

-

T T Das andere einseitige Testproblem H>: C B 5 co vs. H<: C B < co brauchen wir nicht -

extra zu behandeln, weil es sich aus (2) durch den Übergang von C auf - C ergibt.

Speziell mit C = es als s-tem Einheitsvektor und co = $0 ergibt sich das bisherige

Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei-

spiel läßt sich die Gleicheit I9 = I9 zweier Parameterkomponenten mit C = e -e s t s t

und co = 0 als Nullhypothese der Form H darstellen.

Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination T T A

C B durch die zugehörige Linearkombination C 8 der Parameterschätzung, die ein-

dimensional normalverteilt

(3) q c T d ) = N , ( C ~ B , 02) c mit D 2 = D c C ( X x ) - ~ c > o 2 T T

und stochastisch unabhängig von der Varianz-Schätzung a2 ist. Als Teststatistik ver-

wendet man wieder die standardisierte Abweichung der Schätzung cTd vom Refe-

renzwert c 0

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2-19

Aus der Verteilung der Teststatistik T lassen sich auch Konfidenzgrenzen für die

Parameter-Komponente B herleiten. Die einseitige untere bzw. obere KonJidenzgrenzen s

Jür B zum Niveau a ergibt sich zu s

(10) e - L1 (untere Grenze) s

bzw. e + L1 (obere Grenze) s

mit L1 = 0- . tpG . s ,a

2.5.2 Testen von Linearkombinationen des Parameters

Als Verallgemeinerung der Hypothesen über eine einzelne Komponente des Para­

metervektors () betrachten wir jetzt eine feste Linearkombination cT () für cE IRS mit

c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa Co = 0) verglei­

chen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme sind

(1)

(2)

T Nullhypothese H=: c () = Co

T Nullhypothese H<: c () < Co

vs.

vs.

Alternative H:;zt.: cT () :;= Co '

Alternative H>: cT () > co.

Das andere einseitige Testproblem H >: cT () < Co vs. H <: cT () < Co brauchen wir nicht

extra zu behandeln, weil es sich aus (2) durch den Übergang von c auf - cergibt.

Speziell mit c = es als s-tem Einheitsvektor und Co = Bso ergibt sich das bisherige

Testproblem aus 2.5.1 mit den dortigen Hypothesen (1) und (2). Als weiteres Bei­

spiel läßt sich die Gleicheit Bs=Bt zweier Parameterkomponenten mit c=es -et

und Co = 0 als Nullhypothese der Form H= darstellen.

Zur Überprüfung der Hypothesen schätzern wir zunächst die Linearkombination

cT () durch die zugehörige Linearkombination cT e der Parameterschätzung, die ein­

dimensional normalverteilt

(3) mit

und stochastisch unabhängig von der Varianz-Schätzung 0-2 ist. Als Teststatistik ver­

wendet man wieder die standardisierte Abweichung der Schätzung cT e vom Refe­

renzwert Co

Page 36: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 20

T A e - C o mit n 2 T T (4) T = e 2 = o C (X X)-%.

C C

Und die Teststatistik besitzt eine nichtzentrale t-Verteilung

(5) J(T) = tFG(y) mit

T 7 = und FG = F G ( A ) = J-S.

gc

Die Nichtzentralität y (man beachte wieder die formale Ähnlichkeit zu S) ist ein T Maß für die Abweichung der Linearkombination C B vom Referenzwert co und die

Hypothesen lassen sich äquivalent formulieren als

(1)' Nullhypothese H-: - y = 0 VS. Alternative Hz: y t 0 ,

(2)' Nullhypothese H<: y 5 0 VS. Alternative H>: y > 0 . -

Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie

zuvor in 2.5.1:

(6) Zweiseitiger t-Test von H vs. Hz zum Niveau u: -

Ablehnung von H- P U I TI 2 tFG,; 7

U 2@, I T I ) i FG

(7) Einseitiger t-Test von H< vs. H> zum Niveau u: -

Ablehnung von H< U - T 2 t ~ ~ , o r

U @ (-T) 5 u. ,FG

T Einseitige untere bzw. obere Konfidenzgrenzen für C B zum Niveau u lassen sich eben-

falls wieder aus der Verteilung der Teststatistik herleiten:

(8) cTd - A (untere Grenze) bzw. cTd + A (obere Grenze)

mit A = & . C t ~ ~ , a .

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 20

(4) mit A2 A2 T(XTX)-l 17 =17 C c. c

Und die Teststatistik besitzt eine nichtzentrale t-Verteilung

(5) mit

und FG = FG(JIf) = J-5.

Die Nichtzentralität '"Y (man beachte wieder die formale Ähnlichkeit zu T) ist ein

Maß für die Abweichung der Linearkombination cT () vom Referenzwert Co und die

Hypothesen lassen sich äquivalent formulieren als

(1) I

(2) I

Nullhypothese H_: '"Y = 0

Nullhypothese H<: '"Y < 0

vs.

vs.

Alternative H : '"Y :;= 0 , :;z:

Alternative H>: '"Y > o.

Aus der Verteilung (5) der Teststatistik T ergeben sich formal dieselben t-Tests wie

zuvor in 2.5.1:

(6) Zweiseitiger t-Test von H= vs. H:;z: zum Niveau a:

Ablehnung von H_ ITI > tFG 9" , 2

2 Pt ( -I TI) < a. FG

(7) Einseitiger t-Test von H< vs. H> zum Niveau a:

Ablehnung von H<

P (-T) < a· tFG

Einseitige untere bzw. obere Konjidenzgrenzen jür cT () zum Niveau a lassen sich eben­

falls wieder aus der Verteilung der Teststatistik herleiten:

(8) TA

C () - L1 (untere Grenze) bzw. cT () + L1 (obere Grenze)

mit L1 = a . tFG

. C ,a

Page 37: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 21

2.5.3 Schärfe der Tests

Die Schärfe (oder Güte, engl.: Power) eines Tests ist definiert als die Wahrscheinlich-

keit für die Ablehnung der Nullhypothese:

(I> Schärfe = Power = P{ Test lehnt die Nullhypothese ab } bzw.

(2) 1 - Schärfe = 1 - Power = P{ Test lehnt die Nullhypothese nicht ab } .

Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (f" ur eine

falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre

Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).

Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität y, dem Test-

niveau a und dem Freiheitsgrad FG wie folgt ab:

(3) (Schärfe: einseitig)

= 1 - ( t ) tFG(7) FG, a

ist streng monoton wachsend sowohl in y als auch in a.

Dabei ist @ die Verteilungsfunktion der nichtzentralen tFG(y)-Verteilung Die t ~ ~ ( 7 )

Funktion Powl(-,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.

Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der

Nullhypothese H< -

(4) a = POW~(O, a) = sup POW (y, a) 7 5 0 1

Und als Grenzwerte für y + f CO ergeben sich aus (3)

(5) POW 1 (- CO,^) = 0, POW 1 (+ CO,^) = I.

Die Schärfe des zweiseitigen t-Test hängt nur über 1 y I von y ab und läßt sich wie

folgt darstellen:

(6) Pow2(y,a) )= P o w l ( l ~ l i ~ ) + P o w l ( - l ~ l i ~ ) (Schärfe: zweiseitig).

Nach (3) ist der erste Summand ist streng wachsend in 1 yl und größer als der

zweite Summand, der streng fallend in 1 y 1 ist und nach (5) sogar für 1 y 1 + CO gegen

0 konvergiert. Folglich läßt sich die Summe für nicht zu geringes 1 y 1 durch den er-

sten Summanden approximieren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 21

2.5.3 Schärfe der Tests

Die Schärfe (oder Güte! engl.: Power) eines Tests ist definiert als die Wahrscheinlich­

keit für die Ablehnung der Nullhypothese:

(1) Schärfe Power P { Test lehnt die Nullhypothese ab } bzw.

(2) 1 - Schärfe 1- Power P { Test lehnt die Nullhypothese nicht ab } .

Unter der Nullhypothese beschreibt die Schärfe also das Fehlerrisiko 1. Art (für eine

falsch-positive Entscheidung), und unter der Alternativen ist die komplementäre

Schärfe (2) gerade das Fehlerrisiko 2. Art (für eine falsch-negative Entscheidung).

Beim einseitigen t-Test hängt die Testschärfe von der Nichtzentralität "f, dem Test­

niveau a und dem Freiheitsgrad FG wie folgt ab:

(3) (Schärfe: einseitig)

ist streng monoton wachsend sowohl in "f als auch in a.

Dabei ist P tFG(-y) die Verteilungsfunktion der nichtzentralen tpG("{)-Verteilung. Die

Funktion Pow1( -,a) wird auch als Gütefunktion des einseitigen Tests bezeichnet.

Speziell ergibt sich das Testniveau a als maximales Fehlerrisiko 1. Art unter der

Nullhypothese H<

(4) a = Pow1 (O,a) = sup Pow

1 (,,{,a)

1'::;0

Und als Grenzwerte für "f ---+ ± 00 ergeben sich aus (3)

(5) Pow1 (-oo,a) = 0, Pow

1 (+ oo,a) = 1.

Die Schärfe des zweiseitigen t-Test hängt nur über l"f I von "f ab und läßt sich wie

folgt darstellen:

(6) (Schärfe: zweiseitig).

Nach (3) ist der erste Summand ist streng wachsend in h 1 und größer als der

zweite Summand, der streng fallend in 1 "f 1 ist und nach (5) sogar für 1 "f 1---+ 00 gegen

° konvergiert. Folglich läßt sich die Summe für nicht zu geringes I "f I durch den er­

sten Summanden approximieren

Page 38: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 22

(7) PowZ (7, a) Powl ( 17 1 , :), falls 1 y I „nicht zu gering" ,

wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein-

seitigen Tests zum halben Niveau.

Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe

2 (7) Pow2 (Y, a) = P{ F1, FG(y F1, FG, )J

= 1 - @ (F FllFG(r2) l ,FG,a 1

2 ist streng wachsend sowohl in a als auch in ly I bzw. y ,

mit @ 2 als Verteilungsfunktion von F1,FG(Y ). Fll FG(r2)

Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy-

pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man

durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die

Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von y be-

stimmen, da ja das wahre y unbekannt ist. Eine solche Schärfebetrachtung sollte

eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli-

chen Mindeststichprobenumfang J erfolgt sein.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 22

(7) falls 1 '"Y 1 "nicht zu gering" ,

wobei die Approximation für wachsendes I '"Y I immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test ungefähr (und mindestens) der des ein­

seitigen Tests zum halben Niveau.

Interpretiert man den zweiseitigen t-Test als F-Test, so ergibt sich für die Schärfe

(7)

ist streng wachsend sowohl in a als auch in I'"Y 1 bzw. '"Y 2,

mit Pp (2) als Verteilungsfunktion von Fl

PG(2). 1,FG'"Y ,

Wenn bei einem konkreten Datensatz der (ein- oder zweiseitige) t-Test die Nullhy­

pothese nicht abgelehnt hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man

durch Schärfebetrachtungen quantifizieren sollte. Hierzu kann man einerseits die

Schärfe für verschiedene hypothetische (und praktisch relevante) Werte von '"Y be­

stimmen, da ja das wahre '"Y unbekannt ist. Eine solche Schärfebetrachtung sollte

eigentlich schon im Rahmen einer Versuchsplanung zur Bestimmung des erforderli­

chen Mindeststichprobenumfang J erfolgt sein.

Page 39: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 23

Abb. 2: Die Schärfe Powl(yp) des einseitigen t-Test als Funktion der Nichtzentra- lität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 23

1.0

0,9

0,8 FG= 16

0,7

0,6 0,5 a= 10% 5% 1%

0,4

0,3

0,2

O'~l 0 1 2 3 4 5 r

1.0

0,9 a=5% 0,8

0,7

0,6 0,5 FG= 16 4 2

0,4

0,3

0,2

0,1

o'~l 0 1 2 3 4 5 r

Abb.2: Die Schärfe Pow 1 ('Y,a) des einseitigen t-Test als Funktion der Nichtzentra-lität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.

Page 40: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2 - 24

Abb. 3: Die Schärfe Pow2(y,u) des zweiseitigen t-Test als Funktion der Nichtzen- tralität y für verschiedene Testniveaus ci! und Freiheitsgrade FG.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 24

0,9

0,8 FG= 16

0,7

0,6 0,5 a = 10%

0,4

0,3

0,2

o,q~--- -4 -3 -2 -1 o 1 2 3 4 5 r

1.0

a=5%

0,5 FG= 16 2

0,4

0,3

0,2

0,1

o,q5 -4 -3 -2 -1 0 1 2 3 4 5 r Abb. 3: Die Schärfe Pow 2 ( 'Y,a) des zweiseitigen t-Test als Funktion der Nichtzen­

tralität 'Y für verschiedene Testniveaus a und Freiheitsgrade FG.

Page 41: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 25

Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für ci! = 5% und FG = 16.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 25

1.0 Powly,a) Pow1h', a) 0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2

0,1

0'~5 -4 -3 -2 -1 2 3 4 5 r

1.0 Powly,a)

0,9

0,8

0,7

0,6

0,5

0,4

0,3

0,2 0,1 Pow1h', ~)

0'~5 -4 -3 -2 -1 0 1 2 3 4 5 r

Abb. 4: Schärfevergleich des zweiseitigen mit dem einseitigen t-Tests zum gleichen (Bild oben) bzw. halben Niveau (Bild unten) für a = 5% und FG = 16.

Page 42: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 26

2.5.4 Lineare Regression mit einer Variablen

Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über 19, sind hier wie

folgt interpretierbar:

H-: B, = 0 (Die Covariable X hat keinen Einfluß)

H,: 8, > 0 (Die Covariable X hat einen positiven Einfluß)

H,: 8, < 0 (Die Covariable X hat einen negativen Einfluß)

Hz: 19, r 0 (Die Covariable X hat einen Einfluß) .

Die Deviance von A u n d die Schätzung 82 ergeben sich zu

1 = S W - ~ , . S ~ Y = m - - ( s x q 2 sxx

(2) 8 2 - -

D e v ( A ) (Streuung der Y- Werte um die Regressionsgerade) .

J- 2

Und die Teststatistik aus 2.5.1 mit s= 2 und Bzo = 0 ergibt sich zu

Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet

Die Nichtzentralität 7 und damit die Schärfe P O W ~ ( ~ , u) wächst bei steigender 2 Streuung Sxx der X-Werte und fällt bei wachsender Varianz a der Y-Werte.

Die Prognose auf den Erwartungswert für einen „neuenn Covriablenwert X EIR ist 0

gegeben durch den Funktionswert

(5) T f (xJ = Bl+B2x0 = coB mit C T = (1 X ) .

0 0 A A

Die Schätzung f(xO) :=B1+ BzxO hierfür ist normalverteilt

(6) ~ ( f ( x J ) = N(f (x0), a2(x0)) mit

2 Diese Varianz a (X ) ist einerseits proportional zur Varianz a2 der Beobachtungen 0

und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 26

2.5.4 Lineare Regression mit einer Variablen

Wir knüpfen direkt an den Abschnitt 2.1.1 an. Die Hypothesen über e2

sind hier wie

folgt interpretierbar:

H=:e2 =0

H>: e2 > 0

H<: e2 < 0

H:;zt.: e2

:;=0

(Die Covariable x hat keinen Einfluß)

(Die Covariable x hat einen positiven Einfluß)

(Die Covariable x hat einen negativen Einfluß)

(Die Covariable x hat einen Einfluß) .

Die Deviance von vft und die Schätzung 0-2 ergeben sich zu

(1)

(2)

Dev(vft) (

A A )2 ~ Yj - (e 1 + e 2 x) ]

A 1 ( 2 Syy - e ·SxY = SYY -- SxY) 2 Sxx

Dev(vft) J-2

(Streuung der Y-Werte um die Regressionsgerade).

Und die Teststatistik aus 2.5.1 mit s = 2 und e 20 = 0 ergibt sich zu

A JSxx (3) T = e2 0-2 .

Die für die Testschärfe wichtige Nichtzentralität aus (5) lautet

(4) 'Y = e2 JS~~ .

Die Nichtzentralität 'Y und damit die Schärfe Pow 1 ('Y, a) wächst bei steigender

Streuung Sxx der x-Werte und fällt bei wachsender Varianz 0-2 der Y-Werte.

Die Prognose auf den Erwartungswert für einen "neuen" Covriablenwert Xo E IR ist

gegeben durch den Funktionswert

(5)

(6) mit

(7) 2 0-

2 [

0- (xJ = J. 1 +

Diese Varianz 0-2(xO

) ist einerseits proportional zur Varianz 0-2 der Beobachtungen

und umgekehrt proportional zu der Anzahl J der Beobachtungen und hängt ande-

Page 43: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 27

rerseits vom zweiten Summanden der Klammer [ ...I in (7) ab. Dieser Summand

wächst mit dem Abstand I x o - ~ l und fällt bei steigender mittlerer Streuung (empiri-

scher Varianz) I S x x der X-Werte. J

Die einseitige obere bzw. untere Konfidenzgrenze für ,L zum Niveau a ist 0

(8) f U (xJ = f (xJ - A,(xo) bzw. fo(xJ = f (.J + A,(xo) mit

Die „Abweichungn A,(xo) hängt neben a noch ab von der Streuung 82 der Be-

obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur-

zel, der bereits oben erläutert wurde.

2.5 Tests für Linearkombinationen des Parameters 31.7.06 2- 27

rerseits vom zweiten Summanden der Klammer [ ... ] in (7) ab. Dieser Summand

wächst mit dem Abstand Ixo -xl und fällt bei steigender mittlerer Streuung (empiri­

scher Varianz) } Sxx der x-Werte.

Die einseitige obere bzw. untere Konfidenzgrenze für /-La zum Niveau a ist

(9) A J [ 1 (xo _x)2]

~ (xo) = tJ_

2 . a . - + .

Q ,Q J Sxx

Die "Abweichung" L1a (xo) hängt neben a noch ab von der Streuung 0-2 der Be­

obachtungen um die geschätzte Gerade und von dem Ausdruck [ ... ] unter der Wur­

zel, der bereits oben erläutert wurde.

Page 44: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 28

2.6 Testen von linearen Hypothesen

2.6.1 Herleitung des F-Tests

Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei

Kriterien zu beachten:

• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut be­schreiben,

• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbe­kannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.

Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:

bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme

weiterer Modellparameter wird die Anpassung besser.

Für das vollständige Modell vft= lRJ ergibt sich z.B. eine perfekte Anpassung weil

(J, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht

mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft= {O} zwar

den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung

(J, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem

schlecht.

Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge­

langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch

weiter vereinfachen läßt zu einem echten Untermodell vftoC vft, ohne daß dabei die

Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem

mit den linearen Hypothesen

(LH) Nullhypothese: (Untermodell vfto gilt) ,

Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).

Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell

vfto

betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser

geeignet ist.

In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-

2.6 Testen von linearen Hypothesen 5.5.10 2- 28

2.6 Testen von linearen Hypothesen

2.6.1 Herleitung des F-Tests

Bei der Auswahl eines geeigneten Modells für beobachtete Daten sind generell zwei

Kriterien zu beachten:

• die Modell-Anpassung: das Modell soll die Bebachtungen möglichst gut be­schreiben,

• die Einfachheit (Sparsamkeit) des Modells: das Modell soll möglichst wenig unbe­kannte Parameter bzw. einen möglichst großen Freiheitsgrad haben.

Leider beeinflussen sich Anpassung und Einfachheit in entgegegesetzter Richtung:

bei Vereinfachung des Modells wird die Anpassung schlechter bzw. bei Hinzunahme

weiterer Modellparameter wird die Anpassung besser.

Für das vollständige Modell vft = lRJ ergibt sich z.B. eine perfekte Anpassung weil

(i, = Y gilt, aber sein Freiheitgrad ist FG(lRJ ) = 0, und folglich läßt sich 0-2 nicht

mehr schätzen. Auf der anderen Seite hat das nulldimensionale Modell vft = {O} zwar

den maximal möglichen Freiheitsgrad FG({O})=J, aber dafür ist die Schätzung

(i, = 0 völlig unabhängig von der Beobachtung Y und somit die Anpassung extrem

schlecht.

Um zu einem sinnvollen Komprorniß zwischen Anpassung und Einfachheit zu ge­

langen, will man oft überprüfen, ob sich ein bisher betrachtetes Modell vft noch

weiter vereinfachen läßt zu einem echten Untermodell vfto c vft, ohne daß dabei die

Anpassung wesentlich schlechter wird. Dies führt uns auf das lineare Testproblem

mit den linearen Hypothesen

(LH) Nullhypothese: (Untermodell vfto gilt) ,

Alternative: H: Jlt1.vfto' JlEvft (Untermodell vfto gilt nicht ).

Dieses Problem ist auch aus umgekehrter Sicht sinnvoll: man hat bereits ein Modell

vfto

betrachtet, und will wissen, ob ein umfassenderes Obermodell vft::::> vfto besser

geeignet ist.

In der Praxis wird das Modell vft von den Spalten der Covariablen-Matrix X er-

Page 45: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 29

zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen

mehrerer Spalten in X) eine reduzierte Jx50-Matrix XO

' deren Spalten das Unter­

modell .AtO

erzeugen. Ist umgekehrt das Modell .AtO

durch eine Covariablen-Matrix

X ogegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu­

fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende

Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,

und die Spalten von X oerzeugen den Teilraum .AtO

.

Für die Behandlung des Testproblems müssen wir generell folgendes über die Di­

mensionen bzw. Freiheitsgrade der Modelle voraussetzen:

(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J

o < FG(.At) = (J-5) < FG(.Ato) = (J-5J .

bzw.

Neben der MQ-Schätzung 4 von !-L für das Modell .At ist jetzt auch die MQ-Schät­

zung 40 von !-L für das Modell .Ato(d.h. unter der Nullhypothese HJ von Interesse:

Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = pc4Y abhängt. Da

Y- 4 im orthogonalen Komplement .Atl.- von .At liegt und somit zu 4-40E.At or­

thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO

wie folgt

zerlegen (vgl. Abb. 1)

(2) IIY-40 11 2

Dev(.Ato) Dev (.At) + L,Dev mit

Intuitiv wird man HO ablehnen, falls in dieser Aufteilung die Abweichung 114- 40 11 2

der Schätzung 4 vom Untermodell .AtO

deutlich größer ist als die Abweichung

IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan­

gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell

d.h. unter Normalverteilungsannahme (NVY). Danngilt

2.6 Testen von linearen Hypothesen 5.5.10 2- 29

zeugt, und man erhält durch Weglassen einzelner Covariabeln (d.h. durch Streichen

mehrerer Spalten in X) eine reduzierte Jx50-Matrix X o' deren Spalten das Unter­

modell .AtO

erzeugen. Ist umgekehrt das Modell .AtO

durch eine Covariablen-Matrix

X o gegeben, so kann man durch Hinnahme weiterer Covariablen (d.h. durch Hinzu­

fügen von Spalten in X o) eine erweiterte Jx5-Matrix erhalten, die das umfassende

Modell .At erzeugt. In beiden Situationen liegt eine Zerlegung X = (Xo' Xl) vor,

und die Spalten von X o erzeugen den Teilraum .AtO

.

Für die Behandlung des Testproblems müssen wir generell folgendes über die Di­

mensionen bzw. Freiheitsgrade der Modelle voraussetzen:

(Dirn) 50 = Dirn (.Ato) < 5 = Dim(.At) < J bzw.

o < FG(.At) = (J -5) < FG(.Ato) = (J -5J .

Neben der MQ-Schätzung 4 von J-L für das Modell .At ist jetzt auch die MQ-Schät­

zung 40 von J-L für das Modell .Ato (d.h. unter der Nullhypothese HJ von Interesse:

Man beachte, daß 40 von der Beobachtung Y nur noch über 4 = p c4 Y abhängt. Da

Y - 4 im orthogonalen Komplement .At~ von .At liegt und somit zu 4 -40 E.At or­

thogonal ist, läßt sich die Abweichung der Beobachtung vom Modell .AtO

wie folgt

zerlegen (vgl. Abb. 1)

(2) IIY-40 11 2

Dev(.Ato) Dev (.At) + L,Dev mit

Intuitiv wird man HO ablehnen, falls in dieser Auf teilung die Abweichung 114 - 40 11 2

der Schätzung 4 vom Untermodell .AtO

deutlich größer ist als die Abweichung

IIY - 411 2 der Beobachtung Y vom Modell .At. Um zu einer Teststatistik zu gelan­

gen, bestimmen wir die Verteilung von 114 - 40 11 2 für das klassische lineare Modell

d.h. unter Normalverteilungsannahme (NVY). Danngilt

Page 46: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 30

mit(4)

(5)

L,Dev = 114 - 40 11 2 ist 0-2

.X~FG(rr)-verteilt

MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto= 5 -SO > 0,

"( = \ IIJ-L - Pc4 J-L 11 2 > O.a 0

..........................

.ß~/to·:·vft...... • 0

O· .•.•.•.•.• ·{LO· .. . . . . . . . . . . . . . . . . . .

", ", . ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ", ",

Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO

.

Die Nichtzentralität "( ist ein Maß für die Abweichung von der Nullhypothese, und

die linearen Hypothesen lassen sich äquivalent formulieren als:

(LH) , H:"(>O.

Von entscheidender Bedeutung ist folgende Unabhängigkeit:

(6) L,Dev = 114 - 40

112 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.

Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,

in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist

und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG

und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.

2.6 Testen von linearen Hypothesen 5.5.10 2- 30

(4) L,Dev = 114 - 40 11 2 ist 0-

2. X~FG(rr)-verteilt mit

MG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = 5 -SO > 0,

(5)

.ß~/to·:· vft ...... • 0

Abb. 1: Die Beobachtung Y mit den Schätzungen für die Modelle vft und vftO

.

Die Nichtzentralität '"Y ist ein Maß für die Abweichung von der Nullhypothese, und

die linearen Hypothesen lassen sich äquivalent formulieren als:

(LH) ,

Von entscheidender Bedeutung ist folgende Unabhängigkeit:

(6) L,Dev = 114 - 40

11 2 und Dev(vft) = IIY - 411 2 sind stochastisch unabhängig.

Die Streuungszerlegung (2) läßt sich in einer Tabelle (vgl. Tab. 1) zusammenfassen,

in deren Zeilen die jeweilige Abweichung - die hier eine Summe von Quadraten ist

und deshalb auch mit SQ abgekürzt wird- zusammen mit dem Freiheitsgrad FG

und dem zugehörigem sogenannten mittleren Quadrat MQ = SQ/FG angegeben sind.

Page 47: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 31

Streuung (Ursache) Dev =5Q FG MQ=5Q/FG

Abweichung von HO LiDev = 114-40 11 2 MG =5-5 LiDev/LiFG0

um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A217

um das Modell vfto Dev (vfto)= 11 Y - 40 11 2 FG(vfto)=J-50

A217

0

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vftoc .At.

Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo­

these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)

Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun

den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten

Streuung zur Streuung um das Modell .At:

(7)LiDev / MG

F=114- 40 11 2 / (5-5JIIY - 4112

/( J-S)(F-5tatistik) .

Diese Teststatistik hat eine einJach-nichtzentrale F-Verteilung

(8) L(F) = FZFG NFG ("( ),ZFG=MG=5-50'

mit Nichtzentralität "( aus (5) und

NFG = FG(.At) = J -5.

Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da

große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:

(9) F-Test zum Niveau a:

Ablehnung von Ho F > FZFG,NFG,a

{} 1 - PF

(F) < a.m,n

Dabei ist F das a-Quantil und PF die Verteilungsfunktion der zentralenm,n,a mn

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierungm,n 0 S

von F) wird die Wahrscheinlichkeit

2.6 Testen von linearen Hypothesen 5.5.10 2- 31

Streuung (Ursache) Dev =5Q FG MQ=5Q/FG

Abweichung von HO ~Dev = 114-40 11 2 MG =5-5 0

~Dev/~FG

um das Modell vft Dev (.At) = 11 Y - 411 2 FG(vft) =J-5 A2 17

um das Modell vfto Dev (vfto) = 11 Y - 40 11 2 FG(vfto) =J-50

A2 17

0

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.

Hierbei ist a~ die Schätzung von 172 für das Modell vfto' d.h. unter der Nullhypo­

these HO. Die mittleren Quadrate MQ in der Tab. 1 sind jeweils (erwartungstreue)

Schätzungen von 172 unter der Nullhypothese. Als Teststatistik verwendet man nun

den Quotienten der durch die Abweichung von der Nullhypothese HO bewirkten

Streuung zur Streuung um das Modell .At:

(7) ~Dev / MG

F= 114- 40 11 2 / (5 -5J IIY - 4112

/( J-S)

Diese Teststatistik hat eine einfach-nichtzentrale F-Verteilung

(F-5tatistik) .

(8) L(F) = F ZFG NFG ('"Y ) mit Nichtzentralität '"Y aus (5) und , ZFG=MG=5-5 0' NFG = FG(.At) = J -5.

Speziell unter der Nullhypothese HO ist die Teststatistik also zentral F-verteilt. Da

große Werte der Teststatistik gegen HO sprechen, ergibt sich folgender Test:

(9) F-Test zum Niveau a:

Ablehnung von Ho

{} 1 - PF

(F) < a. m,n

Dabei ist F das a-Quantil und P F die Verteilungsfunktion der zentralen m,n,(X mn

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S

von F) wird die Wahrscheinlichkeit

Page 48: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 32

auch als P-Wert oder Signijikanzniveau des beobachteten Testwerts F b bezeichnet.o s

Testentscheidung fürNullhypothese HO Alternative H

1- a

o FZFG,NFG,a

Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantilund Entscheidungsbereichen.

Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono­

tone Transformation des zugehörigen Likelihood-Quotienten ist.

Durch den Übergang von einfacheren Untermodell .ACO

zum umfassenden übermo­

delI .AC wird der folgende Anteil der Streuung Dev(.ACo) um .ACo zusätzlich "er­

klärt":

(10) R2 (,/,/ ,/,/) = L:,Dev = 114 - 40 112

= [1 + NFG ] -1 [ ]JI"(O,JI"( 2 E 0,1 .

Dev(.ACo) 11 y - 4011 F· ZFG

Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,

desto besser ist die Modellanpassung von .AC im Vergleich zu der des Modells .ACO

.

Speziell für das vom konstanten Einser-Vektor e+= (1) erzeugte konstante Modell

.ACo= {J-L 1 J-L1

= J-L2

= ... =J-LJ} ist die Schätzunmg 40

= Ye+ der Mittelwertsvektor

von Y, und

(11)

wird auch das Bestimmtheitsmaß jür das Modell .AC bezeichnet.

2.6 Testen von linearen Hypothesen 5.5.10 2- 32

auch als P-Wert oder SigniJikanzniveau des beobachteten Testwerts F b bezeichnet. o s

Testentscheidung für Nullhypothese HO Alternative H

1- a

o F ZFG,NFG,a

Abb. 2: Dichte der Teststatistik des F-Tests unter der Nullhypothese mit a-Quantil und Entscheidungsbereichen.

Der F-Test ist ein Likelihood-Quotienten-Test, weil die F-Statistik eine streng mono­

tone Transformation des zugehörigen Likelihood-Quotienten ist.

Durch den Übergang von einfacheren Untermodell .AtO

zum umfassenden übermo­

dell .At wird der folgende Anteil der Streuung Dev(.Ato) um .Ato zusätzlich "er­

klärt":

(10) R2 (.Ato

,.At) = L:,Dev = 114 - 40 11: = [1 + NFG ]-1 E [0,1] . Dev(.Ato) 11 y - 4011 F· ZFG

Dieser Anteil ist eine streng wachsende Funktion der F-Statistik und je höher er ist,

desto besser ist die Modellanpassung von .At im Vergleich zu der des Modells .AtO

.

Speziell für das vom konstanten Einser-Vektor e + = (1) erzeugte konstante Modell

.Ato = {J-L 1 J-L1

= J-L2

= ... =J-L J} ist die Schätzunmg 40

= Ye + der Mittelwertsvektor

von Y, und

(11)

Page 49: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 33

Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt

des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab­

schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum

.ACOC.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TOClRS für den Para­

meter () mit gleicher Dimension:

(12) f?To = {() ElRS I X()E.ACo}'

(13) .ACo = {X() I ()E f?To},

(14) Dirn f?To= Dirn .ACo.

Und die Hypothesen lassen sich dann äquivalent formulieren als

(LH) "

In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege­

ben:

H:B();=O

wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese

gehörige eingeschränkte Parameterraum ist dann

und es gilt

(17) Dirn f?To= S - Rang(B) bzw. ~FG = Rang (B).

Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma­

trizen X und B explizit angeben:

(18)

(19)

~Dev () TBT(B [XTX] -lB T)-l B ()

\ () TBT(B [XTX] -lB T)-l B ().a

Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo­

these nicht benötigt wird.

2.6 Testen von linearen Hypothesen 5.5.10 2- 33

Wir wollen jetzt die Hypothesen unter Verwendung des Parametervektors () (statt

des Erwartungsvektors Jl) formulieren und setzen hierzu für den Rest dieses Ab­

schnitts die Rangbedingung (RB) voraus. Dann entspricht jedem Teilraum

.ACO C.AC für den Erwartungswert Jl eindeutig ein Teilraum f?TO ClRS für den Para­

meter () mit gleicher Dimension:

(12) f?To = {() ElRS I X()E.ACo}'

(13) .ACo = {X() I ()E f?To },

(14) Dirn f?To = Dirn .ACo.

Und die Hypothesen lassen sich dann äquivalent formulieren als

(LH)"

In der Praxis ist die Nullhypothese oft durch ein lineares Gleichungssystem gege­

ben:

H:B();=O

wobei B;= 0 eine QxS-Matrix ist mit 1 < Q = Rang(B) < S. Der zur Nullhypothese

gehörige eingeschränkte Parameterraum ist dann

und es gilt

(17) Dirn f?To = S - Rang(B) bzw. ~FG = Rang (B).

Die für den F-Test relevanten Größen lassen sich dann unter Verwendung der Ma­

trizen X und B explizit angeben:

(18)

(19)

~Dev () TBT(B [XTX]-lBT)-l B ()

\ () TBT(B [XTX]-lBT)-l B (). a

Man beachte, daß in der Darstellung (18) die Schätzung von () unter der Nullhypo­

these nicht benötigt wird.

Page 50: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen 5.5.10 2- 34

Beispiel 1: Eindimensionale Nullhypothese

Ist B = cT:;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von

der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT() = 0 und der

zweiseitigen Alternative H:;z=: cT():;= o. Zwischen der t-Teststatistik Taus 2.5 und der

F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei­

tige t-Test in dieser Situation äquivalent zum F-Test. D

Beispiel 2: Testen von mehrerer Parameterkomponenten

Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen

Hypothesen sich formulieren lassen als

(20) für alle s E A,

wobei Ac {I, ..., S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo­

nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die

Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h.s

T(21) B = (e ) A.s sE

Die Matrix B [XTX] -lB T m (18) und (19) ist dann diejenige Teilmatrix von

[XTX] -1, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index

nicht inA liegt. Wenn speziellA={l, ...,SO} ist mitSO<S, so ist B[XTX]-lB T die

obere So x SO-Blockmatrix von [XTX] -1. D

2.6 Testen von linearen Hypothesen 5.5.10 2- 34

Beispiel 1: Eindimensionale Nullhypothese

Ist B = cT :;= 0 ein Zeilenvektor, d.h. cEIRS, so ist die lineare Hypothese (LH)'" von

der im Abschnitt 2.5 betrachteten Form mit der Nullhypothese HO: cT () = 0 und der

zweiseitigen Alternative H7:-: cT ():;= o. Zwischen der t-Teststatistik Taus 2.5 und der

F-Teststatistik besteht dann der Zusammenhang F = T2 und somit ist der zweisei-

tige t-Test in dieser Situation äquivalent zum F-Test. D

Beispiel 2: Testen von mehrerer Parameterkomponenten

Oft wird das lineare Modell .At so parametrisiert, daß die interessierenden linearen

Hypothesen sich formulieren lassen als

(20) für alle s E A,

wobei Ac {I, ... , S} eine vorgegebene (nichtleere) Auswahl von Parameterkompo­

nenten ist. Solche Nullhypothesen sind von der obigen Form HO: B () = 0, wobei die

Zeilen von B genau die Einheitsvektoren e für alle sE A sind, d.h. s

(21) T B = (e ) A. s sE

Die Matrix B [XT X]-IB T m (18) und (19) ist dann diejenige Teilmatrix von

[XT Xl-I, die sich durch Weglassen aller Zeilen und Spalten ergibt, deren Index

nicht inA liegt. Wenn speziellA={I, ... ,SO} ist mitSO<S, so ist B[XTX]-IB T die

obere So x SO-Blockmatrix von [XT Xl-I. D

Page 51: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.6 Testen von linearen Hypothesen

2.6.2 Schärfe des F-Tests

5.5.10 2- 35

Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)

ergibt sich folgende Darstellung der Schärfe

(1) Pow(rr,a)

1-p (F )Fm nb) m, n, (X,

mit m=ZFG, n=NFG.

Hierbei ist PF () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung.mn 7 ~n

Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor

Jl ab, und es gilt:

(2) Pow("f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).

Als Grenzwert für "f ---+ 00 ergibt sich

(3) Pow(oo,a) = 1 für O<a<l.

Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt

hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach­

tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie­

dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das

wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im

Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich­

probenumfang J erfolgt sein.

2.6 Testen von linearen Hypothesen 5.5.10 2- 35

2.6.2 Schärfe des F-Tests

Wir betrachten jetzt die Schärfe des F-Tests. Aus der Verteilungsaussage 2.6.1 (8)

ergibt sich folgende Darstellung der Schärfe

(1) Pow(rr,a)

1-p (F ) Fm nb) m, n, (X ,

mit m=ZFG, n=NFG.

Hierbei ist P F () die Verteilungsfunktion der nichtzentralen F ("f)-Verteilung. mn 7 ~n

Die Schärfe hängt also nur noch über die Nichtzentralität "f vom Erwartungsvektor

Jl ab, und es gilt:

(2) Pow( "f, a) ist streng monoton wachsend sowohl in "f > 0 als auch in a E (0,1).

Als Grenzwert für "f ---+ 00 ergibt sich

(3) Pow(oo,a) = 1 für O<a<1.

Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt

hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach­

tungen quantifizieren sollte. Hierzu kann man einerseits die Schärfe für verschie­

dene hypothetische (und praktisch relevante) Werte von "f bestimmen, da ja das

wahre "f unbekannt ist. Eine solche Schärfebetrachtung sollte eigentlich schon im

Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindeststich­

probenumfang J erfolgt sein.

Page 52: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 36

2.7* Schätzung von Nichtzentralität und Testschärfe

Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei-

lung, wobei die Nichtzentralität y die Abweichung von der Nullhypothese charakte-

risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe-

kannte Nichtzentralität y schätzen und Konfidenzgrenzen für y angeben. Hieraus leiten

wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.

2.7.1 Schätzungen für den t-Test

Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen

T Nullhypothese H<: C B 5 co VS. T Alternative H>: C B > co .

-

Die Nichtzentralität

T mit 2 2 T T

(I) Y = Dc = D C ( X x)-lC Dc

läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt

T A e - c 2 ) r = O = T mit

- 2 T T & ; = D C ( X X)-lc.

&C

Diese Schätzung hat die nichtzentrale t-Verteilung tFG(y). Wir wollen hieraus eine

einseitige obere Konfidenzgrenze zur Sicherheit 1 - a' für die Nichtzentralität y o, a'

konstruieren. In der Regel wird hierbei a' mit dem Testniveau a übereinstimmen,

aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion

' t F G ( 7 ) (X) von tFG(y), die wir als Funktion in y betrachten wollen. Setzen wir

(3) H(y I FG, X) = (X) = P { tFG(y) 5 X ) für y, X E IR, t ~ ~ ( 7 )

so ist H(y I FG, X) nach Exkurs V 2.2 streng monoton fallend in y mit

(4> H(-00 I FG, X) = 1, H(+ 00 I FG, X) = 0.

Folglich gibt es zu jedem 0 < a' < 1 genau ein Y. = ro(T I a') mit

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 36

2.7* Schätzung von Nichtzentralität und Testschärfe

Beim t- bzw. F-Test hat Teststatistik eine (einfach) nichtzentrale t- bzw. F-Vertei­

lung, wobei die Nichtzentralität "( die Abweichung von der Nullhypothese charakte­

risiert und die Schärfe des jeweiligen Test bestimmt. Wir wollen jetzt die unbe­

kannte Nichtzentralität "( schätzen und KonJidenzgrenzen für "( angeben. Hieraus leiten

wir dann für die Testschärfe eine Schätzung zusammen mit Konfidenzgrenzen her.

2.7.1 Schätzungen für den t-Test

Wir betrachten den einseitigen t-Test aus 2.5.2 mit den Hypothesen

T Nullhypothese H<: c () < Co

Die Nichtzentralität

(1) T c () - Co

"(=

vs.

mit 2 2 T(XTX)-l 0" = 0" C C c

läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt

(2) mit A2 A2 T(XTX)-l 0" =0" C C. c

Diese Schätzung hat die nichtzentrale t-Verteilung tFG

( "(). Wir wollen hieraus eine

einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a ' für die Nichtzentralität "( 0,0:

konstruieren. In der Regel wird hierbei a ' mit dem Testniveau a übereinstimmen,

aber das ist nicht zwingend notwendig. Ausgangspunkt ist die Verteilungsfunktion

Pt ()(x) von tFG

(,,(), die wir als Funktion in "( betrachten wollen. Setzen wir FG'"Y

(3) für ,,(, x E IR,

so ist H( "( I FG, x) nach Exkurs V 2.2 streng monoton fallend in "( mit

(4) H(-oo IFG, x) = 1, H(+oo IFG,x) = o.

Folglich gibt es zu jedem 0< a ' < 1 genau ein 1 = 1 (T I a ' ) mit o 0

Page 53: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 37

(5) H(+ IFG,T) = a l 0, a'

(Definition der oberen Grenze 01 / )

^ ,ist eine einseitige obere Konfidenzgrenze für y zur Sicherheit 1- al, d. h. es gilt Yo, a

Anolog läßt sich eine einseitige untere Konfidenzgrenze Y für y zur Sicherheit U, a'

1 - a' definieren durch

(7) H(+ U, a' I F G , T ) = l - a 1 bzw. - Tu, a1 - 70, 1-a1

und es gilt

Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung Y fol-

gende Schätzung der Schärfe

(9) P0w1 (Y, U) = 1 - @ t,<i 1 (geschätzte einseitige Schärfe).

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-

obachteten Abweichung Y = T entspricht.

Da die Schärfe Powl(y,a) streng wachsend in y ist, erhält man aus der oberen

Konfidenzgrenze zur Sicherheit 1-a1 auch die folgende obere Konfidenz- 0, a'

grenze der Testschärfe zur gleichen Sicherheit

(10) Powl( ?o,al , a ) )= 1 - H( Y o, a' I FG, t ~ ~ , a ) (obere Grenze der Schärfe).

Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem

Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze

der Schärfe kleiner als 1- al. Genauer gilt

Die einseitige untere Konfidenzgrenze Pow (Y a ) der Schärfe ist nicht von prak- 1 u ,a"

tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a':

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 37

(5) H(1 ,IFG, T) = a ' 0,0:

(Definition der oberen Grenze 1 ,) 0,0:

1 ,ist eine einseitige obere Konfidenzgrenze für '"Y zur Sicherheit 1- a ' , d. h. es gilt 0,0:

Anolog läßt sich eine einseitige untere Konfidenzgrenze 1 ,für '"Y zur Sicherheit u,o:

1- a ' definieren durch

(7) H(1 ,IFG, T) = I-a' bzw. A A

'"Y U 0:' = '"Yo 1-0:' U,O: , ,

und es gilt

(8) P{ A <} 1- a '. '"Y U 0:' - '"Y ,

Wir betrachten jetzt die einseitige Schärfe und erhalten aus der Schätzung 1 fol­

gende Schätzung der Schärfe

(9) Pow1(1,a) = I-Pt (A)(tpG ) FG'"'( ,0:

(geschätzte einseitige Schärfe).

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be­

obachteten Abweichung 1 = T entspricht.

Da die Schärfe Pow1 (,,(,a) streng wachsend in '"Y ist, erhält man aus der oberen

Konfidenzgrenze 1 ,zur Sicherheit 1- a ' auch die folgende obere Konfidenz-0,0:

grenze der Testschärfe zur gleichen Sicherheit

(10) Pow1( 1 "a) = 1- H( 1 ,I FG, tpG ) (obere Grenze der Schärfe).

0,0: 0, 0: ,0:

Falls der einseitige t-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem

Fall ist eine Schätzung der Schärfe von Interesse), so ist die obere Konfidenzgrenze

der Schärfe kleiner als 1- a ' . Genauer gilt

(11) Pow1(1 "a) < I-a' 0,0:

Die einseitige untere Konfidenzgrenze Pow1( 1 "a) der Schärfe ist nicht von prak­

u,o: tischem Interesse. Sie ist bei Nicht-Ablehnung der Nullhypothese sogar kleiner als a /:

Page 54: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 38

Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo-

these analog zur einseitigen Schärfe durch Pow2(?,w) schätzen. Konfidenzgrenzen

der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind

auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert

wird.

2.7.2 Schätzungen für den F-Test

Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen

(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,

Alternative: H : p @ A o , p p ~ A (Untermodell Ao gilt nicht ).

Die Nichtzentralität y des F-Tests

läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt

Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m .F (y) mit r n l n

m = AFG = FG(Ao) - F G ( 4 , n = F G ( 4 .

Wir wollen jetzt eine einseitige obere Konfidenzgrenze zur Sicherheit 1- w' für 0, a'

die Nichtzentralität y konstruieren. In der Regel wird hierbei w' mit dem Testni-

veau w übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist

die Verteilungsfunktion @F (7)

(X) von F (y), die wir als Funktion in y betrach- m,n m,n

ten wollen. Setzen wir

(3) H(ylm,n,x) = @ (X) = P { Frn,n(y) 5 X ) für y, X 2 0, Fm, n(7)

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 38

(12)

Die Schärfe des zweiseitigen t-Test kann man bei Nicht-Ablehnung der Nullhypo­

these analog zur einseitigen Schärfe durch Pow 2 (1, a) schätzen. Konfidenzgrenzen

der zweiseitigen Schärfe werden in 2.6 für beliebige F-Tests entwickelt und sind

auch auf den zweiseitigen t-Test anwendbar, wenn dieser als F-Test interpretiert

wird.

2.7.2 Schätzungen für den F-Test

Wir betrachten den F-Test aus 2.6.1 mit den Hypothesen

(LH) Nullhypothese: (Untermodell ...40

gilt) ,

Alternative: H: Jlt1....40

' JlE...4 (Untermodell ...40 gilt nicht ).

Die Nichtzentralität r des F-Tests

läßt sich schätzen indem man die Parameter durch ihre Schätzungen ersetzt

(2)

Diese Schätzung hat die skalierte nichtzentrale F-Verteilung m . F ('Y) mit m,n

n = FG(JIt).

Wir wollen jetzt eine einseitige obere Konfidenzgrenze 1 I zur Sicherheit 1- a' für 0,0:

die Nichtzentralität 'Y konstruieren. In der Regel wird hierbei a' mit dem Testni-

veau a übereinstimmen, aber das ist nicht zwingend notwendig. Ausgangspunkt ist

die Verteilungsfunktion Pp ()(x) von F (')'), die wir als Funktion in 'Y betrach-mn"( m,n

ten wollen. Setzen wir '

(3) H(')' Im, n, x) = PPm

nb)(x) = p{ F m,n(')') < x} ,

für 'Y, x > 0,

Page 55: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 39

so läßt sich die obere Grenze für y zur Sicherheit 1 - a' definieren durch

(4) Y O l a 1 = i n f { y > ~ I ~ ( y I m , n , ~ ) a a 1 ) > ~

(Definition der oberen Grenze Y /) 0,

Da H(y I m, n, X) nach Exkurs V 3.2 für X > 0 streng fallend in y ist mit

(5> inf H = H(oo I m, n, X) = 0, sup H = H(0 I m, n, X),

ist die Abbildung H(- I m,n,x) : (0, oo) + (0, sup H) bijektiv. Unter Verwendung der

Inversen HP'( - 1 m, n, X) : (0, sup H) + (0, oo) ergibt sich folgende Darstellung

-i ~ - l ( a ' ~ m , n , ~ ) > O f ü r a ' < H ( ~ I m , n , F ) b z w . F > F m, n, 1-a' (6) Yo,a' - für al>H(O Im,n, F) bzw. F<F

m, n, 1-a'

Insbesondere folgt in jedem der beiden Fälle in (6)

(7) ?o,a' = min { y > 0 I H ( y I m , n , F ) < a ' ) .

Nach diesen Vorbereitungen 1äß sich nun zeigen, daß Y eine einseitige obere 0, a'

Konfidenzgrenze für y zur Sicherheit 1 - U', d. h. es gilt

Man beachte,daß hier „<" statt „<" steht, weil die Grenze Y im Punkt 0 nicht 0, a'

stetig verteilt ist, da

Allerdings erhält man aus (8) sofort die Abschätzung

die aber unter der Nullhypothese H : y = 0 trivial ist, weil dann gilt 0

Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung Y folgende Schät-

zung der Schärfe

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 39

so läßt sich die obere Grenze für r zur Sicherheit 1- a' definieren durch

(4) 10

(x' = inf { l' > 0 I Hb Im, n, F) < a'} > 0 , (Definition der oberen Grenze 1 ,)

0, (X

Da H( l' Im, n, x) nach Exkurs V 3.2 für x> 0 streng fallend in l' ist mit

(5) inf H = H( 00 I m, n, x) = 0, sup H = H(O Im, n, x),

ist die Abbildung H( -I m,n,x): (0, (0) -----+ (0, supH) bijektiv. Unter Verwendung der

Inversen H-\ -I m, n,x) : (0, supH) -----+ (0, (0) ergibt sich folgende Darstellung

(6) für a' <H(O Im, n, F) bzw. F>F 1 '} m,n, -(X

für a' > H(O Im, n, F) bzw. F<F mn 1-(X' • , ,

Insbesondere folgt in jedem der beiden Fälle in (6)

(7) 10

(x' = min { l' > 0 I Hb I m, n, F) < a'} . ,

Nach diesen Vorbereitungen läß sich nun zeIgen, daß 1 ,eme einseitige obere 0, (X

Konfidenzgrenze für l' zur Sicherheit 1- a', d. h. es gilt

(8) P{ l' < 1 ,} = 1- a'. 0, (X

Man beachte,daß hier ,,<" statt ,,<" steht, weil die Grenze 10

(x' im Punkt 0 nicht , stetig verteilt ist, da

(9) P{ 1 ,=O} = Pp ()(F 1- ,) E (O,a'] 0, (X m, n "( m, n, (X

Allerdings erhält man aus (8) sofort die Abschätzung

(10) P{I'<10

(X'} > l-a', , die aber unter der Nullhypothese HO: l' = 0 trivial ist, weil dann gilt

P{ l' < 10

(x' } = 1 für l' = o. ,

Wir betrachten jetzt die Schärfe und erhalten aus der Schätzung 1 folgende Schät­

zung der Schärfe

Page 56: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 40

(11) Pow(+, a) = 1 - @ Fm, n(?)(Fm, n, 1 (geschätzte Schärfe)

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be-

obachteten Abweichung Y entspricht.

Für die (in y streng monotone) Schärfe Pow(y, a) erhält man nun folgende einsei-

tige obere Konfidenzgrenze zur Sicherheit 1 - a'

(12) Pow(+ a) = 1-H(+ 0, a' ' O, a' I m, Fm, n, a ) (obere Grenze der Schärfe).

Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist

eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe 1 kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a < - stets der Fall ist. 2

Genauer gilt

2.7 Schätzung von Nichtzentralität und Testschärfe 11.8.05 2- 40

(11) Pow(1,a) = 1- Pp (A)(F ) m,n"( m,n,Ct

(geschätzte Schärfe)

Dies ist die Schärfe für diejenige Abweichung von der Nullhypothese, die der be­

obachteten Abweichung 1 entspricht.

Für die (in '"Y streng monotone) Schärfe Pow( '"Y ,a) erhält man nun folgende einsei­

tige obere Konfidenzgrenze zur Sicherheit 1- a'

(12) Pow( 1 , , a) = 1 - H( 1 ,I m, n, F ) (obere Grenze der Schärfe). O,Ct O,Ct m,n,Ct

Falls der F-Test die Nullhypothese nicht abgelehnt hat (und nur in diesem Fall ist

eine Schärfe-Schätzung von Interesse), so ist die obere Konfidenzgrenze der Schärfe

kleiner als 1- a', sofern a' < 1- a gilt, was z. B. für a' = a< ~ stets der Fall ist.

Genauer gilt

(13) Für a' < 1- a ist: Pow(1 "a) < l-a' {} O,Ct

F< F m,n,Ct

Page 57: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 1

3 Elementare Modelle und Analysen

Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und

die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un-

tersuchen:

die Regressz~nsanal~se für eine und zwei Variablen,

die einfache Varianzanalyse für einen Faktor,

die einfache Covarianzanalyse für eine Variable und einen Faktor.

Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für

eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ..., YJ) aller J Be-

obachtungen formuliert.

3.1 Quantitative Covariablen und Faktoren

Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit

Gesucht ist eine Modellierung des Erwartungswertes ,LL durch beobachtete Covari-

ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen

und qualztatzven Variablen.

Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,

wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie-

anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt

die Kleinbuchstaben z, U, v ... verwenden.

Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß

sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen

gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ-

lich, oder ein Krankheitsstatus mit den drei Zuständen gesund, leicht erkrankt, schwer

erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be-

zeichnen.

Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,

diese formal (und meist willkürlich) durch die Zahlen 1, ..., K zu codieren, die man

3.1 quantitative Covariablen und Faktoren 18.7.05 3-1

3 Elementare Modelle und Analysen

Wir wollen jetzt einige grundlegende Prinzipien der Modellbildung erläutern und

die sich daraus ergebenden Analysen für eine oder zwei beobachtete Covariable un­

tersuchen:

die Regressionsanalyse für eine und zwei Variablen,

die einfache Varianzanalyse für einen Faktor,

die einfache Covarianzanalyse für eine Variable und einen Faktor.

Aus Gründen der Übersicht werden die jeweiligen Modelle in der Regel zuerst für

eine Einzelbeobachtung Y und dann später für den Vektor Y = (Y1, ... , Y

J) aller J Be­

obachtungen formuliert.

3.1 Quantitative Covariablen und Faktoren

Ausgangspunkt ist eine einzelne Beobachtung, also eine reelle Zufallsvariable Y mit

(1) fl = E(Y) E M, 9(fl) E IH.

Gesucht ist eine Modellierung des Erwartungswertes fl durch beobachtete Covari­

ablen. Bei den beobachteten Covariablen unterscheidet man zwischen quantitativen

und qualitativen Variablen.

Quantitative Variablen sind solche, deren Werte durch reelle Zahlen gegeben sind,

wie z.B. Messwerte (Zeitdauer, Gewicht etc.) oder Anzahlen (Geschwister, Therapie­

anwendungen etc.). Zur Bezeichnung quantitativer Variable werden wir bevorzugt

die Kleinbuchstaben z) u, v ... verwenden.

Demgegenüber sind qualitative Variablen oder Faktoren dadurch charakterisiert, daß

sie nur endlich viele Zustände annnehmen, die im allgemeinen nicht durch Zahlen

gegeben sind, wie z.B. das Geschlecht mit den beiden Zuständen weiblich und männ­

lich, oder ein Krankheitsstatus mit den drei Zuständen gesund) leicht erkrankt) schwer

erkrankt. sind. Faktoren werden wir bevorzugt mit den Großbuchstaben A, B, ... be­

zeichnen.

Bei einem Faktor A mit insgesamt K> 2 möglichen Zuständen ist es zweckmäßig,

diese formal (und meist willkürlich) durch die Zahlen 1, ... , K zu codieren, die man

Page 58: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.1 Quantitative Covariablen und Faktoren 18.7.05 3 - 2

als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil-

dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.

man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ..., K an- A nimmt. Dann wird für jede Stufe 6 = 1, ..., K eine Indibatorvariable Ik für das Ereig-

nis {A = lc)eingeführt:

Da der Faktor A E (1, ..., K ) genau eine Stufe annimmt, gilt

A A Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... IK

eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In- A dikatoren. In der Praxis bleibt typischerweise der erste Indikator I außer Betracht. 1

Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo-

dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.

So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte

in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer

Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder

der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen

Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege-

bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung

der Kalendermonate (Januar, ..., Dezember) durch die Stufen 1, ..., 12 sinnvoll, wenn

die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.

3.1 quantitative Covariablen und Faktoren 18.7.05 3-2

als Stufen des Faktors bezeichnet. Für die formale Beschreibung bei der Modellbil­

dung identifiziert man die Zustände des Faktors mit den dazugehörigen Stufen, d.h.

man geht der Einfachheit halber davon aus, daß der Faktor A die Stufen 1, ... , K an­

nimmt. Dann wird für jede Stufe k = 1, ... , Keine Indikatorvariable 11 für das Ereig­

nis {A = k }eingeführt:

(2) falls A = k sonst

Da der Faktor A E {I, ... ,K} genau eine Stufe annimmt, gilt

(3)

Die Stufe des Faktors A ist durch die Angabe aller K Indikatorvariablen 11, ... 1~ eindeutig bestimmt, und nach (3) sogar durch irgendeine Auswahl von K-1 dieser In­

dikatoren. In der Praxis bleibt typischerweise der erste Indikator 11 außer Betracht.

Ob eine beobachtete Variable als quantitative Variable oder als Faktor bei der Mo­

dellbildung berücksichtigt werden soll, hängt von den Intentionen der Analyse ab.

So kann man etwa eine quantitative Variable nach einer Klassifizierung ihrer Werte

in einen Faktor überführen, dessen Zustände den Klassen entsprechen, z.B bei einer

Klassifikation des Alters in drei Zustände (Kind, Jugendlicher, Erwachsener) oder

der Klassifikation einer Dosis (gering, mittel, hoch). - Andererseits kann man einen

Faktor auch als quantitative Variable ansehen, wenn die durch die Codierung gege­

bene Anordnung der Stufen mit berücksichtigt werden soll, z.B ist die Identifizierung

der Kalendermonate (Januar, ... , Dezember) durch die Stufen 1, ... , 12 sinnvoll, wenn

die durch sie gegebene zeitliche Anordnung mitbrücksichtigt werden soll.

Page 59: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-3

3.2 Modelle für eine beobachtete Covariable

Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere

(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das

das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert

von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo­

dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder

um einen Faktor A handelt.

3.2.1 Das konstante Modell

Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor

Y = (Yl, ..., Y

J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor

Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle] ]

Beobachtungen j = 1, ...,1 konstant sind

(KM)

Dies ist ein eindimensionales allgemeines lineares Modell der Form

(KM)' p,.=e]

für alle j = 1, ..., 1.

mit Parameter eE IR und einer formalen (und konstanten) Covariable x. = 1. Da der]

Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf

die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben e statt el

und

x. statt x .1. Die zugehörige Modellmatrix lautet] ]

(1) X = e+ = (1, ..., l)T EIRJ lxI-Matrix,

mit dem (konstanten) Vektor e+ als Summe aller Einheitsvektoren ef

Der Modell­

raum für den Erwartungswert Jl = ee+ ist

(2)

(3)

vft=~J' wobei

(Diagonale von IRJ).

Damit läßt sich das konstante Modell auch wie folgt formulieren:

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-3

3.2 Modelle für eine beobachtete Covariable

Wir betrachten die Situation daß neben der Zielvariablen Y nur noch eine weitere

(quantiative oder qualitative) Variable beobachtet wurde. Zuerst behandeln wir das

das konstante Modell, in dem die Variable keinen Einfluß auf den Erwartungswert

von Y hat und danach betrachten wir Modelle die einen Einfluß der Variablen mo­

dellieren, wobei wir unterscheiden, ob es sich um eine quantitative Variable z oder

um einen Faktor A handelt.

3.2.1 Das konstante Modell

Wir betrachten jetzt wieder 1 Beobachtungen mit dem zugehörigen Vektor

Y = (Yl, ... , Y

J) der Zielvariablen. Das konstante Modell für den Erwartungsvektor

Jl = E(Y) ist dadurch charakterisiert, daß die Erwartungswerte p,. = E(Y.) für alle ] ]

Beobachtungen j = 1, ... , 1 konstant sind

(KM)

Dies ist ein eindimensionales allgemeines lineares Modell der Form

(KM)' p,.=B ]

für alle j = 1, ... , 1.

mit Parameter BE IR und einer formalen (und konstanten) Covariable x. = 1. Da der ]

Parameter und die Covariable hier eindimensional sind (d.h. S = 1) verzichten wir auf

die Indizierung der jeweils einzigen Komponente, d.h. wir schreiben B statt Bl

und

x. statt x .1. Die zugehörige Modellmatrix lautet ] ]

(1) X = e + = (1, ... , l)T EIRJ lxI-Matrix,

mit dem (konstanten) Vektor e + als Summe aller Einheitsvektoren ef

Der Modell­

raum für den Erwartungswert Jl = Be + ist

(2)

(3)

vft=~J' wobei

(Diagonale von IRJ).

Damit läßt sich das konstante Modell auch wie folgt formulieren:

Page 60: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-4

(KM)"

Für YE IR] ist die orthogonale Projektion PD. Y gegeben durchJ

mit

(Mittelwert von y).

P - (- -) IR]D.JY = y. e+ = y, ..., Y E

- 1 'I\"Y = J ~ Yj

JHieraus erhält man die expliziten Darstellungen der Schätzungen für eund p,:

(4)

(5)

(6)

(7) 4=Y·e+

J1 2: Y.

. JJ

- - ]= (Y, ..., Y) E IR

(Mittelwert von Y)!

Die Deviance

2 - 2(8) Dev(L:,J) = 11 Y - 411 = 2: (Y.- Y) =: SYY

. JJ

ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem

Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be­

obachtungen Y1' ..., Y]

(9) A2 _ 1 'I\" (Y y-)20- - J-1 ~ j- .

JUnd die Varianz der Schätzung B= Y ergibt sich mit 2.2 (4) aus J = XTX zu

(10) Var(B) = } 0-2

3.2.2 Modelle für eine quantitative Variable

Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne­

ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,

wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt

(1) P, = p,(z) := E(Y IZ = z) .

Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das

lineare Regressionsmodell

und in 2.2.1 das Polynomregressionsmodell

3.2 Modelle für eine beobachtete Covariable 7.7.10

(KM)"

Für Y E IR] ist die orthogonale Projektion PD. Y gegeben durch J

(4) P - (- -) IR] D.JY = y. e + = y, ... , Y E mit

- 1 'I\"' Y = J ~ Yj

J

(5) (Mittelwert von y).

Hieraus erhält man die expliziten Darstellungen der Schätzungen für e und p,:

(6)

(7) 4=Y·e +

J1 2: Y.

. J J

- - ] = (Y, ... , Y) E IR

(Mittelwert von Y)!

Die Deviance

(8) 2 - 2 Dev(~J) = 11 Y - 411 = 2: (Y.- Y) =: SYY

. J J

3-4

ist der Summe der quadratischen Abweichungen aller Beobachtungen von ihrem

Mittelwert. Die Schätzung für 0-2 ist daher die übliche empirische Varianz der Be­

obachtungen Y1' ... , Y]

A2 _ 1 'I\"' (Y y-)2 0- - J-1 ~ j- .

J

(9)

Und die Varianz der Schätzung B = Y ergibt sich mit 2.2 (4) aus J = XTX zu

(10) Var(B) = } 0-2

3.2.2 Modelle für eine quantitative Variable

Wir betrachten jetzt wieder eine Einzelbeobachtung und gehen davon aus, daß ne­

ben der Zielvariablen Y nur eine weitere quantitative Covariable Z beobachtet wird,

wobei der Erwartungswert p, = E(Y) nur vom Wert z dieser Covariablen Z abhängt

(1) P, = p,(z) : = E(Y I Z = z) .

Für diese Situation haben wir bereits in 2.1.1 (dort mit der Variablen x statt z) das

lineare Regressionsmodell

und in 2.2.1 das Polynomregressionsmodell

Page 61: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-5

kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen­

vektor x = (1, z, z2, ... , zS-l) E IRS eine Funktion x = h(z) des beobachteten Wertes z

ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem

man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor­

gegebene Funktionen h von dem beobachteten Wert z abhängens

(2) x = h(z) bzw. x = h (z)s s

für s = 1, ...,5.

Beispiele für solche Funktionen h sind:s

• h (z) = 1, d.h. x = 1 (konstante Covariable)s s

• h (z) = z, d.h. x =z (identische Transformation)s s

• h (z) = log z, d.h. x = log z (log-Transformation)s s

• h (z) = z1 d.h. x = z1 (Potenz-Transformation)s s

wobei im letzten Fall der Parameter "( E IR fest vorgegeben sein muß (wenn "( ein zu­

sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).

Das zugehörige Modell lautet dann

(3)

Betrachten jetzt wieder einen Vektor Y = (Yl, ..., Y

J) von J Beoabchtungen mit der

zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar­

tungsvektor Jl = E(Y)

(4) Jl = X() bzw. 5Jl E Jt'= X [IR ].

Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~J umfaßt

weil dann die - typischerweise interessierende - lineare Hypothese

(d.h. die Covariable z hat keinen Einfluß)

mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste

Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl

= 1 ist konstant), und (3)

reduziert dann zu

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-5

kennengelernt. Letztes ist ein lineares Modell, wobei der zugehörige Covariablen­

vektor x = (1, z, z2, ... , zS--l) E IRS eine Funktion x = h(z) des beobachteten Wertes z

ist. Man erhält nun eine etwas allgemeinere Klassen von Linearen Modellen, indem

man einen formalen Covariablenvektor x betrachtet, dessen Komponenten über vor­

gegebene Funktionen h von dem beobachteten Wert z abhängen s

(2) x = h(z) bzw. x = h (z) s s

für s = 1, ... ,5.

Beispiele für solche Funktionen h sind: s

• h (z) = 1, d.h. x = 1 (konstante Covariable) s s

• h (z) = z, d.h. x =z (identische Transformation) s s

• h (z) = log z, d.h. x = log z (log-Transformation) s s

• h (z) = z'"Y d.h. x =z'"Y (Potenz-Transformation) s s

wobei im letzten Fall der Parameter '"Y E IR fest vorgegeben sein muß (wenn '"Y ein zu­

sätzlicher unbekannter Parameter ist, so liegt kein Lineares Modell mehr vor).

Das zugehörige Modell lautet dann

(3)

Betrachten jetzt wieder einen Vektor Y = (Yl, ... , Y

J) von J Beoabchtungen mit der

zugehörigen J x S Covariablen-Matrix so lautet das Lineare Modell für den Erwar­

tungsvektor Jl = E(Y)

(4) Jl = X() bzw. 5 Jl E Jt'= X [IR ].

Es zweckmäßig, das Modell so zu wählen, daß es das konstante Modell ~ J umfaßt

weil dann die - typischerweise interessierende - lineare Hypothese

(d.h. die Covariable z hat keinen Einfluß)

mit dem F-Test überprüfen werden kann. Aus diesem Grund wird meist die erste

Modellvariable xl konstant = 1 gesetzt zu wählen (d.h. hl = 1 ist konstant), und (3)

reduziert dann zu

Page 62: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-6

(6) p,.J

für j = 1, ...,1.

Beipiel: Das lineare Regressionsmodell (in transformierter Variable)

Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier­

ten Variablen x

(7) für j = 1, ... ,J,

bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener

Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re­

gressionsanalyse haben wir bereits in 2.5.4 behandelt.. D

Beispiel: Das Polynom-Regressionsmodell (in transformierter Variable)

Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo­

dell in der transformierten Variablen x

(8) für j = 1, ...,J

bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion

x= h(z) der beobachteten Covariablen z ist. D

3.2.3 Das vollständige Modell für einen Faktor

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier­

ter) Faktor A E {I, ...,K} mit K Stufen beobachtet wird, und der Erwartungswert ei­

ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt

(1) p, = p,(k) := E(Y IA = k) .

Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein­

zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.

für k = 1, ..., K

mit beliebigen Parametern el , ... , eK

E IR. Der Parameter ek

ist hier direkt interpre-

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-6

(6) J-L. J

für j = 1, ... ,1.

Beipiel: Das lineare Regressionsmodell (in transformierter Variable)

Speziell für S = 2 ergibt sich aus (6) das lineare Regressionsmodell in der transformier­

ten Variablen x

(7) für j = 1, ... ,l,

bei dem der Erwartungswert eine lineare Funktion in x = h(z) mit fest vorgegebener

Funktion h ist (der Index ,,2" bei x und h ist hier unterdrückt). Die zugehörige Re-

gressionsanalyse haben wir bereits in 2.5.4 behandelt .. D

Beispiel: Das Polynom-Regressions modell (in transformierter Variable)

Eine Erweiterung des linearen Regressionsmodells ist das Polynom-Regressionsmo­

dell in der transformierten Variablen x

(8) für j = 1, ... ,l

bei dem der der Erwartungswert ein Polynom in einer (vorgegebenen) Funktion

x = h(z) der beobachteten Covariablen z ist. D

3.2.3 Das vollständige Modell für einen Faktor

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y nur ein weiterer (codier­

ter) Faktor A E {I, ... , K} mit K Stufen beobachtet wird, und der Erwartungswert ei­

ner Einzelbeobachtung Y nur von der beobachteten Stufe k des Faktors A abhängt

(1) J-L = J-L(k) : = E(Y I A = k) .

Das allgemeinste Modell für einen Faktor besagt, daß der Erwartungswert einer Ein­

zelbeobachtung Y auf beliebige Weise vom Faktor A abhängen kann, d. h.

für k = 1, ... , K

mit beliebigen Parametern el , ... , eK

E IR. Der Parameter ek

ist hier direkt interpre-

Page 63: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-7

tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.

Bezeichnet A. E { 1, ...,K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so]

lautet das Modell für alle 1 Beobachtungen

(MIF) falls k =A.J

für alle j, k.

A=k ,

Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit

AI k = 1(2)

läßt sich das Modell äquivalent schreiben als

(MIF)~

Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor

(3) (direkte Parametrisierung).

In Vektorschreibweise lautet das Modell für 1 Beobachtungen

(MIF) ,

wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als

Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek

E IRK, wobei

k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen]

beobachteten Stufen

(4) Rang (I A) = # {A. Ij = 1, ...,l}.]

Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe

k = 1, ...,K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be­

schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man

die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend

ändern.

Aus der Nebenbedingung an die Indikatorvariablen

(5)

ergibt sich die äquivalente Modelldarstellung

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-7

tierbar als Erwartungswert der Beoabchtung Y bei gegebener Stufe k des Faktors A.

Bezeichnet A. E { 1, ... , K} die Stufe des Faktors A für die Beobachtung j = 1, ... ,1, so ]

lautet das Modell für alle 1 Beobachtungen

(MIF) falls k =A. J

für alle j, k.

Unter Verwendung der Indikatorvariablen I~ = I{A = k} mit

A I k = 1 (2) A=k ,

läßt sich das Modell äquivalent schreiben als

(MIF)~

Dies ist ein Lineares Modell mit S = K Parametern und dem Parametervektor

(3) (direkte Parametrisierung).

In Vektorschreibweise lautet das Modell für 1 Beobachtungen

(MIF) ,

wobei die zugehörige lxK-Modellmatrix IA = (I~j ) nur Nullen und Einsen als

Komponenten hat. Die j-te Zeile von I A ist der k-te Einheitsvektor ek

E IRK, wobei

k = A. die zugehörige Stufe ist. Der Rang von IA ist die Anzahl aller verschiedenen ]

beobachteten Stufen

(4) Rang (I A) = # { A. I j = 1, ... ,l}. ]

Folglich gilt die Rangbedingung Rang (I A) = K genau dann, wenn jede Stufe

k = 1, ... , K auch mindestens einmal beobachtet wurde. Wir setzen dies jetzt ohne Be­

schränkung der Allgemeinheit voraus, denn wenn dies nicht erfüllt ist, kann man

die Stufen auf alle beobachteten Stufen reduzieren und die Codierung entsprechend

ändern.

Aus der Nebenbedingung an die Indikatorvariablen

(5)

ergibt sich die äquivalente Modelldarstellung

Page 64: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-8

(MIF)~ mit

für k = 2, ..., K.

Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,

...,e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang

als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er­

gibt sich aus

(6) e{ = E(YIA = 1),

e~ = E(YIA =k) - E(YIA = 1) für k = 2, ..., K.

Der Vektor eder direkten Parametrisierung ergibt sich aus e' wie folgt:

(7) für k = 2, ..., K.

In Vektorschreibweise lautet das Modell

(MIF) " Jl = xe'

wobei die JxK-Modellmatrix folgende Spaltendarstellung besitzt

d.h. X enthält als erste Spalte den konstanten Vektor e+und stimmt in den restli­

chen Spalten mit der Matrix I A überein.

Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die

von den Spalten von IA bzw. X erzeugten Modellräume überein

In "parameterfreier" Schreibweise lautet das Modell

(MIF)* Jl E .At

und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den

Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At

umfaßt das konstante Modell für e1 = e2 = ... = eJ bzw. e~ = ... = e; = 0, d.h.

Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~J

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-8

(MIF)~ mit

für k = 2, ... , K.

Dies ist eine Kontrast-Parametrisierung mit der Referenzstufe 1) weil die Parameter e~,

... , e~ jeweils den Kontrast zur Stufe 1 angeben, die man in diesem Zusammenhang

als Referenzstufe interpretiert. Die inhaltliche Interpretation dieser Parameter er­

gibt sich aus

(6) e{ = E(YIA = 1),

e~ = E(YIA =k) - E(YIA = 1) für k = 2, ... , K.

Der Vektor e der direkten Parametrisierung ergibt sich aus e' wie folgt:

(7) für k = 2, ... , K.

In Vektorschreibweise lautet das Modell

(MIF) " Jl = X e'

wobei die lxK-Modellmatrix folgende Spaltendarstellung besitzt

d.h. X enthält als erste Spalte den konstanten Vektor e + und stimmt in den restli­

chen Spalten mit der Matrix I A überein.

Da die Modellformulierungen (MIF) 1 und (MIF) 11 äquivalent sind, stimmen die

von den Spalten von IA bzw. X erzeugten Modellräume überein

In "parameterfreier" Schreibweise lautet das Modell

(MIF) * Jl E .At

und hieraus erkennt man, daß die direkte bzw. die Kontrast-Parametrisierung den

Modellraum .At lediglich durch andere Koordinaten beschreiben. Das Modell .At

umfaßt das konstante Modell für e 1 = e 2 = ... = e J bzw. e ~ = ... = e; = 0, d.h.

Umgekehrt betrachtet, ergibt sich das Modell .At aus dem konstanten Modell ~ J

Page 65: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-9

durch Hinzufügen der K-1 Indikatorvariablen 11, ...,I~ für die Stufen 2, ..., K von A.

Die - typischerweise interessierende - lineare Hypothese

(d.h. der Faktor A hat keinen Einfluß)

läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im

Rahmen einer sogenannten Varianzanalyse überprüfen (vgl. Abschnitt 3.2.4).

Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man

statt der Stufe 1 eine beliebige Stufe rE {I, ...,K} als Referenzstufe wählt:

für alle j.

Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern

(11) B' = Br r' für k :;z= r.

Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine

geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er­

halten kann.

Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame­

trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),

wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man

dort Faktoren für ein Modell definiert.

3.2.4 Schätzungen im vollständigen Modell für einen Faktor

Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher

davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind,] ] ]

d.h. es gibt Indizes

(1)

(2)

Dann ist

{} A. = k]

mit

für alle j und k.

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-9

durch Hinzufügen der K-1 Indikatorvariablen 11, ... , I~ für die Stufen 2, ... , K von A.

Die - typischerweise interessierende - lineare Hypothese

(d.h. der Faktor A hat keinen Einfluß)

läßt sich dann - unter der Normalverteilungsannahme (NVY) - mit dem F-Test im

Rahmen einer sogenannten Varianz analyse überprüfen (vgl. Abschnitt 3.2.4).

Eine weitere äquivalente Modelldarstellung ergibt sich analog (MIF)" wenn man

statt der Stufe 1 eine beliebige Stufe rE {I, ... , K} als Referenzstufe wählt:

für alle j.

Dies ist ebenfalls ein Lineares Modell mit S = K und den Parametern

(11) B' = B r r' für k ;z= r.

Hierdurch ergeben sich aber keine prinzipiell neuen Aspekte, weil man durch eine

geeignete Umnumerierung (Umcodierung) der Stufen wieder die Form (MIF)" er­

halten kann.

Da die Kontrast-Parametrisierung einige Vorzüge gegenüber der direkten Parame­

trisierung hat (speziell bei der Betrachtung mehreren Faktor-Variablen, vgl. 3.3),

wird sie in statistischen Programm-Paketen,meist automatisch gewählt wenn man

dort Faktoren für ein Modell definiert.

3.2.4 Schätzungen im vollständigen Modell für einen Faktor

Zur Bestimmung der Schätzungen im vollständigen Modell ist es übersichtlicher

davon auszugehen, daß die Beobachtungen (Y.,A.) nach den Stufen A. sortiert sind, ] ] ]

d.h. es gibt Indizes

(1)

(2)

Dann ist

{} A. = k ]

mit

für alle j und k.

Page 66: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-10

die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle

des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe

von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe

k ist. Formal setzt man

für alle 1 < k < K, 1 < i < I(k).YkO:=YJ 0

z k+z-1

Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor

(4)

alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in

Blockgestalt schreiben als

Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J­

dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)

K(7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .

k=l

Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt

sich unter Verwendung der Doppelindizes schreiben als

(MIF)' für alle 1 < k < K, 1 < i < I(k).

Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur

von der Stufe des Faktors abhängt.

Wir wollen jetzt die Schätzungen (), (i, und 52 explizit angeben. Bezeichnet

(8) mit 8 als Kronecker-Symbol

den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"

(9)

genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent­

sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek+als k-te Spalte

und läßt sich daher in Spaltendarstellung schreiben als

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-10

die Anzahl aller Beobachtungen bei denen der Faktor A die Stufe k hat. Anstelle

des Einzel-Index j verwendet man auch den Doppelindex (k, i), bei dem k die Stufe

von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe

k ist. Formal setzt man

(4) Yk·:=YJ . z k+z-1 für alle 1 < k < K, 1 < i < I(k).

Für jede Stufe k enthält dann der I(k)-dimensionale Zufallsvektor

alle Beobachtungen der Stufe k, und der gesamte Beobachtungsvektor läßt sich in

Blockgestalt schreiben als

Diese Schreibweise mit Doppelindizes entspricht einer Darstellung des J­

dimensionalen Raumes IRJ als Produkt aller I(k)-dimensionalen Räume IR1(k)

K (7) IRJ = IR1(1) x IR1(2) x ... x IR1(K) = TI IR1(k) .

k=l

Das vollständige Modell (MIF) für einen Faktor mit direkter Parametrisierung läßt

sich unter Verwendung der Doppelindizes schreiben als

(MIF)' für alle 1 < k < K, 1 < i < I(k).

Dieses Modell hat die Dimension S = K und besagt, daß der Erwartungswert nur

von der Stufe des Faktors abhängt.

Wir wollen jetzt die Schätzungen (), (i, und 0-2 explizit angeben. Bezeichnet

(8) mit 8 als Kronecker-Symbol

den (k, i)-ten Einheitsvektor, so hat der ))k-te Summenvektor"

(9)

genau an den Komponenten (k',i') eine Eins (und Nullen sonst) die der Stufe k ent­

sprechen, d.h. wo k' = k ist. Die JxK Modellmatrix X hat gerade ek + als k-te Spalte

und läßt sich daher in Spaltendarstellung schreiben als

Page 67: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-11

Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.

(11) Rang X = K.

Der zugehörige Modellraum .At läßt sich wie folgt darstellenK

(11) .At = {k'f1

Bkek+ 1 B=(Bl' .... ,BK)EIRK

}

{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ..., I(k) }K

D.1(1) x D.1(2) x ... x D.1(K) = kD1

D.1(k)

mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).

Die Spalten von X sind wegen

(12) für alle k, l = 1, ... ,K

paarweise orthogonal und folglich läßt sich die orthogonale Projektion Pc4 für be­

liebiges y E IR] leicht bestimmen zu

K(13) P y- 2: Yk+· ek+, wobeic4 -

k=l

(14) (y , ek+) / 11 ek+ 112 1

(y-Mittelwert für Stufe k).Yk+ := I(k) 2; Ykiz

Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise

(15)

(16)

(Mittelwert aller Beobachtungen der Stufe k)

Die Deviance

I (17)

ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih­

rem Stufen-Mittelwert Yk +" Hieraus ergibt sich die Schätzung von 0-2 zu

3.2 Modelle für eine beobachtete Covariable 7.7.10

Hieraus ergibt sich sofort die Gültigkeit der Rangbedingung (RB), d.h.

(11) Rang X = K.

Der zugehörige Modellraum .At läßt sich wie folgt darstellen K

(11) .At = {k'f1

Bkek+ 1 B=(Bl' .... ,BK)EIRK

}

{ J.L E IR] 1 fLki = fLkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K

D.1(1) x D.1(2) x ... x D.1(K) = k D1

D.1(k)

mit D.1(k) C IR1(k) als Diagonale des IR1(k\ vgl. 3.2.1 (3).

Die Spalten von X sind wegen

(12) für alle k, l = 1, ... ,K

3-11

paarweise orthogonal und folglich läßt sich die orthogonale Projektion P c4 für be­

liebiges y E IR] leicht bestimmen zu

K (13) P y- 2: Yk+· ek+, wobei c4 -

k=l

(14) (y , ek+) / 11 ek+ 112 1

(y-Mittelwert für Stufe k). Yk+ := I(k) 2; Yki z

Hieraus ergeben sich die Schätzungen () und (i, in Doppelindex-Schreibweise

(15) A - 1 Bk = Y k+ = I(k) 2; Yki

z (Mittelwert aller Beobachtungen der Stufe k)

Die Deviance

I (17)

ist die Summe aller quadratischen Abweichungen der Beobachtungen Yki von ih­

rem Stufen-Mittelwert Y k +" Hieraus ergibt sich die Schätzung von 0-2 zu

Page 68: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-12

(18)

(19)

1 - 2J-K 2: 2: (Yki - Y kt )

k i

J~K 2: [I(k) -1] 5~k

1 - 2I(k)-l ~ (Yki - Y kt )

z

mit

(empirische Varianz der Stufe k)

für k = 1, ...,K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen­

dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten

Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät­

zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.

Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch

ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die

Stufen-Mittelwerte Yk t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.

Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus

ergibt sich

d.h. die Komponenten von () sind paarweise unkorreliert mit

(22)

Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK

2 TA 2 1 2(23) 0-c = Var(c 0) = 0- .~ I(k) ck '

und speziell für den Unterschied ()k -()Z = Ykt

- YZt

zweier Komponenten ist

(24) für k;= l .

3.2 Modelle für eine beobachtete Covariable

(18) 1 - 2

J-K 2: 2: (Yki - Y kt ) k i

J~K 2: [I(k) -1] 5~ k

7.7.10 3-12

mit

(19) 1 - 2 I(k)-l ~ (Yki - Y kt ) (empirische Varianz der Stufe k)

z

für k = 1, ... , K. Hierbei ist 5~ die Schätzung von 0-2 unter ausschließlicher Verwen­

dung der Beobachtungen Y k = ( Y k1 ' ... , YkI(k) ) der Stufe k. Nach der zweiten

Darstellung in (18) ist somit die Schätzung 52 ein gewichteter Mittelwert der Schät­

zungen 5~ aus den Daten Y k mit I(k) -1 als Gewichtungsfaktor.

Folglich lassen sich alle zur Bestimmung der Schätzungen relevanten Größen auch

ohne Kenntnis der Einzelwerte (Yki ) berechnen, wenn die Stufenumfänge I(k) , die

Stufen-Mittelwerte Y k t sowiedie empirischen Varianzen 5~ aller K Gruppen vorliegen.

Wir wollen jetzt noch die Covarianzmatrix des Schätzers () angeben. Aus

ergibt sich

d.h. die Komponenten von () sind paarweise unkorreliert mit

(22)

Hieraus ergibt sich die Varianz einer Linearkombination cT() für festes cE IRK

(23)

und speziell für den Unterschied ()k -()Z = Ykt

- YZt

zweier Komponenten ist

(24) für k;= l .

Page 69: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable

3.2.5 Einfache Varianzanalyse

7.7.10 3-13

Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die

Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän­

digen Modell (M1F) gilt dann

(1) für alle 1 < k < K, 1 < i < I(k),

und alle Einzelbeobachtungen Yki

sind stochastisch unabhängig voneinander. Die

zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert

haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:

(2)

(3)

Nullhypothese

Alternative

Ho: B1 = B2 = ... = BK

(kein Unterschied bzgl. der Faktorstufen) !

H: Bk :;= BZ für mindestens ein Paar k:;= l .

(Unterschiede bei mindestens zwei Stufen k!V.

Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen

für den Parameter bzw. Erwartungswert

(4)

(5)

q-O =~K = {BEIRK

IB1 =···=BK }

J...40 = ~J = {J.L E IR 1!-L1 = ... = !-LJ} .

bzw.

Das durch (M1F) gegebene Modell ...4 umfaßt ...40

und folglich können wir das

Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich

erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon­

stante Modell) ist nach 3.2.1 gegeben durch

(6)

(7)

tlOki = 00k = Y ++ mit

- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).

Die bei der Zerlegung der Modellabweichung um ...40

auftretenden Größen werden

im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-13

3.2.5 Einfache Varianzanalyse

Wir setzen die Ausführungen des letzten Abschnitts, wobei wir jetzt zusätzlich die

Normalverteilung (NVY) der Beobachtung voraussetzen. Unter dem Modell vollstän­

digen Modell (M1F) gilt dann

(1) für alle 1 < k < K, 1 < i < I(k),

und alle Einzelbeobachtungen Yki

sind stochastisch unabhängig voneinander. Die

zentrale Frage ist, ob die Stufen des Faktors einen Einfluß auf den Erwartungswert

haben oder nicht, und dies läßt sich mit linearen Hypothesen wie folgt formulieren:

(2) Nullhypothese Ho: B1 = B2 = ... = BK

(kein Unterschied bzgl. der Faktorstufen) !

(3) Alternative H: Bk :;= BZ für mindestens ein Paar k:;= l .

(Unterschiede bei mindestens zwei Stufen k!V.

Die Nullhypothese beschreibt gerade das konstante Modell mit den Modellräumen

für den Parameter bzw. Erwartungswert

(4)

(5)

q-O =~K = {BEIRK

IB1 =···=BK }

J ...40 = ~ J = {J.L E IR I /-L1 = ... = /-L J} .

bzw.

Das durch (M1F) gegebene Modell ...4 umfaßt ...40

und folglich können wir das

Testproblem mit dem F-Test aus Abschnitt 2.6 entscheiden. Die hierfür zusätzlich

erforderliche Schätzung tlo bzw. 00 unter der Nullhypothese HO (d.h. für das kon­

stante Modell) ist nach 3.2.1 gegeben durch

(6)

(7)

tlOki = 00k = Y ++ mit

- 1 1-Y ++:= J 2( t Y ki = J 2( I(k)· Y k+ (Mittelwert aller Beobachtungen).

Die bei der Zerlegung der Modellabweichung um ...40

auftretenden Größen werden

im hiesigen Zusammenhang oft suggestiv wie folgt bezeichnet:

Page 70: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-14

(8)

(9)

(10)

2 - 2SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)

k i Z

(Summe gewichteter Abweichungs-Quadrate: TotaV.

A 2 - 2SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)

k i Z

(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),

A A 2 - - 2SQZ:= L:,Dev = IIJL- JLO 11 = 2:= !(k) (Yk +- Y++)

k(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),

Die zugehörige Zerlegung der Modellabweichungen lautet dann

(11) SQT = SQ! + SQZ .

und die F-Statistik ergibt sich zu:

(12) F=SQZ /(K-l)

SQ! /( J-K)(F-Statistik) !

Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der

Varianzanalyse zusammengestellt.

Streuung (Ursache) Dev =SQ FG MQ=SQ/FG

Zwischen den Gruppen L:,Dev =SQZ MG =K-l SQZ/(K-l)

In den Gruppen Dev(Jt) = SQ! FG(Jt) =J-K SQ!/ (J- K) = 0-2

Total Dev(Jto) =SQT FG(Jto)=J-l SQT/ (J-l) = o-~

Tab. 1: Tafel der (einfachen) Varianzanalyse

Die Nichtzentralitäten "( und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa­

chen sich hier zu

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-14

(8) 2 - 2 SQT:=Dev(JtJ = IIY - 40 11 = 2:= 2:= (Yk · - Y++)

k i Z

(Summe gewichteter Abweichungs-Quadrate: TotaV.

(9) A 2 - 2 SQ! := Dev(Jt) = IIY - JL 11 = 2:= 2:= (Yk · - Y k +)

k i Z

(Summe gewichteter Abweichungs-Quadrate: Innerhalb der Gruppen),

(10) SQZ := L,Dev

(Summe gewichteter Abweichungs-Quadrate: Zwischen den Gruppen),

Die zugehörige Zerlegung der Modellabweichungen lautet dann

(11) SQT = SQ! + SQZ .

und die F-Statistik ergibt sich zu:

(12) F= SQZ /(K-1)

SQ! /( J-K) (F-Statistik) !

Die für die Berechnung erforderlichen Größen werden in der sogenannten Tafel der

Varianzanalyse zusammengestellt.

Streuung (Ursache) Dev =SQ FG MQ=SQ/FG

Zwischen den Gruppen L,Dev =SQZ MG =K-1 SQZj(K-1)

In den Gruppen Dev( Jt) = SQ! FG(Jt) =J-K SQ! /(J-K) = 52

Total Dev(Jto) =SQT FG(Jto)=J-1 SQT /(J-1) = 5~

Tab. 1: Tafel der (einfachen) Varianzanalyse

Die Nichtzentralitäten '"Y und 8 aus 2.6.1 (5) der zugehörigen F-Verteilung vereinfa­

chen sich hier zu

Page 71: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-15

(13)

(14)

"( = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _e)2 mita 2 .At 0 a2 k k

e:= j ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)k

Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man

sich für die Gruppenunterschiede Bk - BZfür k:;= l interessieren, um festzustellen, wel­

che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun­

terschiede unter Verwendung der Einheitsvektoren ek

als Linearkombinationen

(17)

des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für

diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche

Varianz des geschätzten Unterschieds (\-eZ haben wir in 3.2.4 (24) schon angege­

ben.

Spezialfall: K = 2 Stufen

Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui­

valent

vs.

Dies ist ein Testproblem über die Linearkombination B1

- B2

des Parameters Bund

läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge­

nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza­

nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs­

wert B1und B2

in zwei Stichproben (Y1i) und (Y2

) mit gleicher Varianz 0.2.

3.2 Modelle für eine beobachtete Covariable 7.7.10

(13)

(14)

'"Y = -.l11J-L - P J-L 11 2 = -.l ~ I(k)·(B _B)2 mit a 2 .At 0 a2 k k

- 1 B:= J ~ I(k)· Bk (gewichtetes Mittel der Erwartungswerte)

k

3-15

Insbesondere bei einer Ablehnung der Nullhypothese durch den F-Test wird man

sich für die Gruppenunterschiede Bk - BZ für k:;= l interessieren, um festzustellen, wel­

che Unterschiede für eine Ablehnung verantwortlich sind. Da sich die Gruppenun­

terschiede unter Verwendung der Einheitsvektoren ek

als Linearkombinationen

(17)

des Parameters B darstellen lassen, lassen sich Konfidenzintervalle und Tests für

diese Unterschiede gemäß Abschnitt 2.5.2 konstruieren. Die hierfür erforderliche

Varianz des geschätzten Unterschieds (\ -eZ haben wir in 3.2.4 (24) schon angege­

ben.

Spezialfall: K = 2 Stufen

Wenn der Faktor nur K = 2 Stufen hat, so lauten die Hypothesen (2) und (3) äqui­

valent

vs.

Dies ist ein Testproblem über die Linearkombination B1

- B2

des Parameters Bund

läßt sich mit dem zweiseitigen t-Test aus 2.5 überprüfen und die F-Statistik ist ge­

nau das Quadrat der zugehörigen t-Statistik Taus 2.5, d.h. F = T2. - Die Varianza­

nalyse reduziert sich hier also auf den zweiseitigen Vergleich zweier Erwartungs­

wert B1 und B2

in zwei Stichproben (Y1i) und (Y2

) mit gleicher Varianz 0.2.

Page 72: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-16

3.2.6 Schärfe des F-Tests bei der Varianzanalyse

Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer

untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be­

trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier­

ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen

gleich

(1) l(k) = l für k = 1, ..., K (balanciertes Design).

Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver­

einfacht sich zu

(2) mit- 1e:= K 2: ek (Mittelwert).

k

Nach 2.6.2 ist die Schärfe des F-Tests

(3) Pow(rr,a) = P{ F (rr) > F }m,n m,n,et

mit m = K-l, n = K(I-l).

bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse

der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter­

suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an

und betrachten den maximalen Unterschied

Die Nichtzentralität läßt sich dann wie folgt abschätzen:

(6) "imin < "i < "imax(I() wobei

"imax(I()

l·K· L1~ax

4a2

l· (K2 -1) . L12max

für gerades K

für ungerades K

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-16

3.2.6 Schärfe des F-Tests bei der Varianzanalyse

Wir wollen jetzt die Schärfe des F-Tests bei der einfachen Varianzanalyse genauer

untersuchen, wobei wir zuerst das (in der Praxis bevorzugte) balancierte Design be­

trachten und den allgemeinen unbalancierten Fall nur kurz abhandeln. Beim balancier­

ten Design ist die Anzahl der Beobachtungen für die Stufe k ist für alle Stufen

gleich

(1) l(k) = l für k = 1, ... , K (balanciertes Design).

Dann ist J = l K die Gesamtzahl der Beobachtungen und die Nichtzentralität ver­

einfacht sich zu

(2) I - 2 "i = - 2: (B -B)

a 2 k k

mit - 1 B : = K 2: Bk (Mittelwert).

k

Nach 2.6.2 ist die Schärfe des F-Tests

(3) Pow("{,a) = P{F ("{) > F } m,n m,n,Ct

mit m = K-l, n = K(I-l).

bei vorgegebenen Werten für K, l und a streng wachsend in "i, und für eine Analyse

der Schärfe ist gleichbedeutend mit einer Analyse der Nichtzentralität "(. Zur Unter­

suchung von "i ordnen wir die unbekannten Parameter nach ihrer Größe an

und betrachten den maximalen Unterschied

Die Nichtzentralität läßt sich dann wie folgt abschätzen:

(6) "imin

l·K· .j~ax

4a2

l. (K2 -1) . .j2 max

< "i

für gerades K

für ungerades K

wobei

Page 73: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-17

Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wennmm

die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:

(7) I = Imin·

Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe­

der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter

mit B(1) übereinstimmen müssen und für ungerades K = 2M+1 genau M Parameter

mit B(1) oder mit B(K) übereinstimmen müssen:

(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K

Im Rahmen einer Versuchplanung sucht man den erforderlichen MindestumJang 1

pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter­

schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß istmax

dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimalemm

Schärfe ist dann

(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l)mzn m,n - m,n,Ct

8 = ~ (L1;ax )2.

Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt­

weise für 1= 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.

Wir betrachten noch kurz das unbalancierte Design) bei dem die Anzahlen lk: = l(k)

mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I

aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit

dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu

(10) Imin[1(1) +1(10] 1(K1) [1-1(K1)] . L1~ax

172mit

Das Minimum wird - analog (7) - auch angenommen für

(11) B(k) = [1-1(K1)] B(l) +1(K1) B(K) für alle 1< k < K.

Bei festem 1(1) +1(K) wird Imin maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da

die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.

3.2 Modelle für eine beobachtete Covariable 7.7.10 3-17

Diese Abschätzung ist scharf. Die untere Schranke I . wird angenommen wenn mm

die restlichen Parameter mit dem Mittelwert von B(l) und B(K) übereinstimmen:

(7) I = 'min·

Und die obere Schranke wird angenommen, wenn alle restlichen Parameter entwe­

der mit B(l) oder B(K) übereinstimmen, wobei für gerades K = 2M genau M Parameter

mit B(1) übereinstimmen müssen und für ungerades K = 2M + 1 genau M Parameter

mit B(1) oder mit B(K) übereinstimmen müssen:

(8) B(k) = B(l) , B(l) = B(K) für 1 < k < ~ < K~2 < l < K

Im Rahmen einer Versuchplanung sucht man den erforderlichen Mindestumfang 1

pro Stufe, bei dem die Schärfe für einen vorgegebenen relevanten maximalen Unter­

schied L1 und vorgegebenes 17 einen vorgegebenen Wert 1- ß erreicht (ß ist max

dann das Fehlerrisiko 2. Art für diesen Unterschied). Die zu I . gehörige minimale mm

Schärfe ist dann

(9) Pow(r . ,a) = P{F (1·8) > F } mit m = K-1, n = K(l-l) mzn m,n - m,n,Ct

Zur Bestimmung des gesuchten Mindestumfangs 1 pro Stufe berechnet man schritt­

weise für 1 = 2, 3, ... die minimale Schärfe (9) solange bis diese erstmals > 1-ß ist.

Wir betrachten noch kurz das unbalancierte Design, bei dem die Anzahlen lk: = l(k)

mit k variieren können (aber nicht müssen). Das Minimum der Nichtzentralität I

aus 3.2.5 (13) hängt jetzt von den zugehörigen Anzahlen 1(1) bzw. 1(K) der Stufen mit

dem kleinsten bzw. größten Parameter B(1) bzw. B(K) ab und ergibt sich zu

(10) Imin [1(1) +1(10 l 1(K1) [1-1(K1)l· L1~ax

172 mit

Das Minimum wird - analog (7) - auch angenommen für

(11) B(k) = [1-1(K1)l B(l) +1(K1) B(K) für alle 1< k < K.

Bei festem 1(1) + 1(K) wird 'min maximal bzgl. 1(K1) für 1(K1) = ~, d.h. für 1(1) = 1(K). Da

die Indizes ,,(1)" und ,,(K)" unbekannt sind, ist das balancierte Design hier optimal.

Page 74: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 18

3.3 Modelle für zwei beobachtete Covariablen

Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co-

variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus

3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine

der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das

mit den Modellen aus 3.2 beschrieben werden . Wir betrachten jetzt nur noch sol-

che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter-

scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder

Faktoren sind.

3.3.1 Einfache Covarianz-Analyse

Bei der einfachen Varianzanalyse haben wir Modelle für einen beobachteten Faktor A

betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese

Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co-

variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und

wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei

mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ..., J wollen

wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k = A . die 3

Stufe von A angibt und 1 5 i 5 I(k) der laufende Beobachtungsindex innerhalb der

Stufe k ist. Dementsprechend bezeichnet zBi den Wert der Variablen z für die Be-

obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor

,u = E(Y) lassen sich dann in Blockgestalt darstellen als

(9 Y = (Y,, . . . , YK) mit Yk = ('ki)i=l, ..., I(k) ,

r = (4 > . . . > r K ) mit = ('ki)i = 1, ..., I(k) .

Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co-

avariblen X = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.

Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener

Stufe k des Faktors A ein lineares Regressionsmodell in X vorliegt, dessen Parame-

ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses

Modell

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-18

3.3 Modelle für zwei beobachtete Covariablen

Für jede Beobachtung seien jetzt neben der Zielvariablen Y noch zwei weitere Co­

variablen gegeben. Das einfachste Modell ist wieder das konstante Modell (KM) aus

3.2, welches hier besagt, daß beide Covariablen keinen Einfluß haben. Hat nur eine

der beiden Covariablen einen Einfluß (und die andere keinen Einfluß), so kann das

mit den Modellen aus 3.2 beschrieben werden. Wir betrachten jetzt nur noch sol­

che Modelle, die einen Einfluß beider Covariablen berücksichtigen. Hierbei unter­

scheiden wir danach, ob eine oder beide Covariablen quantitative Variablen oder

Faktoren sind.

3.3.1 Einfache Covarianz-Analyse

Bei der einfachen Varianz analyse haben wir Modelle für einen beobachteten Faktor A

betrachtet und dazu Tests und Konfidenzbereiche konstruiert. Wir wollen diese

Methoden jetzt auf Situationen erweitern, bei denen zusätzlich eine quantitative Co­

variable z beobachtet wird. Der Faktor A habe wieder insgesamt K> 1 Stufen, und

wir setzen ohne Beschränkung der Allgemeinheit voraus, daß jede Faktor-Stufe bei

mindestens einer Beobachtung j vorkommt. Den Beobachtungsindex j = 1, ... , J wollen

wir wieder (wie in 3.2.3) durch den Doppelindex (k, i) ersetzen, bei dem k =A. die ]

Stufe von A angibt und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der

Stufe k ist. Dementsprechend bezeichnet zki den Wert der Variablen z für die Be­

obachtung (k, i). Der gesamte Beobachtungsvektor Y und sein Erwartungsvektor

Jl = E(Y) lassen sich dann in Blockgestalt darstellen als

(1) Y

Jl

(Y1 ,···, Y K)

(Jl1 ' ... , JlK )

mit Y k = (Yki ) i = 1, ... ,I(k) ,

mit Jlk = (Yki )i=1, ... ,I(k)·

Wie beim linearen Regressionsmodell in 3.2.2 gehen wir von einer formalen Co­

avariblen x = h(z) aus, die eine feste Funktion der beobachteten Covariablen z ist.

Das lineare Regressionsmodell mit einem Faktor besagt nun, daß bei festgehaltener

Stufe k des Faktors A ein lineares Regressionsmodell in x vorliegt, dessen Parame­

ter allerdings von der Stufe k abhängen. In Doppelindizes-Notation lautet dieses

Modell

Page 75: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 19

(LRIF) Pki=Xk+ßkXki f Ü r a l l e l < k < K , l < i < I ( k ) ,

(Lineares Regressionsmodell mit einem Faktor)

mit dem 2 K-dimensionalen Parametervektor

(2) e=(el, . . . , B ~ ) E R 2~ wobei ek = ( x ~ , pk) E IR^.

Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als

Covarianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen-

dung des Kronecker-Symbols bkl läßt sich das Modell äquivalent schreiben als

Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt

(3> X = Diag {xl , . . . , xK} ,

wobei der k-te Block Xk - analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma-

trix ist

(4) Xk = ( 1 , xk ) mit den Spalten 1 = (l)i , xk = (xki)i E IR'(k).

Wir setzen die Gültigkeit des Modells (LRIF) jetzt voraus und wollen zuerst die

Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen

wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde-

stens zwei verschiedene X-Werte xki f X gibt. Für die Minimierung von rcj

genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen

zu minimieren. Mit den Bezeichnungen

(Mittelwert der X-Werte aus Stufe k),

(Mittelwert der Y-Werte aus Stufe k),

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3-19

(LR1F) für alle 1 < k < K, 1 < i < I(k) ,

(Lineares Regressionsmodell mit einem Faktor)

mit dem 2K-dimensionalen Parametervektor

(2) wobei

Das Modell wird als Intra-Class-Regressionsmodel und seine statistische Analyse als

Co varianz-Analyse (Varianzanalyse mit einer Covariablen) bezeichnet. Unter Verwen­

dung des Kronecker-Symbols 6kZ

läßt sich das Modell äquivalent schreiben als

(LR1F), für alle 1 < k < K, 1 < i < I(k) ,

Die zugehörige Jx2K-Covariablenmatrix X hat eine Block-Diagonalgestalt

wobei der k-te Block Xk

- analog der linearen Regression in 2.1.1 - eine I(k)x2-Ma­

trix ist

(4) mit den Spalten I(k) 1 = (1) . , xk

= (xk

.) . E lR . z z z

Wir setzen die Gültigkeit des Modells (LR1F) jetzt voraus und wollen zuerst die

Schätzungen der Parameter herleiten. Damit diese eindeutig bestimmt sind, setzen

wir die Rangbedingung (RB) voraus, die hier besagt, daß es für jede Stufe k minde­

stens zwei verschiedene x-Werte xki

:;= xkj

gibt. Für die Minimierung von

genügt es offensichtlich, für jede Stufe k die quadratischen Abweichungen

I(k) (6) SQ(J-LkIYk) = IIYk -J-LkI12 = i~l (Yki - ['\ + ßkxkJ?

zu minimieren. Mit den Bezeichnungen

(7)

(8)

(Mittelwert der x-Werte aus Stufe k)!

(Mittelwert der Y-Werte aus Stufe k)!

Page 76: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 20

ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells

aus 2.1.1 auf den Beobachtuntsvektor Yk = (Yki) der Stufe k wie folgt 2

Da die Schätzung dk = (Xk,ßk) eine lineare Funktion von Yk ist, ergibt sich aus der

paarweisen Unkorreliertheit von Y ..., YK sofort: 1'

(13) dl, ..., dK sind paarweise unkorreliert.

Insbesondere sind auch ß ..., ß paarweise unkorreliert, und ihre Varianzen lauten 1' K

0 2

(14) var(ßk) = - für k = 1 ,..., K. S,XX

Im Hinblick auf die Parameterschätzung d genügt es also, den Beobachtungsvektor

Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo-

nente Ok = (Xk, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.

Lediglich die Deviance des betrachteten Modells (LRIF) - desssen Modellraum für

,u wir mit A bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.

2.5.4)

2 Hieraus erhält man die Schätzung von a als

Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende

Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie

interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 20

(9) SkxX ~ (xki -xk)2 ~xii I(k) .x/ z z

(10) SkxY ~ (xki - x k)(Yki - Yk) 2: xk Y k · . z z I(k) .xk·Yk Z z

(11) SkYY - 2

~ (Yki - Yk) ~Yfi I(k) . Yk2

z z ergeben sich die Schätzungen durch Anwendung des linearen Regressionsmodells

aus 2.1.1 auf den Beobachtuntsvektor Y k = (Yk ) i der Stufe k wie folgt

(12) ~ k = Yk - ß k x k .

Da die Schätzung 0k = (~k,ßk) eine lineare Funktion von Y k ist, ergibt sich aus der

paarweisen Unkorreliertheit von Y l' ... , Y K sofort:

(13) 01' ... , 0K sind paarweise unkorreliert.

Insbesondere sind auch ß1, ... , ß

K paarweise unkorreliert, und ihre Varianzen lauten

(14) für k = 1 , ... , K.

Im Hinblick auf die Parameterschätzung ° genügt es also, den Beobachtungsvektor

Y in die K Stufen des Faktors A zu zerlegen und die zugehörige Parameterkompo­

nente ()k = (A k, ßk) aus dem entsprechenden Teildatensatz der Stufe k zu schätzen.

Lediglich die Deviance des betrachteten Modells (LR1F) - desssen Modellraum für

Jl wir mit vft bezeichnen - hängt von allen J Beobachtungen ab und ergibt sich (vgl.

2.5.4)

(15) Dev(vft) t y (Yki - [~k + ßkxki ])2

2: (SkYY - ß~ .Skxx ). k

Hieraus erhält man die Schätzung von 0-2 als

(16) Dev(vft) J-2K·

Nachdem wir die Schätzungen angegeben haben, wollen wir jetzt interessierende

Untermodelle bzw. die zugehörigen linearen Hypothesen betrachten. In erster Linie

interessiert man sich dafür, ob eine Wechselwirkung zwischen der Covariablenz und

Page 77: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 21

dem Faktor A besteht, d. h. ob der durch den Parameter ßL quantifizierte (lineare)

Einfluß von X von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man

die lineare Nullhypothese

(17) H : ß =ß = . . . = ß K 0 1 2

bzw. P E A K

(Der lineare Einfluj3 von z ist für alle Stufen von A konstant)

gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch

Ho ergibt das folgende Untermodell

(PRIF) p k i = X k + ß x k i f ü r a l l e l < k < K , l < i < I ( k ) ,

(Paralleles Regressionsmodell mit einem Faktor).

mit dem (K+l)-dimensionalen Parametervektor

(18) K+1

( X , ß ) = ( x l , " ' , X K ~ ß ) E I R '

Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für ,U mit Ao,

so gilt

und wir können die Nullhypothese Ho mit dem F-Test (aus 4.6) überprüfen, sofern

As IRJ ist d.h. die Dimensionsbedingung gilt

die wir jetzt auch voraussetzen wollen. Man beachte, daß A s A wegen K > 1 0

stets gilt.

Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter H ergeben sich zu 0

Die zweite Darstellung von ß zeigt, daß die Schätzung ß ein gewichteter Mittelwert 0 0

der Schätzungen 4, ..., ßK ist, wobei der jeweilige Gewichtungsfaktor SLxx von ßL

umgekehrt proportional zur Varianz (14) von ßL ist. Die Deviance für das Modell 2 Ao und die Schätzung von D lassen sich wie folgt darstellen

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 21

dem Faktor A besteht, d. h. ob der durch den Parameter ßk quantifizierte (lineare)

Einfluß von x von der Stufe k des Faktors A abhängt oder nicht. Hierzu testet man

die lineare Nullhypothese

(17) bzw.

(Der lineare Einfluß von z ist für alle Stufen von A konstant)

gegen ihre Negation als Alternative. Die Einschränkung des Modells (LRIF) durch

HO ergibt das folgende Untermodell

(PRIF) für alle 1 < k < K, 1 < i < I(k) ,

(Paralleles Regressionsmodell mit einem Faktor).

mit dem (K + 1) -dimensionalen Parametervektor

Bezeichnen wir den zum Modell (PRIF) zugehörigen Modellraum für Jl mit .At0'

so gilt

(19)

und wir können die Nullhypothese HO mit dem F-Test (aus 4.6) überprüfen, sofern

.At:;= IR] ist d.h. die Dimensionsbedingung gilt

(20) 2K <J= ~I(k), k

die wir jetzt auch voraussetzen wollen. Man beachte, daß .AtO:;=.At wegen K> 1

stets gilt.

Die Parameter-Schätzungen für das Modell (PRIF) bzw. unter HO ergeben sich zu

(21) ~SkxY

ßo= ...!-".k __ ~SkxX k

~Ok = Yk - ßo x k ! k = 1 , ... , K.

Die zweite Darstellung von ßo zeigt, daß die Schätzung ßo ein gewichteter Mittelwert

der Schätzungen ß1, ... , ß

K ist, wobei der jeweilige Gewichtungsfaktor SkxX von ß

k umgekehrt proportional zur Varianz (14) von ß

k ist. Die Deviance für das Modell

.AtO und die Schätzung von 0-2 lassen sich wie folgt darstellen

Page 78: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 22

Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu

(24) ADev = Dev(Ao) - Dev(~d!) = C Skxx (ßk - ß0l2 L

und stellt eine gewichtete Streuung der Parameter ß ..., ßK um ihren gewichteten 1'

Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.

Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova-

rzanzanalyse zusammen.

Tab. 1: Tafel der (einfachen) Covarianzanalyse

Die für die Schärfe des F-Tests entscheidende Nichtzentralität

Streuung (Ursache)

Anstiege der Einzelgeraden

Um die Einzelgeraden

Um die parallelen Geraden

E [skxx 'ßk ] (25) Y = $ ~ ~ ~ ~ ~ ( ß ~ - ß ~ ) ~ mit Po = L

k E Skxx L

ist - bis auf den Faktor 1 - eine gewichtete quadratische Abweichung der Parame- 0 2

ter ßl, ..., ßK um ihren gewichteten Mittelwert ßo.

Dev = SQ

ADev

Dev(A)

Dev(Ao)

Wenn der F-Test die Hypothese Ho bzw. das Teilmodell 4 abgelehnt hat, so inte-

ressiert man sich für die Unterschiede ßL-ßl der Anstiege verschiedener Stufen k

und I. Hierzu kann man einerseits ein Konfidenzintervall für ß -ß konstruieren L 1

FG

a F G = K - l

F G ( A ) =J- 2K

FG(Ao) = J- K- 1

SQ /FG

ADev/(K- 1)

A 2 0

A 2 0

0

3.3 Modelle für zwei beobachtete Covariablen

(22)

(23)

Dev(...4o) = t y (Yki - [~Ok + ßOxki ])2

A2 = 2: SkYY - ßo .2: Skxx ,

k k

A2 Dev(...4o) 0"0 J-K-l·

11.8.05 3- 22

Der Unterschied beider Modellabweichungen läßt sich vereinfachen zu

(24)

und stellt eine gewichtete Streuung der Parameter ß1, ... , ß

K um ihren gewichteten

Mittelwert ßo dar - mit den Gewichtsfaktoren Skxx.

Die für den F-Test erforderlichen Größen stellt man wieder in einer Tafel der Cova­

rianzanalyse zusammen.

Streuung (Ursache) Dev = SQ FG SQ/FG

Anstiege der Einzelgeraden ~Dev MG =K-l ~Dev/(K-l)

Um die Einzelgeraden Dev(...4) FG(...4) =J-2K A2 0"

Um die parallelen Geraden Dev(...4o) FG(...4o)=J-K-l A2 0"0

Tab. 1: Tafel der (einfachen) Covarianzanalyse

Die für die Schärfe des F-Tests entscheidende Nichtzentralität

(25) mit ßo =

ist - bis auf den Faktor ~ - eine gewichtete quadratische Abweichung der Parame­a

ter ßl' ... , ßK um ihren gewichteten Mittelwert ßo·

Wenn der F-Test die Hypothese HO bzw. das Teilmodell ...40

abgelehnt hat, so inte­

ressiert man sich für die Unterschiede ßk - ßZ der Anstiege verschiedener Stufen k

und l. Hierzu kann man einerseits ein Konfidenzintervall für ßk

- ßZ

konstruieren

Page 79: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 23

oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese

P I Hokl : ßk-ßl = 0 (z hat auf den Stufen k und 1 denselben Einflug.

'I' Da der Unterschied ßk-ßl eine Linearkombination C B des Parameters B ist, kön-

nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die 2 hierzu erforderliche Varianz D der Schätzung cTd vereinfacht sich im vorliegenden C

Fall wegen der Unkorreliertheit von ßk und ßl nach (12) zu

für k s 1.

Testet man R von den insgesamt möglichen ;K(K+l) Nullhypothesen der Form

Hokl zum Niveau a', so hat der simultane Test aller R Nullhypothesen nicht mehr

das Niveau a'. Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests

aber < a' R - und somit < a, wenn man a' = L a wählt (vgl. Exkurs Simultane Tests R und Konfidenzbereiche). Entsprechend muß das Niveau a' der einzelnen Konfidenzin-

tervalle für ßk-ßl gewählt werden, wenn die insgesamt R Konfidenzintervalle ein

simultanes Niveau 5 a haben sollen.

Lehnt dagegen der F-Test die Hypothese Ho bzw. das Teilmodell Ao nicht ab, so

will man meistens noch wissen, ob sich das Modell Ao nicht durch zusätzliche Hy-

pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die

Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert

der Beobachtung Y haben, d.h. man will die Hypothesen testen

P I H : ß = O (Covariable z hat keinen Einflug,

(Faktor A hat keinen Einflug.

Der zugehörige Modellraum Aoz bzw. AoA ist wieder ein Teilraum von A und

man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA einzeln mit dem

F-Test überprüfen. Wenn der F-Test die Hypothese HOA ablehnt, so interessiert man

sich wieder für die Unterschiede X - X zwischen zwei Faktor-Stufen k s 1 und L 1 kann analog oben (jetzt mit dem Parametervektor X statt P) diese Unterschiede

(simultan) testen und (simultane) Konfidenzbereiche konstruieren.

Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare

Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si-

cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit

des Modells A hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 23

oder einen Test auf Gleichheit der Anstiege durchführen mit der Nullhypothese

(26) (z hat auf den Stufen kund l denselben Einfluß).

Da der Unterschied ßk - ßZ eine Linearkombination cT () des Parameters () ist, kön­

nen wir die in 2.5.2 angegebenen Tests und Konfidenzintervalle verwenden. Die

hierzu erforderliche Varianz 0-2 der Schätzung cT() vereinfacht sich im vorliegenden c

Fall wegen der Unkorreliertheit von ßk

und ßZ

nach (12) zu

(27) Var(ß -ß) = 0- . -+-A A 2[ 1 1] k Z SkxX Szxx

für k;= l.

Testet man R von den insgesamt möglichen tK(K+1) Nullhypothesen der Form

HOkZ zum Niveau a ' , so hat der simultane Test aller R Nullhypothesen nicht mehr

das Niveau a ' . Nach Bonferroni ist das Niveau dieser simultanen (multiplen) Tests

aber < a ' R - und somit < a, wenn man a ' = ~a wählt (vgl. Exkurs Simultane Tests

und Konfidenzbereiche). Entsprechend muß das Niveau a ' der einzelnen Konfidenzin­

tervalle für ßk

- ßZ

gewählt werden, wenn die insgesamt R Konfidenzintervalle ein

simultanes Niveau< a haben sollen.

Lehnt dagegen der F-Test die Hypothese HO bzw. das Teilmodell .AC0

nicht ab, so

will man meistens noch wissen, ob sich das Modell .AC0

nicht durch zusätzliche Hy­

pothesen weiter vereinfachen läßt. Hierbei interessiert dann in erster Linie, ob die

Covariable z oder der Faktor A überhaupt einen Einfluß auf den Erwartungswert

der Beobachtung Y haben, d.h. man will die Hypothesen testen

(28)

(29)

HOz

: ß=O

HOA : \=A2 =···=AK

(Covariable z hat keinen Einfluß)!

(Faktor A hat keinen Einfluß).

Der zugehörige Modellraum .ACoz bzw . .ACOA

ist wieder ein Teilraum von .AC und

man wird daher jeder der beiden linearen Hypothesen Hozbzw. HOA

einzeln mit dem

F-Test überprüfen. Wenn der F-Test die Hypothese HOA

ablehnt, so interessiert man

sich wieder für die Unterschiede Ak - AZ zwischen zwei Faktor-Stufen k ;= l und

kann analog oben (jetzt mit dem Parametervektor A statt ß) diese Unterschiede

(simultan) testen und (simultane) Konfidenzbereiche konstruieren.

Bei den oben beschriebenen Verfahren der Covarianzanalyse haben wir das lineare

Regressionsmodell (LRIF) als gültig vorausgesetzt. Da man sich aber nie ganz si­

cher sein kann, ob ein gewähltes Modell korrekt ist, sollte man auch die Gültigkeit

des Modells .AC hinterfragen. Hierzu kann man z.B. das lineare Regressionsmodell

Page 80: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 24

.,&E im Rahmen eines umfassenden Obermodells .,&E > .,&E mit dem F-Test überprü- 1

fen. Als ein mögliches Obermodell bietet sich das quadratische Regressionsmodell

2 (QRIF) Pki = X k + ßk xki + Yk xki f Ü r a l l e l < k < K , l < i < I ( k ) ,

(Quadratisches Regressionsmodell mit einem Faktor).

mit dem 3K-dimensionalen Parametervektor

Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des

Erwartungswerts p, von der Covariablen X. Das lineare Regressionsmodell (LRIF)

ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo-

these

Hor: 7 = 0 bzw. y = y =...=Y = O . 1 2 K

Für 3 K < J kann diese Hypothese im Rahmen des umfassenden Modells .,&El mit

dem F-Test überprüft werden.

3.3.2 Modelle für zwei quantitative Variablen

Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co-

variablen Z1 und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe-

obachtung Y nur von den beobachteten Werten zl, z2 dieser Covariablen Z1, Z2 ab-

hängen

Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va-

riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z2)

(2) p,(zl, z2) = Qo + Q1 z1 + 8222.

Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor-

liegt

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 24

.At im Rahmen eines umfassenden übermodells .Atl

::::>.At mit dem F-Test überprü­

fen. Als ein mögliches übermodell bietet sich das quadratische Regressionsmodell

an

(QRIF) für alle 1 < k < K, 1 < i < I(k) ,

(Quadratisches Regressionsmodell mit einem Faktor).

mit dem 3K-dimensionalen Parametervektor

Dieses Modell postuliert auf jeder festen Stufe k eine quadratische Abhängigkeit des

Erwartungswerts J-L von der Covariablen x. Das lineare Regressionsmodell (LRIF)

ergibt sich aus quadratischen Modells (QRIF) unter der zusätzlichen Nullhypo­

these

(31) bzw.

Für 3 K< J kann diese Hypothese im Rahmen des umfassenden Modells .Atl

mit

dem F-Test überprüft werden.

3.3.2 Modelle für zwei quantitative Variablen

Wir gehen davon aus, daß neben der Zielvariablen Y zwei weitere quantitative Co­

variablen Zl und Z2 beobachtet werden, und der Erwartungswert einer Einzelbe­

obachtung Y nur von den beobachteten Werten zl' z2 dieser Covariablen Zl' Z2 ab­

hängen

Eine naheliegende Verallgemeinerung des linearen Regressionsmodells in einer Va­

riablen ist das lineare Regressionsmodell in zwei Variablen (zl und z,)

Dieses Modell besagt, daß bei fixiertem z2 ein lineares Regessionsmodell in zl vor­

liegt

Page 81: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 25

~ ~ ( z ~ , z ~ ) = QO(z2) + Qlzl mit QO(z2) = Qo + Q2z2

wobei der Achsenabschnitt QO(z2) aber nicht der Anstiegsparameter Q2 vom fixier-

ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi-

xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Q1 in

von z2 abhangt, so kann man dies auf einfache (und lineare) Weise erreichen, in-

dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu

(3) p(z 1' z ) 2 = Qo +Q1zl + Q2z2 +Q12z1z2.

Dann ergibt sich bei fixiertem z das lineare Regressionsmodell in z 2 1

(3) ' "(zl, z2) = QO(z2) + Q;(z2) z1 mit Q'(z 1 2 ) = Ql + Q12.z2.

2 2 3 3 Diese Modelle lassen sich durch Hinzunahme von Potenzen zl, z2, zl, z2, ... schritt-

weise erweitern.

Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung S eines Lineares Modells wieder einen Vektor X = h(zl,z2) E IR sogenannter formaler

Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen

h von den beobachteten Werten zl, z2 abhängen. Hierbei ist es zweckmäßig, die erste S

Komponente von X konstant =1 zu wählen, damit das resultierende lineare Modell

das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um-

faßt. Die restliche Komponenten von X zerlegen wir in drei Teile, wobei der erste

Teil xl = h (z ) nur von z und der zweite Teil X = h (z ) nur von z abhangt. Le- 1 1 1 2 2 2 2

diglich der dritte Wechselwirkungs-Teil x12 = h (z , z ) hängt von beiden Werten z1 12 1 2

und z ab. 2

Zuerst betrachten wir das Modell ohne Wechselwirkungen mit folgendem formalen

Covariablenvektor

x = ( l , x l , x 2 ) T mit

wobei die Komponenten-Funktionen his von hi wieder fest vorgeben sind (und ins-

besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell

lautet dann

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 25

(2)' mit

wobei der Achsenabschnitt B~(z2) aber nicht der Anstiegsparameter B2 vom fixier­

ten Wert z2 abhängt (analog ergibt sich ein lineare Regressionsmodell in z2 bei fi­

xiertem zl). Will man dagegen in (2)' auch zulassen, daß der Achsenabschnitt Bl in

von z2 abhängt, so kann man dies auf einfache (und lineare) Weise erreichen, in­

dem man das Modell (2) um eine sogenannte Wechselwirkung erweitert zu

Dann ergibt sich bei fixiertem z2 das lineare Regressionsmodell in zl

(3)' mit

Diese Modelle lassen sich durch Hinzunahme von Potenzen z~, z~, z~, z~, ... schritt­

weise erweitern.

Wir wollen dies jetzt in allgemeiner Form beschreiben, indem wir zur Formulierung

eines Lineares Modells wieder einen Vektor x = h(zl' z2) E IR5 sogenannter formaler

Modell-Covariablen betrachten, dessen Komponenten über vorgegebene Funktionen

h s von den beobachteten Werten zl' z2 abhängen. Hierbei ist es zweckmäßig, die erste

Komponente von x konstant =1 zu wählen, damit das resultierende lineare Modell

das konstante Modell (in dem beide Variablen Zl und Z2 keinen Einfluß haben) um­

faßt. Die restliche Komponenten von x zerlegen wir in drei Teile, wobei der erste

Teil xl = hl(zl) nur von zl und der zweite Teil x 2 = hiz2) nur von z2 abhängt. Le­

diglich der dritte Wechselwirkungs-Teil x l2 = h l2(zl' z2) hängt von beiden Werten zl

und z2 ab.

Zuerst betrachten WIr das Modell ohne Wechselwirkungen mit folgendem formalen

Covariablenvektor

(4)

wobei die Komponenten-Funktionen h. von h. wieder fest vorgeben sind (und ins-zs z

besondere keine unbekannten Parameter enthalten). Das zugehörige Lineare Modell

lautet dann

51 52 (5) B 0 + s;;/lSXlS + s;;/2SX2S

T T Bo + xl Bl + x 2 B2

Page 82: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 26

mit dem Parametervektor

der Dimension 1 +S1 +S2.

Wie bereits erwähnt wirken die beobachteten Werte z1 und z der Variablen Z1 und 2

Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch

Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch

weitere Terme hinzugefügt werden, die von beiden Werten z1 und z2 abhängen. Dies

erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu-

nahme eines Wechselwirkungsterms

mit

Jede Wechselwirkungskomponente x12s = h12s(z1,z2) ist dabei typischerweise ein

Produkt einer Komponente X von X mit einer Komponente X von X ls1 1 2 ~ 2 2

wie dies z.B. auch in (3) - mit z statt X bzw. hl und h als Identität - der Fall ist.

Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch

mit dem Parametervektor

der Dimension S = 1 +S1 +S2 + S12. Das umfassendste Wechselwirkungsmodel1 dieser

Form liegt für S12 =S S vor und enthält alle Produkte der Form (8) für sl = 1, ..., S1 1 2

und s = 1, ..., S2 als Wechselwirkungsterme. 2

Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen

Y = (Y1, ..., YJ) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt

sich die JxS-Modellmatrix für das Wechselwirkungsmodel1 (9) zu

Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 26

mit dem Parametervektor

der Dimension 1 +Sl +S2·

Wie bereits erwähnt wirken die beobachteten Werte zl und z2 der Variablen Zl und

Z2 im Modell (5) nur separat über die beiden Summen. Will man dagegen auch

Wechselwirkungen (oder Interaktionen) beider Variablen modellieren, so müssen noch

weitere Terme hinzugefügt werden, die von beiden Werten zl und z2 abhängen. Dies

erreicht man durch eine Erweiterung des Covariablenvektors (4) durch Hinzu­

nahme eines Wechselwirkungsterms

(7) mit

Jede Wechselwirkungskomponente x12s = h12/z1,z2) ist dabei typischerweise em

Produkt einer Komponente x1S1

von xl mit einer Komponente x2S2

von x2

(8) x12s = h12/z1,z2) = x1S1 · x2S2'

wie dies z.B. auch in (3) - mit z statt x bzw. h1 und h 2 als Identität - der Fall ist.

Das zu (7) gehörige Wechselwirkungsmodell ist dann gegeben durch

51 52

(9) B 0 + s"f./1Sx1S + s"f./2Sx2S +

T T = Bo + Xl B1 + x 2 B2 +

mit dem Parametervektor

5 12

s"f.1 B12sx12s

T x 12 B12

der Dimension S = 1 +Sl +S2 + S12. Das umfassendste Wechselwirkungsmodell dieser

Form liegt für S12 = Sl S2 vor und enthält alle Produkte der Form (8) für sl = 1, ... , Sl

und s2 = 1, ... ,S2 als Wechselwirkungsterme.

Betrachten wir nun (statt einer Einzelbeobachtung Y) alle J Beobachtungen

Y = (Y1, ... , Y

J) und indizieren bei der j-ten Beobachtung mit dem Index j, so ergibt

sich die JxS-Modellmatrix für das Wechselwirkungsmodell (9) zu

Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line-

Page 83: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 27

are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:

~ , : e = o 12

(keine Wechselwirkungen zwischen Zl und Z2)

H : e = e = O 0 1 12

(Zl hat keinen Einfluß)

H : e = e = O 0 2 12

(Z2 hat keinen Einfluß)

H : e = e = e = O 0 1 1 1 2

(konstantes Modell: Zl und Z2 haben keinen Einfluß)

Beispiel: Das Wechselwirkungsmodel11. Ordnung

Das Wechselwirkungs-Modell 1. Ordnung in den transformierten Variablen xl und x2

lautet analog (3)

und die Bemerkungen zum Modell (3) gelten entsprechend.

Beispiel: Das Wechselwirkungsmodel12. Ordnung

Das Wechselwirkungs-Modell 2. Ordnung in den transformierten Variablen xl und x2

ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der

Covariablen X und X 1 2

Bei fixiertem z ergibt sich ein quadratisches Regressionsmodell bzgl. z 2 1

(14) 2

p(z1> z2) = X(x2) + ß(~2) . x1 + Y . x1 mit

Man beachte, daß der Krümmungs-Parameter y unabhängig von z ist, was man al- 2

2 lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xl x2, 2 2 2 xlx2 sowie xl x2 in (13) erreichen könnte. Üblicherweise beschränkt man sich je-

doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem z ein quadratisches 1

Regressionsmodell bzgl. z 2'

3.3 Modelle für zwei beobachtete Covariablen 11.8.05

are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:

HO :()l2=O

Ho: ()l =()l2=O

HO :()2=()l2=O

(keine Wechselwirkungen zwischen Zl und Z2)

(Zl hat keinen Einfluß)

(Z2 hat keinen Einfluß)

3- 27

Ho : ()l = ()1 = ()l2 = 0 (konstantes Modell: Zl und Z2 haben keinen Einfluß)

Beispiel: Das Wechselwirkungs modell 1. Ordnung

Das Wechselwirkungs-Modell 1. Ordnung in den transformierten Variablen xl und x2

lautet analog (3)

und die Bemerkungen zum Modell (3) gelten entsprechend. D

Beispiel: Das Wechselwirkungs modell 2. Ordnung

Das Wechselwirkungs-Modell 2. Ordnung in den transformierten Variablen xl und x2

ist eine Erweiterung des Wechselwirkungsmodells 1. Ordnung um die Quadrate der

Covariablen xl und x2

Bei fixiertem z2 ergibt sich ein quadratisches Regressionsmodell bzgl. zl

(14) mit

Man beachte, daß der Krümmungs-Parameter "( unabhängig von z2 ist, was man al­

lerdings - falls gewünscht - durch Hinzunahme höherer Wechselwirkungen xi x2

!

Xl x~ sowie xi x~ in (13) erreichen könnte. Üblicherweise beschränkt man sich je­

doch auf das Modell (13). - Analog (14) ergibt sich bei fixiertem zl ein quadratisches

Regressionsmodell bzgl. z2. D

Page 84: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 28

3.3.3 Modelle für zwei Faktoren

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren

A E {I, ..., K } mit K Stufen und B E {I, ..., L } mit L Stufen beobachtet werden, wobei

der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen 5

und 1 dieser Faktoren A und B abhängen soll

Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form

Man beachte, daß Bi nur von der Stufe 6 des ersten Faktors A und ßl nur von der

Stufe 1 des zweiten Faktors B abhängt.

Unter Verwendung der Indikatorvariablen I: = I{A = k.) B und I, = I {B = g mit

(3) A IL = 1 U A = k ,

B I = 1 1 U B = 1 ,

läßt sich das Modell äquivalent schreiben als

Die K+ L Parameter Q1, ..., 19 ß ..., ßL sind wegen der Nebenbedingungen K ' 1'

(5) A L B C I = l = C I ,

L=l k 1 =1

nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang A < K + L - 1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren Il und

B Il der 1. Stufe, so ergibt sich

K L

(6) p, = Q o + C ~ k ~ : + C ß i ~ ; mit k=2 1 =2

(7) I90 = I91 + ß, , 19; = Bk - o1 , ß; = P, - ßl .

Dies ist ein allgemeines lineares Modell mit dem Parametervektor

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 28

3.3.3 Modelle für zwei Faktoren

Wir gehen jetzt davon aus, daß neben der Zielvariablen Y zwei (codierte) Faktoren

A E {I, ... , K} mit K Stufen und BE {I, ... , L} mit L Stufen beobachtet werden, wobei

der Erwartungswert einer Einzelbeobachtung Y nur von den beobachteten Stufen k

und 1 dieser Faktoren A und B abhängen soll

Das Modell ohne Wechselwirkung beider Faktoren A und B ist von der Form

Man beachte, daß Bk nur von der Stufe k des ersten Faktors A und ßZ

nur von der

Stufe 1 des zweiten Faktors B abhängt.

Unter Verwendung der Indikatorvariablen It = I{A = k} und If = I{B = l} mit

A I k = 1 (3) A =k ,

B = 1 ,

läßt sich das Modell äquivalent schreiben als

(4)

Die K +L Parameter B1, ... , BK ,ßl' ... , ßL sind wegen der Nebenbedingungen

K ALB (5) 2:= I k = 1 = 2:= I Z

k=1 Z =1

nicht eindeutig bestimmt, und die zugehörige Modellmatrix X hat einen Rang

< K + L -1. Ersetzt man unter Verwendung von (5) jeweils die Indikatoren If und

I~ der 1. Stufe, so ergibt sich

(6)

(7)

K L J-L = Bo + 2:= B~ It + 2:= ßfIf

k=2 Z =2

Bo = B1 + ß1 ' B~ = Bk - B1 '

mit

Dies ist ein allgemeines lineares Modell mit dem Parametervektor

Page 85: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 29

der Dimension S = K + L - I. Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),

wenn man dort die X -Terme durch die Indikatoren für A und die X -Terme durch 1 2

die Indikatoren für B ersetzt.

Bezeichnen A . E { 1, ..., K) und B1 E { 1, ..., L) die Stufen der Faktoren A und B für die 3

Beobachtung j= 1, ..., J, so lautet die zugehörige Modell-Matrix aller J Beobachtun-

gen

Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn

jede der K. L möglichen Faktorkombinationen (k,1) mindestens einmal beobachtet

wird.

Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen

Wegen der Nebenbedingungen (5) sind die Parameter 6 E IRK, PE IRL und 7 E IRKL B (10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren I; und Il der 1.

Stufe , so ergibt sich eine Kontrast-Parametrisierung der Form

dessen Parametervektor

sich aus dem Parametervektoren 8, ß und 7 aus (10) ergibt. Die Parameter lassen

sich hierbei wie folgt interpretieren. 19 ist der Erwartungswert der Faktor-Kombi- 0

nation (1,1), die aus den jeweiliegen „Referenz-Stufen" beider Faktoren besteht:

Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt 19; den Kontrast der Stufe

5 > 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 29

(8) (J = ((Jo' (J;, ... , (J~, ß;, ... , ß~)

der Dimension S = K + L - 1.

Man beachte die formale Ähnlichkeit des Modells (6) mit dem Modellen 3.3.2 (5),

wenn man dort die xl-Terme durch die Indikatoren für A und die x2-Terme durch

die Indikatoren für B ersetzt.

Bezeichnen Aj

E { 1, ... , K} und BZ E { 1, ... , L} die Stufen der Faktoren A und B für die

Beobachtung j = 1, ... ,l, so lautet die zugehörige Modell-Matrix aller 1 Beobachtun-

gen

Diese Matrix enthält nur Nullen und Einsen und hat z.B. dann vollen Rang S wenn

jede der K· L möglichen Faktorkombinationen (k, l) mindestens einmal beobachtet

wird.

Wir erweitern jetzt das Modell (6) zu einem Modell mit Wechselwirkungen

(10) p, = p,(k, l)

Wegen der Nebenbedingungen (5) sind die Parameter (JE IRK, ßE IRL und 'Y E IRKL

(10) nicht eindeutig bestimmt. Ersetzt man wieder die Indikatoren It und If der 1.

Stufe, so ergibt sich eine Kontrast-Parametrisierung der Form

dessen Parametervektor

sich aus dem Parametervektoren (J, ß und 'Y aus (10) ergibt. Die Parameter lassen

sich hierbei wie folgt interpretieren. (Ja ist der Erwartungswert der Faktor-Kombi­

nation (1,1), die aus den jeweiliegen "Referenz-Stufen" beider Faktoren besteht:

(13) (JO = E(YIA=l! B=l).

Bei fester 1. Stufe (Referenzstufe) des Faktors B beschreibt (J~ den Kontrast der Stufe

k> 1 des Faktors A zur Referenz-Stufe 1 dieses Faktors:

Page 86: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3 - 30

Analog beschreibt ß1 den Kontrast der Stufe 1 > 1 zur Referenzstufe 1 des Faktors B 1

bei fester 1. Stufe (Referenzstufe) des Faktors A:

Und bei beliebigen Stufen k > 1 und 1 > 1 der Faktoren A und B beschreibt den

zusätzlichen Effekt, der durch die Faktorkombination (k,1) entsteht

Das Wechselwirkungs-Mode11 (11) hat S = K . L Parameter. Wenn jede der K . L Fak-

torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma-

trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen

Kombinationsfaktor C = (A, B) mit K . L Stufen zusammen, so beschreibt (11) das

vollständige Modell für den Faktor C aus 2.2.3.

Das Wechselwirkungsmodel1 enthält unter anderem folgende interessierende line-

are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:

I H o : ? = O (keine Wechselwirkungen der Faktoren A und B)

I I H o : ? =ß = O (Faktor B hat keinen Einfluß)

I I = B = O (Faktor A hat keinen Einfluß)

I I I H ~ : ? = ß = B = O (konstantes Modell: beide Faktoren haben keinen Einf luß).

3.3 Modelle für zwei beobachtete Covariablen 11.8.05 3- 30

(14) e~ = E(YIA=k) B=l) - E(YIA=l) B=l).

Analog beschreibt ß; den Kontrast der Stufe l> 1 zur Referenzstufe 1 des Faktors B

bei fester 1. Stufe (Referenzstufe) des Faktors A:

(15) ß; = E(YIA = 1) B= l) - E(YIA = 1) B= 1).

Und bei beliebigen Stufen k> 1 und l> 1 der Faktoren A und B beschreibt '~l den

zusätzlichen Effekt, der durch die Faktorkombination (k, l) entsteht

(16) ,

'kl E(YIA = k) B=l) - E(YIA = 1) B= 1) - e~ - ßf E(YIA=k) B=l) + E(YIA=l) B=l)

- E(YIA = 1) B= l) - E(YIA = k) B= 1).

Das Wechselwirkungs-Modell (11) hat S=K·L Parameter. Wenn jede der K·L Fak­

torkombinationen mindestens einmal beobachtet worden ist, so hat die Modellma­

trix den vollen Rang S. Faßt man in diesem Fall beide Faktoren zu einem neuen

Kombinationsfaktor C = (A, B) mit K· L Stufen zusammen, so beschreibt (11) das

vollständige Modell für den Faktor C aus 2.2.3.

Das Wechselwirkungsmodell enthält unter anderem folgende interessierende line­

are Teilmodelle, die wir durch entsprechende lineare Hypothesen formulieren:

HO:'Y'=O

HO: 'Y' = ß' = 0

Ho:'Y'=e'=o

Ho:'Y'=ß'=e'=o

(keine Wechselwirkungen der Faktoren A und B)

(Faktor B hat keinen Einfluß)

(Faktor A hat keinen Einfluß)

(konstantes Modell: beide Faktoren haben keinen Einfluß).

Page 87: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4. Das lineare Aitken-Modell 11.8.05 4 - 1

4 Das lineare Aitken-Modell

In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell

auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine-

rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,

die im Gauß-Markov-Modell durch

2 (GMC) Cov(Y) = D . f l J (GauJ3-Markov-Covarianzstruktur)

gegeben war, und hier nach Aitken verallgemeinert wird zu

(AC) C O V ( Y ) = D ~ . V (Aitken-Covarianzstruktur),

wobei V eine beliebige, aber fest vorgegebene positiv-definite JxJ Matrix ist. Eine nahe-

liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu-

chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte

Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,

vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).

Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das

Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul-

tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.

Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu-

grunde liegende lineare Modell

nicht zutrifft, d.h. wir untersuchen auch den Fall pSf &. Dies ist insofern von Be-

deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell &

korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests

für den Fall von Interesse sind, daß das Modell & nicht gilt.

Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete

Gauß-Markov-Modell eingeführt.

4. Das lineare Aitken-Modell 11.8.05 4-1

4 Das lineare Aitken-Modell

In diesem Kapitel wollen wir die Resultate über das lineare Gauß-Markov-Modell

auf das lineare Aitken-Modell verallgemeinern und ergänzen. Die Verallgemeine­

rung betrifft hierbei einerseits die Covarianzstruktur des Beobachtungsvektors Y,

die im Gauß-Markov-Modell durch

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur)

gegeben war, und hier nach Aitken verallgemeinert wird zu

(AC) Cov(Y) = 0-2 . V (Aitken-Covarianzstruktur) )

wobei V eine beliebige) aber fest vorgegebene positiv-definite lxl Matrix ist. Eine nahe­

liegende Verallgemeinerung dieser Covarianzstruktur (die wir hier nicht untersu­

chen werden) besteht darin, daß die Matrix V auch noch zusätzliche unbekannte

Parameter enthalten darf, wie z.B. bei sogenannten longitudinalen Daten der Fall ist,

vgl. z.B. Fahrmeir und Tutz (1994), Diggle, Liang and Zeger (1994).

Obwohl sich in 4.2 herausstellen wird, daß man Aitken-Modell vollständig auf das

Gauß-Markov-Modell zurückführen kann, wollen wir dennoch alle wichtigen Resul­

tate des Gauß-Markov-Modells auch für das Aitken-Modell explizit formulieren.

Dabei sollen die Resultate gleichzeitig auf den Fall erweitert werden, daß das zu­

grunde liegende lineare Modell

(LM)

nicht zutrifft, d.h. wir untersuchen auch den Fall Jl t/:..At. Dies ist insofern von Be­

deutung, als man in der Praxis nie sicher sein kann, ob das verwendete Modell vft

korrekt spezifiziert ist, und daher auch die Eigenschaften der Schätzer und Tests

für den Fall von Interesse sind, daß das Modell vft nicht gilt.

Als wichtigster Spezialfall des Aitken-Modells wird zunächst in 4.1 das gewichtete

Gauß-Markov-Modell eingeführt.

Page 88: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2

4.1 Das gewichtete Gauß-Markov-Modell

Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y.J

unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt

(1) V = Diag(v) mit v. = 12

Var(Y.) > 0J a J

für alle j.

Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)

(2) -1w.=v. >0

J Jbzw. Var(Y.) = _1 0-

2J w·]

erhält man die Darstellung

(3) bzw. V-1 = Diag{w} .

Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach­

tungen

(4) für alle j ,k = 1, ...,1.

Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus Einzelbe­J

obachtungen YjZ

mit l = 1, ...,L(j) ist, wobei alle Einzelbeobachtungen YjZ

unkorreliert

sind und gleiche Varianz haben:

L0)(5) Y. = Ir;) 2: Y·Z mit Var(Y

J·Z) = 0-

2 für alle j, l .J v Z =1 J

In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-Be­J

obachtungen in der j-ten Gruppe.

Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur

(GGMC) Cov(Y) = 0-2 . Diag-1{w} (gewichtete Gauß-Markov-Covarianz)

auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten

(Y.,x., w.) mit j = 1, ...,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) desJ J J

Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter

Spezialfall des Covarianz-Modells (CMod) aus 1.3.

4.1 Das gewichtete Gauß-Markov-Modell 7.7.10 4-2

4.1 Das gewichtete Gauß-Markov-Modell

Ein wichtiger Spezialfall des Aitken-Modells liegt vor, wenn die Beobachtungen Y. J

unkorTeliert sind, d.h. (UnKor) gilt. Dann hat V Diagonalgestalt

(1) V = Diag(v) mit v. = 12

Var(Y.) > 0 J a J

für alle j.

Unter Verwendung sogenannter Gewichtsfaktoren (engl.: weights)

(2) -1 w.=v. >0

J J

erhält man die Darstellung

(3)

bzw.

bzw.

Var(Y.) = _1 0-2

J w· ]

V-1 = Diag{w} .

Die Gewichtsfaktoren sind umgekehrt proportional zu den Varianzen der Beobach­

tungen

(4) für alle j ,k = 1, ... ,1.

Dieses Modells liegt zum Beispiel dann vor, wenn Y. ein Mittelwert aus Einzelbe­J

obachtungen YjZ

mit l = 1, ... , L(j) ist, wobei alle Einzelbeobachtungen YjZ

unkorreliert

sind und gleiche Varianz haben:

L0) (5) Y. = Ir;) 2: Y·Z mit Var(Y

J·Z) = 0-

2 für alle j, l . J v Z =1 J

In diesem Fall entspricht der Gewichtsfaktor w. = L(j) der Anzahl der Einzel-Be­J

obachtungen in der j-ten Gruppe.

Man bezeichnet diesen Spezialfall des Aitken-Modells mit der Covarianzstruktur

(GGMC) Cov(Y) = 0-2 . Diag -1{w} (gewichtete Gauß-Markov-Covarianz)

auch als gewichtetes Gauß-Markov-Modell für die gewichteten Beobachtungsdaten

(Y.,x., w.) mit j = 1, ... ,1. Im Gegegnsatz zur allgemeinen Formulierung (AC) des J J J

Aitken-Modells ist das gewichtete Gauß-Markov-Modell (GGMC) ein direkter

Spezialfall des Covarianz-Modells (CMod) aus 1.3.

Page 89: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 3

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Mode11

Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh-

ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist v1l2 eine (belie-

bige) Wurzel von V, so gilt

(1) V = V 112 . V Tl2 1 T/2 v-1/2 7 V- = V - . 7

mit T/2 -1 v -T /2= [ V ]

Bezeichnet D die Inverse von V, so ergibt sich

Wir transformieren jetzt die Situation mit dem linearen Isomorphismus J D T/2 : IRJ + IR und erhalten

(3> Y* = D T/2 Y (transformierte Beobachtung),

(4) * * T12 p = E ( Y ) = D p (transformierter Erwartungswert),

(5) *

& = DT12 [ ~ k q (transformierter Modellraum),

(6) X* = D T 1 2 ~ (transformierte Covariablenmatrix),

* wobei die Spalten der transformierten Matrix X den transformierten (linearen)

Raum J&? erzeugen

Der Rang bzw. die Dimension sind invariant unter der Transformation

* Die transformierte Beobachtung Y erfüllt die Voraussetzungen des Gauß-Mar-

kov-Modell, d.h.

Und das lineare Modell (LM) gilt für (Y,A~') genau dann, wenn es für die Transfor-

mation (Y*,&? gilt, d.h.

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 3

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell

Das Aitken-Modell läßt sich vollständig auf das Gauß-Markov-Modell zurückfüh­

ren. Hierzu verwenden wir den Begriff der Wurzel einer Matrix. Ist Y 1/2 eine (belie­

bige) Wurzel von Y, so gilt

(1) Y = y 1/ 2 . y T/2 , y-1 = y-T/2. y-1/2

mit y-T/2 = [yT/2j-1

Bezeichnet D die Inverse von Y, so ergibt sich

(2) D :=y-1 = D 1/2 . D T/2

D1/2 = y-T/2

wobei

bzw.

,

Wir transformieren jetzt die Situation mit dem linearen Isomorphismus

D T/2 : IR] -----+ IR] und erhalten

(3) y* = D T/2 y (transformierte Beobachtung)!

(4) Jl* = E(Y*) = D T/2 Jl (transformierter Erwartungswer-t)!

(5) vft* = D T/2 [c.4] (transformierter Modellraum) !

(6) X* = D T/2X (transformierte Covariablenmatrix)!

wobei die Spalten der transformierten Matrix X* den transformierten (linearen)

Raum vi! erzeugen

Der Rang bzw. die Dimension sind invariant unter der Transformation

(8) S =Rang(X) = Dim(vft) = Dim(vft*) = Rang(X) .

Die transformierte Beobachtung y* erfüllt die Voraussetzungen des Gauß-Mar­

kov-Modell, d.h.

(9) * 2 Cov(Y ) = a .11]"

Und das lineare Modell (LM) gilt für (Y,vft) genau dann, wenn es für die Transfor­

mation (y*,vft) gilt, d.h.

Page 90: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 4

Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig

auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter 8 nach

(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden

die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des

transformierten Gauß-Markov-Modells herleiten.

4.2.1 Gewichtetes Gauß-Markov-Modell

Hier ist D die Diagonalmatrix der Gewichtsfaktoren

und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen

(2) D1/2=DT/2- - Diag{+ ) mit

(3) v1l2 = V T/2 = D ~ ~ ~ - ' { \ T 1 .

J Die Transformation DTl2 :IRJ -+ IR bewirkt hier lediglich eine Streclczlng aller

Komponenten:

für E d.

4.2 Transformation des Aitken-Modells in ein Gauß-Markov-Modell 12.8.05 4 - 4

(10)

(11) Jl=X()

* ;I< Jl Evft ,

Jl* = X* ().

Aufgrund dieser Transformation kann das allgemeinere Aitken-Modell vollständig

auf das Gauß-Markov-Modell zurückgeführt werden, wobei. der Parameter () nach

(11) sogar invariant gegenüber dieser Transformation ist. Wir werden im folgenden

die Eigenschaften des Aitken-Modells aus den bereits bekannten Eigenschaften des

transformierten Gauß-Markov-Modells herleiten.

4.2.1 Gewichtetes Gauß-Markov-Modell

Hier ist D die Diagonalmatrix der Gewichtsfaktoren

(1) D = Diag{w} ,

und die Wurzeln sind ebenfalls (symmetrische) Diagonalmatrizen

(2) D 1/ 2 = D T/2 = Diag{y'W} mit y'W=(~). ] ]

(3) y1/2 = yT/2 = Diag- 1{y'W}.

Die Transformation D T/2 : IR] -----+ IR] bewirkt hier lediglich eine Streckung aller

Komponenten:

(4) T/2 _ (~ ) D y- yW;·y .. ] ] ]

f ·· IR] ur yE .

Page 91: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 5

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung

Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) fi von ,u im Aitken-Modell ( Y , d ist definiert als die Rück-Transformation der

* * * * MQ-Schätzungen fi von ,u für im Gauß-Markov-Modell (Y ,.,&E ):

(1) , := D- T/2 A* A * P bzw. D T/2 fi = p, mit

Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und J definieren hierzu ein Skalarprodukt auf IR durch:

T (2) ( u , v ) ~ = u D v

= ( u , D v ) = ( D ~ u , v ) = ( D ~ ~ ~ ~ , D ~ ~ ~ ~ ) für U, V E IR J

mit der dazugehörigen Norm

Die D-orthogonale Projektion P; : IRJ + .,&E auf .,&E ist dann definiert als die or-

thogonale Projektion bzgl des Skalarproduktes (-,-)D. ES gilt die Darstellung

T T mit einer beliebigen verallgemeinerten Inversen ( X DX)- von X DX, die unter der

Rangbedingung (RB), d.h. Spalten von X sind eine Basis von .,&E, wieder die übli-

che Inverse (xTDx)-l ist.

Die durch (1) gegebene verallgemeinerte MQ-Schätzung fi ist die Minimalstelle der

quadratischen Form

bzgl. PE&, d.h. fl ist die D-orthogonale Projektion der Beobachtung Y auf den

Modellraum .,&E

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-5

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung

Der sogenannte verallgemeinerte Minimale Quadrate-Schätzer (kurz: VMQ-Schätzer) {1,

von Jl im Aitken-Modell (Y, Jt) ist definiert als die Rück-Transformation der

MQ-Schätzungen {1,* von Jl * für im Gauß-Markov-Modell (y*,...4*):

(1) " D- T'/2 ,,* Jl:= Jl

,,* P y* Jl =.At* .

bzw. D T,/2 " ,,* Jl=Jl mit

Wir wollen diese verallgemeinerte MQ-Schätzunge noch anders beschreiben und

definieren hierzu ein Skalarprodukt auf lR] durch:

(2) (u,v)D = uTDv

= (u, Dv) = (DTu, v) = (D T/2u , D T/2 v )

mit der dazugehörigen Norm

(3)

f ·· lR] ur u, vE

f ·· lR] ur uE .

Die D-orthogonale Projektion p! : lR] -----+ ...4 auf ...4 ist dann definiert als die or­

thogonale Projektion bzgl. des Skalarproduktes ( -, - )D. Es gilt die Darstellung

(4)

mit einer beliebigen verallgemeinerten Inversen (XT DXr von X T DX, die unter der

Rangbedingung (RB), d.h. Spalten von X sind eine Basis von ...4, wieder die übli­

che Inverse (XTDX)-l ist.

Die durch (1) gegebene verallgemeinerte MQ-Schätzung (1, ist die Minimalstelle der

quadratischen Form

(5) SQD(Jl ,Y) = 11 Y - JlII t = (Y - Jl) T D (Y - Jl )

bzgl. Jl E...4, d.h. {1, ist die D-orthogonale Projektion der Beobachtung Y auf den

Modellraum .At:

Page 92: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 6

S 2 Die Parameter B E IR und a > 0 sind invariant gegenüber der Transformation

Als VMQ-Schätzungen d und 82 von B und a2 im Aitken-Modell (Y, A, X) verwen-

det man daher die MQ-Schätzungen d und 82 des Gauß-Markov-Modells

(Y*, J&?, X*), d.h. unter der Rangbedigung (RB) ist

(VMQ-Schätzung von B),

(7) *T * -1 *T d = ( x X ) X Y*

1 T = (x~Dx)- X D Y

(8) 8 2 - - 1 * * 2

-IlY -fi I 1 J-S

- - 1 2 - 1 1 Y-fi I I D J-S (VMQ-Schätzung von aZ))

- D e v ( A ) -E@q wobei

(9> D e v ( A ) = ~ ~ ~ - f i l l S >

das Minimum von SQD(- ,Y) auf A ist, und

wie bisher den Freiheitsgrad des Modellraums bezeichnet.

Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, A, X) lassen sich ent- * * *

weder durch Übergang auf das Gauß-Markov-Modell (Y , A , X ) aus den dorti-

gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge-

meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken-

Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz-

matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig-

keit des Linearen Modells

nicht generell voraussetzen wollen. Dann ist:

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-6

(6) 4=4(Y)=P~Y.

Die Parameter () E IRS und 0-2 > 0 sind invariant gegenüber der Transformation

(Y,vIt,X) * ,.-* * (Y,Ja ,X ).

Als VMQ-Schätzungen () und 0-2 von () und 0-2 im Aitken-Modell (Y, vIt, X) verwen­

det man daher die MQ-Schätzungen () und 0-2 des Gauß-Markov-Modells

(Y*, JIt, X*), d.h. unter der Rangbedigung (RB) ist

(7)

(8)

(9) Dev(vIt)

(X*TX*)-l X*T y *

(XTDX)-l X T Dy

-l-IIY* -4*11 2 J-s

J~s IIY-41It

FG(~) Dev( vIt)

IIY-41It

das Minimum von SQD( - ,V) auf vIt ist, und

(10) FG(vIt) = J - Dim(vIt)

(VMQ-Schätzung von ())!

(VMQ-Schätzung von 0-2)!

wobei

wie bisher den Freiheitsgrad des Modellraums bezeichnet.

Die Eigenschaften der VMQ-Schätzer im Aitken-Modell (Y, vIt, X) lassen sich ent-.. * * * weder durch Ubergang auf das Gauß-Markov-Modell (Y ,vIt ,X ) aus den dorti-

gen Eigenschaften für den MQ-Schätzer herleiten oder direkt durch eine Verallge­

meinerung der jeweiligen Schlußweisen im Gauß-Markov-Modell auf das Aitken­

Modell zeigen. Zunächst bestimmen wir den Erwartungsvektor und die Covarianz­

matrix des Schätzungen, wobei wir (für spätere Anwendungen) erstmals die Gültig­

keit des Linearen Modells

(LM) /lEvit

nicht generell voraussetzen wollen. Dann ist:

Page 93: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 - 7

D (11) E( f i )=pAP auch falls (LM) nicht gilt,

= P falls (LM) gilt.

D (12) Cov(fi) = 02. P . D-l "4%' auch falls (LM) nicht gilt.

1 T (13) E(B) = ( X ~ D X ) - X D bzw X E(B) = ~ ( f i ) auch falls (LM) nicht gilt,

E(B) = e falls (LM) gilt.

(14) cov(B) = o2 . (XTDX) auch falls (LM) nicht gilt.

Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM)

zutrifft. Wenn das Modell nicht gilt, so ist der Parameter 8 zunächst überhaupt

nicht definiert, weil dann ,U @ A. Man kann 8 aber immer definieren als zugehörigen D Parameter der Projektion PA p E A, dd..

Die Eindeutigkeit von 8 wird erst durch die Rangbedingung (RB) garantiert und

dann läßt sich 8 explizit darstellen als

1 T e = (x~Dx)- X D P falls (RB) gilt.

Der Schätzer B ist dann nach (13) stets erwartungstreu.

Mit dem D-orthogonalen Komplement M= A 'D von A ergibt sich das Residuum

D D (15) R = Y-fi = (f lJ-P ) Y = P Y "4%' M wobei

Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:

(16) D

E(R) = PM P auch falls (LM) nicht gilt,

= 0 falls (LM) gilt,

(17) COV(R) = 0 2 . ~ D . ~ - 1 M auch falls (LM) nicht gilt.

Das Residuum R ist wieder unkorreliert zur Schätzung fi, d.h.

(18) Cov(R , fi) = 0 auch falls (LM) nicht gilt.

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-7

(11) E(ft,) = p! Jl auch falls (LM) nicht gilt,

=Jl falls (LM) gilt.

(12) Cov(ft,) = (}2. p!. D-1 auch falls (LM) nicht gilt.

(13) E(O) = (XTDX)-lXTD Jl bzw. X E(O) = E(ft,) auch falls (LM) nicht gilt,

E(O) = () falls (LM) gilt.

(14) Cov(O) = (}2 . (XTDX)-l auch falls (LM) nicht gilt.

Insbesondere sind die VMQ-Schätzer also erwartungstreu, sofern das Modell (LM) zutrifft. Wenn das Modell nicht gilt, so ist der Parameter () zunächst überhaupt

nicht definiert, weil dann Jl \t.At. Man kann () aber immer definieren als zugehörigen

Parameter der Projektion p! Jl E v«, d.h.

D Pc4 Jl = x().

Die Eindeutigkeit von () wird erst durch die Rangbedingung (RB) garantiert und

dann läßt sich () explizit darstellen als

falls (RB) gilt.

Der Schätzer 0 ist dann nach (13) stets erwartungstreu.

Mit dem D-orthogonalen Komplement J'V = .At ~ D von .At ergibt sich das Residuum

I (15) wobei

Der Erwartungsvektor und die Covarianzmatrix des Residuums sind:

(16) E(R)

(17) Cov(R)

auch falls (LM) nicht gilt,

falls (LM) gilt,

auch falls (LM) nicht gilt.

Das Residuum R ist wieder unkorreliert zur Schätzung ft" d.h.

(18) Cov(R ,ft,) = 0 auch falls (LM) nicht gilt.

Page 94: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4 -8

Zur Bestimmung des Erwartungswertes von 82 zeigen wir zunächst

(19) 2 E{Dev(A)} = E{IIY-PII;} = 0 . F G ( A ) + I I ~ J P I I ; ~

und erhalten damit

2 2 1 D 2 (20) E { 8 } = + p I I P N ~ I I D

F G ( 4 auch falls (LM) nicht gilt,

= 0 2 falls (LM) gilt.

Folglich ist die Schätzung 82 genau dann erwartungstreu für 02, wenn das Modell 2 korrekt ist, und andernfalls wird 0 durch 82 überschätzt, d.h.

4.3.1 Gewichtetes Gauß-Markov-Modell

In diesem Fall ergeben sich das Skalarprodukt (-,-)D und die Norm 1 1 - l l D wie

folgt

(1) (u,v), := C W . U . V . , 2 2

j 3 3 3 ~ ~ u ~ ~ D :=

Die für den VMQ-Schätzer zu minimierende quadratische Form

ist hier eine gewichtete Quadratsumme mit dem Minimum

Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale

Quadrate-Schätzer bezeichnet.

4.3 Verallgemeinerte Minimale-Quadrate-Schätzung 11.8.05 4-8

Zur Bestimmung des Erwartungswertes von 52 zeigen wir zunächst

und erhalten damit

(20) E{ 52} = 0-2 + FatA) 11 P~ JlII~ auch falls (LM) nicht gilt,

falls (LM) gilt. 2 = 0-

Folglich ist die Schätzung 52 genau dann erwartungstreu für 0-2, wenn das Modell

korrekt ist, und andernfalls wird 0-2 durch 52 überschätzt, d.h.

(21)

4.3.1 Gewichtetes Gauß-Markov-Modell

In diesem Fall ergeben sich das Skalarprodukt (- '-)D und die Norm 11-11 D wie

folgt

I (1)

Die für den VMq-Schätzer zu minimierende quadratische Form

I (2)

ist hier eine gewichtete quadratsumme mit dem Minimum

I (3)

Die Schätzungen werden in diesem Zusammenhang auch als gewichtete minimale

Quadrate-Schätzer bezeichnet.

Page 95: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 9

4.4 Das Aitken-Modell mit normalverteilten Beobachtungen

Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß

der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus

(NVY) Y ist J-dimensional normalverteilt:

-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y).

Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu

(SAM) 2(Y) = NJ(,u, o2 V) (stochastischer Teil des Aitken-Modells).

Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi-

schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit

herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell

voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das

Modell zutrifft. Der Parameter 8 ist hierbei (auch wenn das Modell .L& nicht gilt)

wie folgt definiert

(0) P ~ ~ = X B bzw. e = ( xT~x) - 1 X T D P

wobei die Rangbedingung (RB) vorausgesetzt ist.

Die Schätzer fi und 8 sind jetzt multivariat normalverteilt:

(1) q f i ) = ~ ~ ( ~ $ , u , o ~ ~ $ ~ - l ) auch falls (LM) nicht gilt,

2 D = NJ(,u, o PA D-l) falls (LM) gilt,

(2) 4 8 ) = NS( B , o2 (XTDX)-' ) auch falls (LM) nicht gilt,

Mit dem D-orthogonalen Komplement M= .L& 'D von .L& ergibt sich die Verteilung

des Residuums R = Y - fi zu

4.4 Das Aitken-Modell für normalverteilte Beobachtungen

4.4 Das Aitken-Modell mit normalverteilten Beobachtungen

11.8.05 4-9

Wie beim klassischen linearen Modell betrachten wir jetzt den wichtigen Fall, daß

der Beobachtungsvektor Y multivariat normalverteilt ist, d.h. wir setzen voraus

(NVY) Y ist i-dimensional normalverteilt:

L(Y) = NiE(Y), Cov(Y)) (Normalverteilung von }j.

Hieraus ergibt sich der stochastische Teil des Aitken-Modells zu

(SAM) L(Y) = NiJl, a 2 V) (stochastischer Teil des Aitken-Modells).

Die Präzisierung der Verteilungsklasse für die Beobachtung Y hat (wie im klassi­

schen linearen Modell) zur Folge, daß man die Verteilungen der Schätzer explizit

herleiten kann, wobei wir die Gültigkeit des Linearen Modells (LM) nicht generell

voraussetzen sondern nur die entsprechenden Vereinfachungen angeben, wenn das

Modell zutrifft. Der Parameter () ist hierbei (auch wenn das Modell .At nicht gilt)

wie folgt definiert

(0) D Pc4 Jl X() bzw.

wobei die Rangbedingung (RB) vorausgesetzt ist.

()

Die Schätzer (i, und () sind jetzt multivariat normalverteilt:

(1)

(2)

L((i,) = Ni P~Jl, a 2 P~ D-1)

= Ni Jl , a 2 P ~ D -1 )

auch falls (LM) nicht gilt,

falls (LM) gilt,

auch falls (LM) nicht gilt,

Mit dem D-orthogonalen Komplement J'V =.At ~D von .At ergibt sich die Verteilung

des Residuums R = Y - (i, zu

Page 96: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 10

D (3) L ( R ) = N ~ ( P ~ , ~ , ~ ~ P ; D - ' ) auch falls (LM) nicht gilt,

2 D = N J ( O , a PNDP1) falls (LM) gilt.

Und für die Schätzung des Skalenparameters erhält man

2 2 (4) L( e2 . F G ( A ) ) = L( D e v ( 4 ) = 0 . xFG(6) mit

(5) FG = FG(A) = Dim (AL) = J - Dim (A) und

1 D 2 1 D 2 (6) 6 = 6 ( ~ ) ) = , 2 1 1 ( n - P A ) ~ l l D = , I I I P N ~ I I D '

Aus der äquivalenten Formulierung des Linearen Modells

(LM) ' S(,u) = 0

ergibt sich speziell

2 2 (7) L( 82 . F G ( A ) ) = L( D e v ( 4 ) = a . xFG falls (LM) gilt.

Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab-

hängigkeit der Schätzungen und 82

(8) ist von R (und somit auch von 82 ) stochastisch unabhängig.

Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter 2 ,u und a vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas-

sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi- 2 mum-Likelihood-Schätzung (kurz: ML-Schätzung) f i , 62 von /I, a ist definiert als Ma-

ximalstelle des Likelihoods

(9) a2 lY) = [ ( 2 7 r ~ ~ ) ~ . Det(V) . exp jap2 1 1 Y-,u 1 1 S > } I - ~ ' ~ .

bzw. des Kerns des Log-Likelihoods

(10) 2 2 2 [(Ha I Y ) = - L [ ~ . l o g a 2 +o-211~-,ullD]

bzgl. ,u EA und a2> 0.

2 Die Maximierung von [ bzgl. p entspricht genau der Minimierung von I IY- ,ull,,, und

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-10

(3) L(R) = Ni P J Jl , a 2 P J D-1 )

= Ni 0 , a 2 P J D -1 )

auch falls (LM) nicht gilt,

Und für die Schätzung des Skalenparameters erhält man

(4)

(5)

L( 52 . FG(.At) ) = L( Dev(.At) ) = a2

. X~G( 8)

FG = FG(.At) = Dim(.At~) = J - Dim(.At)

Aus der äquivalenten Formulierung des Linearen Modells

I (LM)' 8(p.) = 0

ergibt sich speziell

(7) L( 52 . FG(.At) ) = L( Dev(.At) ) = a 2 . X~G

falls (LM) gilt.

mit

und

falls (LM) gilt.

Wie im Klassischen Linearen Modell (Abschnitt 2.4) erhält man auch hier die Unab­

hängigkeit der Schätzungen {l und 52

(8) {l ist von R (und somit auch von 52) stochastisch unabhängig.

Da (NVY) die Verteilung der Beobachtung Y bis auf die unbekannten Parameter

Jl und a 2 vollständig spezifiziert, kann (und sollte) man die Parameter wie im klas­

sischen linearen Modell nach der Maximum-Likelihood-Methode schätzen. Die Maxi­

mum-Likelihood-Schätzung (kurz: ML-Schätzung) jJ, , 0-2 von Jl, a 2 ist definiert als Ma­

ximalstelle des Likelihoods

bzw. des Kerns des Log-Likelihoods

(10) e(Jl, a21Y) = - ~ [J . log a 2 + a-2 11Y -JlII ~ ]

bzgl. JlE.At und a 2>0.

Die Maximierung von e bzgl. Jl entspricht genau der Minimierung von IIY - JlII t, und

Page 97: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4 - 11

folglich stimmt die ML-Schätzung ,G des Erwartungswert ,U mit der VMQ-Schätzung

überein:

(11) D P = f i = P Y .

"4%'

2 Aber die ML-Schätzung 62 für die Varianz a (die man durch Differenzieren von

nach a2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor < 1

(12) 1 2 - J-S -2 62 = J IIY-,GllD - -. J a < a2

2 Die ML-Schätzung 62 ist also nicht erwartungstreu für a , und man kann die

VMQ-Schätzung a2 als erzuartungstreue Korrektur der ML-Schätzung auffassen.

4.4 Das Aitken-Modell für normalverteilte Beobachtungen 11.8.05 4-11

folglich stimmt die ML-Schätzung jJ, des Erwartungswert Jl mit der VMQ-Schätzung

überein:

(11) - A pD Y Jl=Jl=.At .

Aber die ML-Schätzung 0-2 für die Varianz 0-2 (die man durch Differenzieren von e

nach 0-2 erhält) unterscheidet sich von der VMQ-Schätzung um einen Faktor< 1

(12) ~2 _ lilY -11 2 _ J-S A2 < A2 0- - J -Jl D - J. 0- 0-

Die ML-Schätzung 0-2 ist also nicht erwartungstreu für 0-2

, und man kann die

VMQ-Schätzung 0-2 als erwartungstreue Korrektur der ML-Schätzung auffassen.

Page 98: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 12

4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen

Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom-

binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo-

dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal-

verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die

Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,

zunächst Linearkombinationen des Erwartungsvektors zu betrachten.

4.5.1 Formulierung der Hypothesen

Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine T S (im folgenden feste) Linearkombination C 8 des Parameters mit C E IR , C t 0 und der

Nullhypothese

für einen vorgegebenen „ReferenzwertU C ER, und einer ein- bzw. zweiseitigen Al- 0

ternative:

(2) T H>: C 8 > co (einseitig) bzw. T H : C 8 t co (zweiseitig).

#

Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line- T arkombination C 8 des Parametervektors 8 eine Linearkombination

des Erwartungsvektors ,U enthalten. Unter der Rangbedingung (RB) ist

8 = X-P mit 1 T X - = ( X T D X ) - X D ,

und somit ist jede Linearkombination des Parameters 8 auch eine Linearkombina-

tion des Erwartungsvektors ,U

(3) T T 8 = d D P mit T T - -1 d = C X D

bzw. d = X (xT~x)- l C E A.

Wir betrachten jetzt eine Nullhypothese der Form

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-12

4.5 Tests für Linearkombinationen des Erwartungswerts bei normalverteilten Beobachtungen

Wir wollen jetzt die Betrachtungen über das Testen und Schätzen von Linearkom­

binationen des Parameters vom Klassischen Linearen Modell auf das Aitken-Mo­

dell mit normalverteilten Beobachtungen übertragen, wobei wir von der Normal­

verteilungsannahme (NVY) generell ausgehen. Da wir aber nicht notwendig die

Gültigkeit des Modells (LM) voraussetzen wollen, erweist es sich als zweckmäß,

zunächst Linearkombinationen des Erwartungsvektors zu betrachten.

4.5.1 Formulierung der Hypothesen

Ausgangspunkt ist das Testproblem aus dem klassischen linearen Modell für eine

(im folgenden feste) Linearkombination cT () des Parameters mit cE IRS, c:;= 0 und der

Nullhypothese

(1)

für einen vorgegebenen "Referenzwert" COE IR, und einer ein- bzw. zweiseitigen Al­

ternative:

(2) bzw.

Allerdings wollen wir hier die Hypothesen so umformulieren, daß sie statt der Line­

arkombination cT () des Parametervektors () eine Linearkombination

des Erwartungsvektors Jl enthalten. Unter der Rangbedingung (RB) ist

mit

und somit ist jede Linearkombination des Parameters () auch eine Linearkombina­

tion des Erwartungsvektors Jl

(3) T T c(}=dDJl mit

bzw.

Wir betrachten jetzt eine Nullhypothese der Form

Page 99: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 13

J mit festem d E IR , d t 0 und einem vorgegeben Referenzwert d E IR. Man beachte, 0

daß wir die Gültigkeit des Modells (LM), d. h. P E A, explizit mit in die Nullhypo-

these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung

D die nur noch über P,d von d abhängt. Wir können und wollen daher ohne Be- D schränkung der Allgemeinheit fordern, daß d = P, d bzw.

gilt. Die ein- bzw. zweiseitige Alternative lautet

T (6) H>: d D p > do (einseitig) bzw. T H : d D p t do (zweiseitig). f

Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (I), sofern

(LM) und (RB) gelten, wobei dann auch d E A und d t 0 erfüllt sind. Der Vorteil

der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den

Parameter 8 nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe-

dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht

zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und

(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells

(LM) voraus.

4.5.2 Der ein- und zweiseitige t-Test

Zunächst schätzt man die Linearkombination ( d, , L L ) ~ in naheliegender Weise

durch ( d, fi)D. Diese Schätzung ist erwartungstreu und normalverteilt

(I) 4(d,fi)D)=N((d,~)D,od) mit

2 2 (2) od = 0 2 . d T ~ d = o .~ldllS> > 0 .

Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-13

(4)

mit festem cl E IRJ, cl :;= 0 und einem vorgegeben Referenzwert da E IR. Man beachte,

daß wir die Gültigkeit des Modells (LM), d. h. Jl E vft, explizit mit in die Nullhypo­

these aufgenommen haben. Dies erlaubt die äquivalenten Formulierung

(4)'

die nur noch über p! cl von cl abhängt. Wir können und wollen daher ohne Be­

schränkung der Allgemeinheit fordern, daß cl = p! cl bzw.

(5) cl E vft

gilt. Die ein- bzw. zweiseitige Alternative lautet

(6) bzw.

Wegen (3) enthält die Nullhypothese (4) auch die bisherige Nullhypothese (1), sofern

(LM) und (RB) gelten, wobei dann auch cl E vft und cl :;= 0 erfüllt sind. Der Vorteil

der Umformulierungen (4) und (6) gegenüber (1) und (2) besteht darin, daß sie den

Parameter () nicht enthalten und somit auch dann sinnvoll sind, wenn die Rangbe­

dingung (RB) nicht gilt oder wenn (unter der Alternativen) das Modell (LM) nicht

zutrifft. Bei den folgenden Ausführungen gehen wir von den Formulierungen (4) und

(6) aus, und setzen weder die Rangbedingung (RB) noch die Gültigkeit des Modells

(LM) voraus.

4.5.2 Der ein- und zweiseitige t-Test

Zunächst schätzt man die Linearkombination (cl, Jl)D in naheliegender Weise

durch ( cl, 4 )D. Diese Schätzung ist erwartungstreu und normalverteilt

(1) mit

Als Teststatistik für die Hypothesen (3) und (4) verwenden wir nun die standardi-

Page 100: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 14

sierte Abweichung der Schätzung ( d, vom Referenzwert do

(3) T = ( d , P ) ~ - d o wobei ad

(4) 8d= 8 2 . ~ ~ ~ I I S >

die zugehörige Schätzung von o2 ist. Die Teststatistik besitzt - auch wenn das line- d

are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung

(5) 4s) = tFG(y, 6) mit

(6) FG = FG(A) = ~ i m (AL) = J - Dim (A),

1 (7) y = y ( P ) l ) = < [ ( d , ~ ) ~ - d ~ ] , und

1 D 2 (8) 6 = 6 ( ~ ) = ~ I l ( ~ - ~ ~ ) ~ l l ~ vgl. 4.4 (6).

- 1 D 2 mit LD - 2 ~ ~ p N ~ ~ ~ D Jf'-=.,tZ .

Die erste Nichtzentralität y ist ein Maß für die Abweichung der Linearkombination

( d, vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität S

ist ein Maß für die Abweichung des Erwartungsvektors ,U vom Modellraum A. Un-

ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for-

mulieren als

(9) H : y = O , S = O 0

(10) H>: y > 0 (einseitig) bzw. H : y s 0 (zweiseitig). f

Unter der Nullhypothese Ho ist die Teststatistik T daher @entral) tFG-verteilt. Da

groj3e Werte von T bzw. I T I eher für die ein- bzw. zweiseitige Alternative als für die

Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender

t-Test

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-14

sierte Abweichung der Schätzung ( cl, (i,)D vom Referenzwert do

(3) T wobei

die zugehörige Schätzung von a~ ist. Die Teststatistik besitzt - auch wenn das line­

are Modell (LM) nicht zutrifft - eine doppelt-nichtzentrale t-Verteilung

(5)

(6)

(7)

(8)

L(T) = tFG( ,,(,8)

FG = FG(vft) = Dim(vft~) = J - Dirn (vft),

"( = "((Jl) = ; [( cl,Jl)D-dO] ' cl

8 8(Jl) = :211 (II- P~) JlII~

= :2 11 p J JlII ~ mit

mit

und

vgl. 4.4 (6).

JV=vft~D.

Die erste Nichtzentralität "( ist ein Maß für die Abweichung der Linearkombination

( cl, Jl)D vom Referenz do unter der Nullhypothese, und die zweite Nichtzentralität 8

ist ein Maß für die Abweichung des Erwartungsvektors Jl vom Modellraum .At. Un­

ter Verwendung der Nichtzentralitäten lassen sich die Hypothesen äquivalent for­

mulieren als

(10) H>: "( > 0 (einseitig) bzw. H : "( ;= 0 (zweiseitig). ~

Unter der Nullhypothese HO ist die Teststatistik T daher (zentraV tFG-verteilt. Da

große Werte von T bzw. 1 TI eher für die ein- bzw. zweiseitige Alternative als für die

Nullhypothese sprechen, ergibt sich wie im klassischen linearen Modell folgender

t-Test

Page 101: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 15

(11) Einseitiger t-Test von Ho vs. H> zum Niveau u:

Entscheidung für H> U T ' t ~ ~ , a '

U G (-T) < u . t~~

(12) Zweiseitiger t-Test von Ho vs. Hz zum Niveau u:

Entscheidung für Hz U I T l 2 t ~ ~ l a / a

U 2Gt I T I ) < U. FG

Unter Verwendung des Zusammenhangs F = t2 (vgl. Exkurs V 3.1) läßt sich der 1,n n

zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren

(12)' Zweiseitiger F-Test von Ho vs. Hz zum Niveau a:

Entscheidung für Hz U 2 T ' Fl, FG, a '

4.5.3 Die Schärfe des einseitigen t-Tests

Wir wollen jetzt die Schärfe des t-Tests untersuchen , wobei wir in Verallgemeine-

rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,

daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist

(1) POwl (7, 6, a) = P { tFG(y, 6 ) tFGla } (Schärfe: einseitig)

- (t ) - @tFG(-y, 6) FG, a

mit G als Verteilungsfunktion der doppelt-nichtzentralen tn(y, 6)-Verteilung. ~FG(Y 7 6)

Die Schärfe hängt vom Testniveau u und beiden Nichtzentralitäten wie folgt ab

(2) Powl (y,6, u) ist streng monoton wachsend sowohl in u als in y.

1 (3) Für a < ist Powl (y, 6, u) streng monoton fallend in 6 und wird

bei festem u und y maximal für 6 = 0, d.h. wenn das Modell (LM) gilt.

Und als Grenzwerte für y + f co bzw. 6 + co ergeben sich

4.5 Test für Linearkombinationen des Erwartungswerts

(11) Einseitiger t-Test von Ho vs. H> zum Niveau a:

Entscheidung für H>

P (-T) < a· tFG

(12) Zweiseitiger t-Test von Ho vs. H:;zt. zum Niveau a:

Entscheidung für H :;zt. I TI > tpG,ex/2'

11.8.05

2 Pt ( -I TI) < a. FG

4-15

Unter Verwendung des Zusammenhangs Fl

= t2 (vgl. Exkurs V 3.1) läßt sich der ,n n

zweiseitige t-Tests (wie in 2.5.1) äquivalent als F-Test formulieren

(12)' Zweiseitiger F-Test von Ho vs. H:;zt. zum Niveau a:

Entscheidung für H :;zt.

4.5.3 Die Schärfe des einseitigen t-Tests

Wir wollen jetzt die Schärfe des t-Tests untersuchen, wobei wir in Verallgemeine­

rung der Betrachtungen im klassischen linearen Modell auch den Fall zulassen,

daß das Modell (LM) nicht gilt. Die Schärfe des einseitigen t-Test ist

(1) Pow 1 ("f, 8, a) (Schärfe: einseitig)

1 - P (t ) tFG(-y ,8) PG, ex

mit Pt ( 8) als Verteilungsfunktion der doppelt-nichtzentralen t ("f, 8)-Verteilung. FG'"Y, n

Die Schärfe hängt vom Testniveau a und beiden Nichtzentralitäten wie folgt ab

(2) Powl

("{,8, a) ist streng monoton wachsend sowohl in a als in "(.

(3) Für a < ~ ist Powl

("{,8, a) streng monoton fallend in 8 und wird

bei festem a und "f maximal für 8 = 0, d.h. wenn das Modell (LM) gilt.

Und als Grenzwerte für "f ---+ ± 00 bzw. 8 ---+ 00 ergeben sich

Page 102: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 16

(4) Pow(-00,6,a)=O, 1 Pow (00,6, a) = 1. 1

P0w1 (y, 00, a) = 0 .

Insbesondere fällt also die Schärfe bei festem y sogar gegen 0, wenn 6 beliebig an-

wächst, d. h. wenn das Modell & beliebig inadäquat wird.

Wenn zwar y = 0 ist, d. h. ( d, ,U),, = do gilt, aber das Modell (LM) nicht zutrifft, d. h.

6 > 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau

a, d.h. der Test ist konservativ:

(5) Für a < und 6 > 0 gilt: a t(6) : = Pow1 (0,6, a) < a . ef

Weil das effektive Testniveau ae&6) in (5) kleiner als nominelle Niveau a ist, folgt

mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:

(6) Für a < und 6 > 0 gilt: Powl (y,s, ae&6)) < Powl (y ,4 a) .

Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null-

hypothese Ho: y < 0 , 6 = 0 formuliert, die allerdings zum gleichen Test (16) führt

wie die bisherige Nullhypothese Ho: y = 0 , 6 = 0, weil das Fehlerrisiko 1. Art (d.h.

die Schärfe) unter y < 0 nach (19) für den Wert y = 0 maximal wird.

4.5.4 Die Schärfe des zweiseitigen t-Tests

Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag ly 1 von der

Nichtzentralität y ab und läßt sich wie folgt darstellen

Nach 4.5.3 (3) ist auch Pow2(y,6, a) streng fallend in 6 und wird bei festem a und

y maximal, wenn 6 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t-

Test konservativ, wenn zwar y = 0 gilt, aber das Modell (LM) falsch ist:

(2) Für 6 > 0 gilt: Pow2 (0,6, a) < a .

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05

(4) Pow1 (-00,8,a) = 0,

Pow1

b,oo, a) = o.

Pow1

(00,8, a) = 1.

4-16

Insbesondere fällt also die Schärfe bei festem, sogar gegen 0, wenn 8 beliebig an­

wächst, d. h. wenn das Modell .At beliebig inadäquat wird.

Wenn zwar, = 0 ist, d. h. ( cl, Jl)D = da gilt, aber das Modell (LM) nicht zutrifft, d. h.

8> 0, so ist das die Schärfe des einseitigen t-Tests sogar kleiner als das Testniveau

a, d.h. der Test ist konservativ:

(5) Für a< ~ und 8> 0 gilt:

Weil das effektive Testniveau aeJlß) in (5) kleiner als nominelle Niveau a ist, folgt

mit (2), daß auch die effektive Schärfe geringer ist als die nominelle Schärfe:

(6) Für a< ~ und 8> 0 gilt:

Das einseitige Testproblem wird oft auch mit der (14) umfassenden einseitigen Null­

hypothese HO: ,< 0 ,8= 0 formuliert, die allerdings zum gleichen Test (16) führt

wie die bisherige Nullhypothese HO: , = 0 ,8= 0, weil das Fehlerrisiko 1. Art (d.h.

die Schärfe) unter, < 0 nach (19) für den Wert, = 0 maximal wird.

4.5.4 Die Schärfe des zweiseitigen t-Tests

Die Schärfe des zweiseitigen t-Tests hängt nur über den Absolutbetrag I, I von der

Nichtzentralität , ab und läßt sich wie folgt darstellen

Nach 4.5.3 (3) ist auch Pow2b,8, a) streng fallend in 8 und wird bei festem a und

, maximal, wenn 8 = 0 ist, d.h. wenn (LM) gilt. Folglich ist auch der zweiseitige t­

Test konservativ, wenn zwar, = 0 gilt, aber das Modell (LM) falsch ist:

(2) Für 8> 0 gilt:

Page 103: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 17

Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in 1 y 1 und größer als

der zweite Summand, der streng fallend in 1 y 1 ist und nach 4.5.3 (4) sogar für

171 + co gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines I y 1 durch den ersten Summanden approximieren

(3) P o 5 ( ~ ~ 4 a) powl ( 17 I , 6 , falls ly I „nicht zu klein".

wobei die Approximation für wachsendes 1 y 1 immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test „ungefähru der des einseitigen Tests

zum halben Niveau.

Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe

mit der Verteilungsfunktion @ F1l FG(r27 ,S> von FG(y 6)

(4) Pow2(y,6,a) =P{Fl lFG(y2,6)>F1FGla 1 }

= 1 - @ (F Fl1 FG(r 27 ,W 17FG7a 1

2 ist streng wachsend in a und ly 1 bzw. y und streng fallend in 6.

4.5.5 K o n f i d e n z g r e n z e n für Linearkombinationen

Wir wollen jetzt auch Konfidenzgrenzen für die Linearkombination ( d, angeben,

an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo-

these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit

1- ci! ist für ci! <I definiert durch 2

(1) (d,f i ) , -Aa (untereGrenze) bzw.

(d , f i )D+ A a (obere Grenze) mit A = 8 .t a d FG,a'

Die Sicherheit dieser Grenzen ist mindestens 1- ci! (auch wenn das Modell (LM)

nicht gilt), d. h. die Grenzen sind konservativ

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-17

Nach 4.5.3 (3) ist der erste Summand in (1) streng wachsend in h 1 und größer als

der zweite Summand, der streng fallend in 1"( 1 ist und nach 4.5.3 (4) sogar für

1 "( 1---+ 00 gegen 0 konvergiert. Folglich läßt sich die Summe für nicht zu kleines 1 "( 1

durch den ersten Summanden approximieren

(3) falls 1"( 1 "nicht zu klein".

wobei die Approximation für wachsendes 1"( I immer besser wird. In diesem Sinn

entspricht die Schärfe des zweiseitigen Test "ungefähr" der des einseitigen Tests

zum halben Niveau.

Interpretiert man den zweiseitigen Test als F-Test, so ergibt sich für die Schärfe

mit der Verteilungsfunktion P F (2 8) von Fl FG( "( 2,8) I,FG"( , ,

(4) P { Fl,FG( "( 2,8) > Fl,FG, a }

1 - P 2 (F ) FI FGb ,6) l,FG, a ,

ist streng wachsend in a und 1"( 1 bzw. "(2 und streng Jallend in 8.

4.5.5 Konfidenzgrenzen für Linearkombinationen

Wir wollen jetzt auch KonJidenzgrenzen für die Linearkombination ( cl, Jl)D angeben,

an denen man insbesondere dann interessiert ist, wenn der t-Test die Nullhypo­

these abgelehnt hat. Die einseitige untere bzw. obere Konfidenzgrenze zur Sicherheit

1- a ist für a < ~ definiert durch

(1) ( cl, (i,)D - L1 a (untere Grenze)

( cl, (i,)D + L1a (obere Grenze)

bzw.

mit

Die Sicherheit dieser Grenzen ist mindestens 1- a (auch wenn das Modell (LM) nicht gilt), d. h. die Grenzen sind konservativ

(2)

Page 104: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4 - 18

Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil

Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge-

geben durch

Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell

(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.

Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der

exakten Sicherheit 1- a kürzer als das Intervall in (4).

4.5.6 Linearkombinationen des Parameters

Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi- T nationen C 19 des Parameters eingehen, wobei wir natürlich die Rangbedingung

(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination

(1) T

C e = ( d 7 ~ ) D mit d =x(xT~x)-l C E A.

ergeben sich sofort aus den obigen Resultaten für das spezielle d. Die Varianz der

Schätzung cTd = ( d läßt sich dann auch darstellen als

Im Spezialfall D = f l J entspricht dies der Darstellung von o2 in 2.5.2 (3) für das C

Klassische Lineare Modell.

4.5 Test für Linearkombinationen des Erwartungswerts 11.8.05 4-18

Die Sicherheit ist genau dann exakt gleich 1- a, wenn das Modell (LM) gilt, weil

(3) 6=0

Das zweiseitige (symmetrische) Konfidenzintervall zur Sicherheit 1- a ist dann ge­

geben durch

(4) ( cl, 4)D ± iJ. ex/2 (zweiseitiges KonJidenzintervalp.

Die Sicherheit dieses Intervalls ist wieder nur dann exakt 1- a, wenn das Modell

(LM) gilt, andernfalls ist sie größer als 1- a, und das Intervall ist dann konservativ.

Oder anders formuliert, wenn (LM) nicht zutrifft, so wäre das Intervall mit der

exakten Sicherheit 1- a kürzer als das Intervall in (4).

4.5.6 Linearkombinationen des Parameters

Abschließend wollen wir noch kurz auf die in der Praxis bevorzugten Linearkombi­

nationen cT e des Parameters eingehen, wobei wir natürlich die Rangbedingung

(RB) voraussetzen. Tests und Konfidenzgrenzen für die Linearkombination

(1) mit

ergeben sich sofort aus den obigen Resultaten für das spezielle cl. Die Varianz der

Schätzung cT () = ( cl, 4)D läßt sich dann auch darstellen als

( ) 2 2 T( T )-1 T (A) 2 a cl = a . c X DX c = c . Cov e . c.

Im Spezialfall D = 11 J entspricht dies der Darstellung von a~ in 2.5.2 (3) für das

Klassische Lineare Modell.

Page 105: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 19

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen

Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor-

malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait-

ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen

wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung

des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.

4.6.1 Lineare Hypothesen über den Erwartungswert

Für einen echten linearen Teilraum Ao CA betrachten wir wieder das lineare

Testproblem mit den linearen Hypothesen

(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,

Alternative: H : p@A0 (Untermodell 4 gilt nicht ).

Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:

(Dirn) S o = D i m ( j l c ) < S = D i m ( A ) < J bzw.

0 < F G ( A ) = (J-S) < FG(Ao) = (J-SJ .

Die VMQ-Schätzung von p für das Modell Ao (d.h. unter der Nullhypothese Ho) ist

und hängt von der Beobachtung Y nur noch über die Schätzung fi = PdY ab. Die

Abweichung der Beobachtung Y vom Untermodell A läßt sich wie folgt zerlegen 0

2 (2) I I Y - ~ ~ ~ I I ~ = IIY-fiIID + llfi-fi0 11; bzw'

D e v ( A O ) = D e v ( A ) + ADev mit

2 (3) ADev = A D e v ( A 0 , 4 = D e v ( A o ) - D e v ( A ) = 1 1 fi - fio 1 1 D .

4.6 Testen von linearen Hypothesen 11.8.05 4-19

4.6 Testen von linearen Hypothesen bei normalverteilten Beobachtungen

Wir wollen jetzt auch den F-Test aus 2.6 zum Testen linearer Hypothesen bei nor­

malverteilten Beobachtungen vom Gauss-Markov-Modell auf das allgemeinere Ait­

ken-Modell übertragen und dabei geringfügig verallgemeinern. Insbesondere wollen

wir die Gültigkeit des Modells (LM) nicht voraussetzen, aber die Normalvetrteilung

des Beobachtungsvektor (NVY) soll in diesem Abschnitt stets gelten.

4.6.1 Lineare Hypothesen über den Erwartungswert

Für einen echten linearen Teilraum vft C vft betrachten wir wieder das lineare o

Testproblem mit den linearen Hypothesen

(LH) Nullhypothese:

Alternative:

(Untermodell vfto gilt) ,

(Untermodell vfto gilt nicht ).

Über die Dimensionen bzw. Freiheitsgrade der Modelle setzen wir wieder voraus:

(Dirn) 50 = Dirn (vfto) < 5 = Dim(vft) < J bzw.

o < FG(vft) = (J -5) < FG(vfto) = (J -5J .

Die VMQ-Schätzung von Jl für das Modell vfto (d.h. unter der Nullhypothese Ho) ist

(1) J1 = J1 (Y) = pD Y = P ~ J1 o 0 .At 0 Jp[o

und hängt von der Beobachtung Y nur noch über die Schätzung J1 = P.At Y ab. Die

Abweichung der Beobachtung Y vom Untermodell vftO

läßt sich wie folgt zerlegen

(2) IIY-J1ollt =IIY-J1llt+IIJ1-J1ollt bzw.

Dev( vft 0) = Dev (vft) + L,Dev mit

(3)

Page 106: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 20

Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man 2 dort die euklidische Norm 1 1 - 1 1 durch die Norm 1 1 - 1 1 S> ersetzt:

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle 4 C A

Streuung (Ursache)

Abweichung von H 0

u m d a s M o d e l l A

um das Model lAo

Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen-

dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:

A D ~ V / M G llfi-fi,llS,/(~-s~ (4) F = - - (F-Statistik), - 2

0 ll~-fillS,l( J-s)

- - 1 1 (P; - P;) Y llS)/(s-s„

mit ll(n-p$) yllS,I( J-s)

(5) a F G = F G ( j L C ) - F G ( . , $ 2 ' ) = D i m A - D i m A o = S - S o > O ,

Dev = SQD

ADev = 1 1 fi - fio 1 1 D

D ~ v ( . , $ ~ ' ) = I I Y - ~ ~ I I S )

Dev(Ao)=IIY-fioll S)

Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:

2 2 2 (6) ADev = 1 1 fi - fi 1 1 ist 0 . xaFG(r)-verteilt

0 D mit

1 D D > 0 (7) 7 = , i I I P A ~ P J& P I I D - (Nichtzentralität) .

2 A2 . (8) ADev = I I fi - fi 1 1 und Dev(A) = 1 IY - fi I I D bzw. 0 sznd stochastisch

0 D unabhängzg..

FG

AFG =S-So

F G ( A ) = J - S

FG(Ao)=J -SO

MQ = SQD/ FG

A Dev/aFG

o A 2

o A o 2

4.6 Testen von linearen Hypothesen 11.8.05 4- 20

Die zugehörige Tafel dieser Streuungszerlegung entspricht der aus 2.6, wenn man

dort die euklidische Norm 11_112 durch die Norm 11-11 ~ ersetzt:

Streuung (Ursache) Dev -SQ - D FG MQ=SQrJFG

Abweichung von HO ~Dev =114-40 11 ~ ~FG =s-s 0

~Dev/UG

um das Modell vft Dev(vft) = IIY - 411 ~ FG(vft) =J-S A2 !J

um das Modell vfto Dev (vfto) = IIY - 40 11 ~ FG(vfto) =J-So A2

!Jo

Tab. 1: Analyse der Deviance (Streuungszerlegung) für Modelle vfto c .At.

Durch Übergang auf das zugehörige Gauß-Markov- Modell (vgl. 4.2) und Anwen­

dung der Resultate aus 2.6 ergibt sich dann folgende Teststatistik:

(4) F= 114-40 1It/(S-SJ

IIY - 41It/( J-S) (F-Statistik) !

II(p!-p!) Y Ilt/(S-SJ o mit

11 (11- p!) Y 11 t / ( J - S)

(5) UG = FG(vfto) - FG(vft) = Dirn vft - Dirn vfto = S -SO> 0,

Die gemeinsame Verteilung des Zählers und Nenners der F-Statistik ergibt sich aus:

(6) mit

(7) (Nichtzentralität) .

(8) ~Dev = 114-40 11t und Dev(vft) = IIY -411t bzw. 0-2 sind stochastisch

unabhängig ..

Page 107: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 21

Unter dem Modell (LM), d.h. für ,uEA, ist die Nichtzentralität y ein Maß für die

Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui-

valent formulieren als:

(LH)' H O : y = O u n d 6 = 0 , H y > 0 oder S > 0.

Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine

doppelt-nichtzentrale F-Verteilung

(9) %(F) = FzFGl NFG (Y,S> mit

(10) ZFG = D G = FG(Ao) - F G ( 4 = S - So ,

NFG = FG(A) = J-S, und

1 D 2 1 D 2 LD (11) 6 = 6 ( ~ ) = , I l ( n - p A ) ~ l l D 0 = ,2 1 I P N ~ I I D , M=A .

Die Nichtzentralität S ist ein Maß für die Abweichung des Erwartungsvektors ,U

vom Modellraum A.

Insbesondere ist die Teststatistik unter der Nullhypothese Ho zentral F-verteilt, und

(wie in 2.6) ergibt sich folgender Test zum Niveau a:

(12) F-Test zum Niveau a:

Ablehnung von Ho U F F ~ ~ ~ l NFG] o,

U - @ZFG] NFG(~) < - a .

Dabei ist F das a-Quantil und @ die Verteilungsfunktion der zentralen m,n,a m,n

F -Verteilung ist. Für einen beobachteten Testwert Fobs (d.h. einer Realisierung m1

von F ) wird die Wahrscheinlichkeit

F m , n > F 1 @

(Fobs) = P{ F ~ ~ ~ , ~ ~ ~ - obs

auch als P-Wert oder Signifikanzniveau des beobachteten Testwerts Fobs bezeichnet.

4.6 Testen von linearen Hypothesen 11.8.05 4- 21

Unter dem Modell (LM), d.h. für JlEvft, ist die Nichtzentralität "( ein Maß für die

Abweichung von der Nullhypothese, und die linearen Hypothesen lassen sich äqui­

valent formulieren als:

(LH) , HO: "( = 0 und 8 = 0, H: "( > 0 oder 8 > o·

Die Teststatistik besitzt, auch wenn das lineare Modell (LM) nicht zutrifft, eine

doppelt-nichtzentrale F-Verteilung

(9)

(10)

(11)

L(F) = F ZFG NFG( ,,(,8) , ZFG = MG = FG(vfto) - FG(vft) = 5-5

0,

NFG = FG(vft) = J -5,

8 = 8(Jl) = :211 (ll- P~) Jllit = :211 pJ Jlllt,

mit

und

Die Nichtzentralität 8 ist ein Maß für die Abweichung des Erwartungsvektors Jl

vom Modellraum .At.

Insbesondere ist die Teststatistik unter der Nullhypothese HO zentral F-verteilt, und

(wie in 2.6) ergibt sich folgender Test zum Niveau a:

(12) F-Test zum Niveau a:

Ablehnung von Ho F > FZFG,NFG,a

{} 1- PZFG NFG(F) < a. ,

Dabei ist F das a-Quantil und P die Verteilungsfunktion der zentralen m,n,Q m,n

F - Verteilung ist. Für einen beobachteten Testwert F b (d.h. einer Realisierung m,n 0 S

von F) wird die Wahrscheinlichkeit

auch als P-Wert oder 5igniJikanzniveau des beobachteten Testwerts F b bezeichnet. o S

Page 108: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 22

4.6.2 Lineare Hypothesen über den Parameter

In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über

den Parameter 8 formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge-

ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des

Parameters 8 anstelle des Erwartungswertes p, wobei wir generell die Rangbedin-

gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig-

keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be-

standteil der Nullhypothese sein.

S Für einen echten linearen Teilraum T. C IR des Parameterraumes lauten die line-

aren Hypothese über den Parameter und ihre Alternative wie folgt

(LHP) Nullhypothese Ho: p = X8 und 8 E T. ,

Alternative H p t X 8 oder 8 @ T o .

Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum

Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter-

schätzungen 8, d0 und den Raum T. beschreiben. Hierzu zeigen wir zunächst

D C (2) P X = X P , d o

mit J 0

(3) C = X ~ D X .

Damit ergeben sich

Die Schätzung d0 des Parameters unter der Nullhypothese Ho hängt nur noch über

die Schätzung 8 von der Beobachtung Y ab und läßt sich darstellen als

4.6 Testen von linearen Hypothesen 11.8.05 4- 22

4.6.2 Lineare Hypothesen über den Parameter

In der Praxis werden die interessierenden Hypothesen meist als Hypothesen über

den Parameter () formuliert (vgl. hierzu auch das Ende des Abschnitts 2.6.1). Wir ge­

ben deshalb jetzt eine äquivalente Beschreibung des F-Test unter Verwendung des

Parameters () anstelle des Erwartungswertes Jl, wobei wir generell die Rangbedin­

gung (RB) voraussetzen, damit der Parameter eindeutig bestimmt ist. Die Gültig­

keit des Modells (LM) wird zwar nach wie vor nicht vorausgesetzt, wird aber Be­

standteil der Nullhypothese sein.

Für einen echten linearen Teilraum q-o C IRS des Parameterraumes lauten die line­

aren Hypothese über den Parameter und ihre Alternative wie folgt

(LHP) Nullhypothese Ho: Jl = X() und ()Eq-O'

Alternative H: Jl ;= X() oder

Diese Hypothesen entsprechen den linearen Hypothesen (LH) für den Raum

Wir wollen den jetzt die relevanten Größen für den F-Test durch die Parameter­

schätzungen 0, 00

und den Raum q-O beschreiben. Hierzu zeigen wir zunächst

(2)

(3) c

Damit ergeben sich

(4) ~Dev --

(5) (LM)

(6) MG --

mit

A A 2 11 ()-()o Il e ,

::::} "( - 12 11 (11- P ~ ) () 11 ~ , -a 0

s- Dirn q-o.

Die Schätzung 00

des Parameters unter der Nullhypothese Ho hängt nur noch über

die Schätzung 0 von der Beobachtung Y ab und läßt sich darstellen als

Page 109: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 23

2 d.h. 8, ist die Minimalstelle der quadratischen Form 1 1 8- T I I C bzgl. T E T,.

Unter Verwendung des C-orthogonalen Komplements von T 0

erhält man die Darstellungen

Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum T. C IRs

durch ein lineares Gleichungssystem gegeben ist:

wobei B. eine QoxS Matrix mit vollem Rang ist

(12) Rang B = Q 0 0 '

Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent

(LHP)' Nullhypothese Ho: p = X e und B. 0 = 0 ,

Alternative H ~ r x 8 oder BOB r 0 .

-1 T Das C-orthogonale Komplement Tl wird von den Spalten der SxQo Matrix C B. erzeugt, d.h.

(13) Q T 1 = T'C o = { C - ~ B T V I V E I R 0 ) .

Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion

mit

Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen

406 Testen von linearen Hypothesen 1108005

(7)

doho 00

ist die Minimalstelle der quadratischen Form 11 0 - T 11 ~ bzgl. TE q-oo

Unter Verwendung des C-orthogonalen Komplements von q-O

(8) ~ = q-o~c

erhält man die Darstellungen

(9)

(10)

~Dev

(LM)

4- 23

Diese Darstellungen sind dann von Bedeutung, wenn der lineare Teilraum q-O C IRS

durch ein lineares Gleichungssystem gegeben ist:

wobei BO

eine QOxS Matrix mit vollem Rang ist

(12) Rang BO = QO 0

Die linearen Hypothesen (LHP) über den Parameter lauten dann äquivalent

(LHP) , Nullhypothese HO:

Alternative H:

Jl = X(} und BO

(} = 0,

oder BO

() :;= 00

Das C-orthogonale Komplement ~ wird von den Spalten der SxQO Matrix C-1B~

erzeugt, doho

(13) ~ = q-o~c = {C-1B~v 1 vEIRQO}o

Hieraus ergibt sich die Darstellung der C-orthogonalen Projektion

(14) mit

Die für den F-Test relevanten Größen lassen sich dann wie folgt darstellen

Page 110: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 24

1 T -1 (16) ADev = (BOB) T ( ~ . C- B,) ( ~ ~ 8 ) = 1 1 B08 1 1

(17) ( L W * 1 2 7 = 2 1 1 I I E

(18) D G = Rang B = Qo . 0

Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung d0 nicht mehr

enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex-

plizit die Schätzung 8 zu bestimmen. Man beachte in diesem Zusammenhang, daß 0

die Matrix C-' bis auf den Faktor 1 die Covarianzmatrix des Schätzers 8 ist: 0 2

4.6.3 Schärfebetrachtungen beim F-Test

Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen

(LH) Nullhypothese: Ho: p € A o (Untermodell 4 gilt) ,

Alternative: H : &A0 (Untermodell 4 gilt nicht ).

eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar-

stellung der Schärfe

(1) Pow(y,6,Q!) = P{F m1 n ( y , b ) > F m1n1 a 1

= 1 - @ ) mit m=ZFG, n=NFG,

wobei @F die Verteilungsfunktion der F (y , 6)-Verteilung ist. Hierbei ist m '1 m,n

die zweite („~enner"-) Nichtzentralität

ein Maß für die Abweichung des Erwartungswerts ,u vom Modellraum A, d. h. für

die Abweichung von der Voraussetzung (LM). Und die erste („Zähleru-) Nichtzen-

tralität

4.6 Testen von linearen Hypothesen 11.8.05 4- 24

(16) ~Dev - (BoO)T(Bo C-1B~) -1 (BoO) = 11 BoO 11 ~ -

(17) (LM) ::::} 'Y = ;211 BoO II~

(18) MG = Rang BO = Q 0 .

Der Vorteil der Darstellung (16) liegt darin, daß sie die Schätzung 00

nicht mehr

enthält, und somit auch eine Berechnung der F-Statistik gestattet, ohne vorher ex­

plizit die Schätzung 00

zu bestimmen. Man beachte in diesem Zusammenhang, daß

die Matrix C-1 bis auf den Faktor 12

die Covarianzmatrix des Schätzers 0 ist: a

(19) -1 1 A

C = 2· Cov(O). a

4.6.3 Schärfe betrachtungen beim F-Test

Wir wollen jetzt noch auf die Schärfe des F-Tests der linearen Hypothesen

(LH) Nullhypothese:

Alternative:

(Untermodell ...40

gilt) ,

(Untermodell ...40

gilt nicht ).

eingehen. Aus der Verteilung der Teststatistik in 4.6.1 (9) ergibt sich folgende Dar­

stellung der Schärfe

(1) Pow("'(,8,a)

1 - <P (F) mit F b,8) m,n,Ct m,n

m=ZFG, n=NFG,

wobei <P F (8) die Verteilungsfunktion der F ('Y, 8)-Verteilung ist. Hierbei ist mn "(, m,n

die zweite ("Nenner"-) Nichtzentralität

ein Maß für die Abweichung des Erwartungswerts Jl vom Modellraum ...4, d. h. für

die Abweichung von der Voraussetzung (LM). Und die erste ("Zähler"-) Nichtzen­

tralität

Page 111: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.6 Testen von linearen Hypothesen 11.8.05 4 - 25

ist ein Maß für die Abweichung der D-orthogonalen Projektion von ,U in den Unter-

raum Co C C von der entsprechenden Projektion in den Modellraum jlc

Die Schärfe hängt also nur noch über die Nichtzentralitäten y und S vom Erwar-

tungsvektor ,U ab, und aus den Eigenschaften der Verteilungsfunktion @F m,n (776) der

F (y , 6)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort m1 n

(4) Die Schärfe Pow(y, S, a) ist streng monoton

wachsend in y 2 0 ,

fallend in 0 0 , -

wachsend in a E (0 , l ) .

Insbesondere wird die Schärfe bei festem a und y maximal bzgl. S, wenn S= 0 ist,

d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a

und S minimal bzgl. y, wenn die Abweichung y = 0 ist.

Als Grenzwert für y + CO ergibt sich mit Exkurs V 3.2 (16)

Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt

hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach-

tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes-

sierende (hypothetische) Werte von y und S bestimmen, da ja die wahren Werte

von y und S unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon

im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest-

stichprobenumfang J erfolgt sein), wobei man meist S = 0 - d. h. die Gültigkeit des

Modells (LM) - voraussetzt und nur y variieren läßt.

4.6 Testen von linearen Hypothesen 11.8.05 4- 25

ist ein Maß für die Abweichung der D-orthogonalen Projektion von Jl in den Unter­

raum .AtO c.At von der entsprechenden Projektion in den Modellraum .At.

Die Schärfe hängt also nur noch über die Nichtzentralitäten rund 8 vom Erwar­

tungsvektor Jl ab, und aus den Eigenschaften der Verteilungsfunktion <P F (8) der mn ,,(,

F (r, 8)-Verteilung (vgl. Exkurs V 3) ergibt sich sofort ' m,n

(4) Die Schärfe Pow( r, 8, a) ist streng monoton

• wachsend in r > 0 ,

• fallend in 8 > 0 ,

• wachsend in a E (0,1) .

Insbesondere wird die Schärfe bei festem a und r maximal bzgl. 8, wenn 8 = 0 ist,

d. h. wennn das Modell (LM) gilt. Und umgekehrt wird die Schärfe bei festem a

und 8 minimal bzgl. r, wenn die Abweichung r = 0 ist.

Als Grenzwert für r ---+ 00 ergibt sich mit Exkurs V 3.2 (16)

(5) Pow(oo, 8, a) = 1.

Wenn bei einem konkreten Datensatz der F-Test die Nullhypothese nicht abgelehnt

hat, so kann ein Fehler 2. Art vorliegen, dessen Risiko man durch Schärfebetrach­

tungen quantifizieren sollte. Hierzu kann man die Schärfe für verschiedene interes­

sierende (hypothetische) Werte von rund 8 bestimmen, da ja die wahren Werte

von rund 8 unbekannt ist (eine solche Schärfebetrachtung sollte eigentlich schon

im Rahmen einer Versuchsplanung zur Bestimmung des erforderlichen Mindest­

stichprobenumfang J erfolgt sein), wobei man meist 8 = 0 - d. h. die Gültigkeit des

Modells (LM) - voraussetzt und nur r variieren läßt.

Page 112: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 26

4.7 Konstruktion von Konfidenzbereichen

Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,

wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo-

raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab-

schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so-

wohl für den Erwartungvektor ,U als auch für den Parametervektor 8. Anschließend T betrachten wir gleichzeitig endlich viele Linearkombinationen C 8 (für r = 1, ..., R) des r

Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle

mit zwei verschiedenen Methoden (nach Boferroni bzw. Scheffe).

4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor

Aus den Verteilungen der voneinander unabhängigen Schätzung fi und 82 ergibt sich

folgender Konfidenzbereich C C J& für den Erwartungswert ,U zur Sicherheit 1 - a P

(I> Cp = { Y E& I 1 1 Y - fi ll,, < Fa } (Konfidenzbereich für ,U) mit

(2) F 2 = 8 2 . ~ . ~ a S, J-S, a '

(3) P{ ,uEC ) = 1-a. P

Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes J& mit der P

D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um fi vom Radius

F der proportional zur Schätzung 8 ist. Man beachte, daß sowohl der Mittelpunkt a ' fi als auch der Radius F zufällig sind. Nach (3) wird der Erwartungswert ,U vom zu- a fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt).

P

Aus dem Bereich C für den Erwartungswert ,U läßt sich nun sofort ein Konfidenzbe- P

reich C für den Parameter 8 konstruieren 0

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 26

4.7 Konstruktion von Konfidenzbereichen

Wir wollen uns jetzt mit der Konstruktion von Konfidenzbereichen beschäftigen,

wobei wir die Gültigkeit des linearen Modells (LM) in diesem Abschnitt wieder vo­

raussetzen. Weiter soll auch die Normalverteilungsannahme (NVY) in diesem Ab­

schnitt generell gelten. Zuerst geben wir (mehrdimensionale) Konfidenzbereiche so­

wohl für den Erwartungvektor Jl als auch für den Parametervektor (). Anschließend

betrachten wir gleichzeitig endlich viele Linearkombinationen cT () (für r = 1, ... , R) des r

Parameters und konstruieren dafür simultane (konservative) Konfidenzintervalle

mit zwei verschiedenen Methoden (nach Boferroni bzw. ScheffE}

4.7.1 Konfidenzbereiche für Erwartungs- und Parametervektor

Aus den Verteilungen der voneinander unabhängigen Schätzung (i, und 0-2 ergibt sich

folgender Konfidenzbereich C c.At für den Erwartungswert Jl zur Sicherheit 1- a fL

(1)

(2)

(3) P{JlEC}=l-a. fL

(Konfidenzbereich für Jl) mit

Dieser Konfidenzbereich C ist der Durchschnitt des linearen Raumes .At mit der fL

D-Kugel (die bzgl. der euklidischen Norm ein Ellipsoid darstellt) um (i, vom Radius

r ,der proportional zur Schätzung 0- ist. Man beachte, daß sowohl der Mittelpunkt a

(i, als auch der Radius r zufällig sind. Nach (3) wird der Erwartungswert Jl vom zu­a

fälligen Konfidenzbereich C mit der Sicherheit 1- a eingefangen (überdeckt). fL

Aus dem Bereich C für den Erwartungswert Jl läßt sich nun sofort ein Konfidenzbe­fL

reich C (J für den Parameter () konstruieren

Page 113: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 27

(4) C g = { B ~ I R s ~ ~ B ~ ~ } (Konfidenzbereich für 8) P

T T = { B E I R ~ ~ ( B - ~ ) X ~x(e-l)<r:}

= { B E I R ~ I 110-4 llc<ra}

(5) T C = X D X

(6) p { B ~ C ~ } = l - a .

mit

aus (2), a

Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 4 im IRs dar.

Abb. 1: Die Konfidenzbereiche C und Co für den Erwartungswert /I und den Para- P

meter B bzgl. der Matrix X mit den beiden Spalten xl und x2 im Fall S= 2.

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 27

(4) (Konjidenzbereich jür (J)

(5)

= { (JE IRS I ((J- O)TXTDX ((J- 0) < r ~}

= { (JE IRS 111 (J- Olle < raJ mit

raus (2), Ct

(6) P{ (JE CO} = l-a.

Der Bereich Co stellt ein Ellipsoid bzw. eine C-Kugel um die Schätzung 0 im IRs dar.

. .,/,/ vn,.

y

. A

.f,1 ·x· .

2

o ......... JL .

Abb. 1: Die Konfidenzbereiche C JL und Co für den Erwartungswert Jl und den Para­

meter (J bzgl. der Matrix X mit den beiden Spalten xl und x2

im Fall S = 2.

Page 114: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 28

4.7.2 Simultane Konfidenzintervalle nach Bonferroni

T In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination C 8 T des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen C 8 für r

r = 1, ..., R interessiert, wobei die Vektoren C E IR', C r 0 nicht notwendig linear r r unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste

(Differenzen) bei der einfachen Varianzanalyse für einen Faktor A mit K Stufen,

d.h. alle R = (2) Linearkombinationen der Form

fürk, l = 1 ,..., K m i t k r 1 .

Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon-

struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes T einzelne r das zweiseitige Konfidenzintervall von C 8 mit einer von r abhängenden r

Irrtumswahrscheinlichkeit a r

(1) Cr(aT) = [ C? - Ar(aT) , c?d + A r (U r ) ] mit

(2) q a , ) = tM 55. 8 und ' 2

(3) A 2 A2 T 0 = 0 . C (x~Dx)-lcT sowie r r

T (4) P{ cre 6 Cr(aT) 1 =

Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich

nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei-

ten (Bonferroni- Ungleichung):

T (5) P { c 8 S f C ( a ) f ü r m i n d e s t e n s e i n l < r < R ) < a t

bzw. r r r

p{cT8€ C (a ) für alle l < r < ~ ) 1-a t

mit a = C a . r r r t r r

Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht

überschreiten, so läßt sich a = a durch geeigntete Wahl der einzelnen Irrtums- t

wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh- r len wird, d.h. man verwendet

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 28

4.7.2 Simultane Konfidenzintervalle nach Bonferroni

In der Praxis ist man häufig nicht nur an einer einzelnen Linearkombination cT ()

des Parameters, sondern gleichzeitig an endlich vielen Linearkombinationen cT () für r

r = 1, ... , R interessiert, wobei die Vektoren c E IR s, c :;= 0 nicht notwendig linear r r

unabhängig sein müssen. Eine typische Anwendung hierfür sind alle Kontraste

(Differenzen) bei der einfachen Varianz analyse für einen Faktor A mit K Stufen,

d.h. alle R = (~) Linearkombinationen der Form

für k, l = 1, ... , K mit k:;= l .

Wir geben in diesem Abschnitt zunächst eine auf Bonferroni zurückgehende Kon­

struktion von simultanen Konfidenzintervallen an. Zuerst betrachten wir für jedes

einzelne r das zweiseitige Konfidenzintervall von cT () mit einer von r abhängenden r

Irrtumswahrscheinlichkeit a r

(1) C (a ) [ TA TA ] mit c ()-l:c.(a),c ()+l:c.(a) r r r r r r r r

(2) l:c. (a ) tJ_S 0· o-c und r r '2 7"

(3) A2 0-2 . cT (XTDX)-lcT a SOWIe c r r

7"

(4) P { cT() t1. C (a ) } a. r r r r

Die simultane Irrtumswahrscheinlichkeit aller dieser R Konfidenzintervalle läßt sich

nach unten abschätzen durch die Summe aller einzelnen Irrtumswahrscheinlichkei­

ten (Bonferroni- Ungleich ung):

(5) P{ c;() t1. C/ar) für mindestens ein 1 <r<R} < a +

P{ C;()E C/ar) für alle l<r<R} > 1-a+ mit

bzw.

a+ = ~a . r r

Soll die simultane Irrtumswahrscheinlichkeit einen vorgegebenen Wert a nicht

überschreiten, so läßt sich a = a + durch geeigntete Wahl der einzelnen Irrtums­

wahrscheinlichkeiten a erreichen, wobei man diese in der Regel gleich groß wäh-r

len wird, d.h. man verwendet

(6) a r

Q

Page 115: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 29

Fazit: Ein simultane Irrtumswahrscheinlichlceit a bzw. Sicherheit 1 - a für R verschie-

dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden-

zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit 2 bzw. (erhöhten) Sicher- R heit 1-2 erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al- R lerdings konservativ, weil (5) nur eine Ungleichung ist.

Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test T von Interesse, wenn C 8 = 0 simultan für alle r = 1, ..., R Linearkomkinationen ge- r

testet werden soll, wobei dann allerdings die Vektoren C I ) ..., C R linear unabhängig

sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)

T Nullhypothese: Ho : C 8 = 0 für alle 1 < r < R bzw. r r

Ho : c e = o , T Alternative: H : C 8 s 0 für mindestens ein 15 r 5 R bzw. r r

wobei die RxS Matrix C die vorgegebenen Vektoren cl, ...,. C E IRs als Zeilen enthält R und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.

Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein- T . . .

zelnen Linearkombinationen C 8 szgnzfzkant von 0 abweichen und somit für die r

Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul- T tune Konfidenzintervalle für alle C 8 zur simultanen Sicherheit 1- a, wobei a das r

Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ..., R der

Wert 0 im zugehörigen Konfidenzbereich liegt.

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 29

Fazit: Ein simultane Irrtumswahrscheinlichkeit a bzw. Sicherheit 1- a für R verschie­

dene Konfidenzintervalle läßt sich durch Kombination von R einzelnen Konfiden­

zintervallen zur (reduzierten) Irrtumswahrscheinlichkeit ~ bzw. (erhöhten) Sicher­

heit 1-~ erreichen. Im Allgemeinen sind diese simultanen Konfidenzintervalle al­

lerdings konservativ, weil (5) nur eine Ungleichung ist.

Simultane Konfidenzintervalle sind besonders im Zusammenhang mit dem F-Test

von Interesse, wenn cT(} = 0 simultan für alle r = I, ... , R Linearkomkinationen ge­r

testet werden soll, wobei dann allerdings die Vektoren cl' ... , cR

linear unabhängig

sein sollten mit R < S. Die zugehörigen lineare Hypothesen lauten dann (vgl. 4.6)

Nullhypothese: H : cT(} = 0 für alle 1 < r < R o r r bzw.

HO :Ct1=O,

Alternative: H : cT(} :;= 0 für mindestens ein 1 <r< R bzw. r r

HO :C(}7:0,

wobei die RxS Matrix C die vorgegebenen Vektoren cl' ... ,.cR

E IRS als Zeilen enthält

und (wegen deren linearer Unabhängigkeit) den Rang R besitzt.

Bei einer Ablehnung der Nullhypothese interessiert man sich dafür, welche der ein­

zelnen Linearkombinationen cT(} signifikant von 0 abweichen und somit für die r

Ablehnung der Nullhypothese verantwortlich sind. Hierzu konstruiert man simul-

tane Konfidenzintervalle für alle cT(} zur simultanen Sicherheit 1- a, wobei a das r

Niveau des F-Test ist, und überprüft dann, bei welchen Komponenten r = 1, ... , R der

Wert 0 im zugehörigen Konfidenzbereich liegt.

Page 116: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 30

4.7.3 Simultane Konfidenzintervalle nach Scheffb

Wir wollen jetzt nach einer Methode von Scheffk andere simultane Konfidenzberei- T che für die R Linearkombinationen c1 0, ..., Ci0 mit C E IR', cr t 0 konstruieren,

T

und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den

von C ..., C erzeugten Teilraum 1' R

Da die Vektoren cl, ..., C nicht notwendig linear unabhängig sind, gilt R

(2) Q = Dim & 5 R .

Nach Scheffk konstruieren wir jetzt für alle C E & - und damit insbesondere für rn

C ..., cR E ii? - das folgende Konfidenzintervall für c1 0 1'

(3) C& = [ cTB - A ~ ( c ) , cTB + aQ(c) ] mit

2 n 2 T T (4) aQ(c) = Q . FQ, J-S, o, . D . C (X DX)- 'C,

- n 2 . 0 - Q ' FQ,~-s,o, C

(5) n 2 T T 82 = 0 . C ( X DX)- 'C.

C

und

Hierbei ist die geschätzte Varianz der Linearkombination cTd aus 4.5.6. Scheffk

hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für

alle C E &gegeben sind, d. h. es gilt

Hieraus folgt insbesondere, daß die zu C ..., C E &gehörigen Konfidenzintervalle 1' R

(7) CQ r : = [ cTB r - A (C> , c:B + aQ(cr) ] für r = 1, ..., R Q

eine simultane Sicherheit von mindestens 1- a haben

(8) ~ { c ; 0 ~ C ~ f ü r T alle l i r s ~ } 2 1 - a .

Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 30

4.7.3 Simultane Konfidenzintervalle nach Scheffe

Wir wollen jetzt nach einer Methode von Scheffe andere simultane Konfidenzberei­

che für die R Linearkombinationen ci (J, ... , c~(J mit cr

E IR s, cr :;= 0 konstruieren,

und sie mit denen nach Bonferoni vergleichen. Hierzu betrachten wir zunächst den

von cl' ... , cR erzeugten Teilraum

(1) -(ff = span { cl' ... , CR} .

Da die Vektoren cl' ... , cR

nicht notwendig linear unabhängig sind, gilt

(2) Q = Dirn -(ff < R.

Nach Scheffe konstruieren wir jetzt für alle cE -(ff - und damit insbesondere für

cl' ... , cR E -(ff - das folgende Konfidenzintervall für cT

(J

(3)

(4)

(5)

[CT{)_~Q(C), cT{) +~Q(c)]

Q. P Q,J-S,ex . 52. cT (XTDX)-lc,

Q.p .52 Q,J-S,ex c

52. cT (XTDX)-lc .

mit

und

Hierbei ist 52 die geschätzte Varianz der Linearkombination cT{) aus 4.5.6. Scheffe

c

hat gezeigt, daß hierdurch Konfidenzintervalle zur simultanen Sicherheit 1- a für

alle c E -(ff gegeben sind, d. h. es gilt

(6) 1-a.

Hieraus folgt insbesondere, daß die zu cl' ... , cR

E -(ff gehörigen Konfidenzintervalle

(7) ~ [T/' T/' ] U"" : = c (J - ~Q( c ) , c (J + ~Q( c ) r r r r r

für r = 1, ... ,R

eine simultane Sicherheit von mindestens 1- ahaben

Bevor wir auf den Nachweis der fundamentalen Eigenschaft (6) eingehen, wollen

Page 117: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 31

wir die Scheffi-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)

vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei-

nen konstanten Faktor

Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre

simultane Sicherheit ist mindestens 1- ci!) wird man in der Praxis jeweils diejenige

Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.

Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten

Anzahlen J-S, R und Q und vom Niveau ci! ab.

Die Länge ar(;) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der

betrachteten Linearkombinationen, weil gilt

(10) t n, 4 2 R ) ist streng wachsend bzgl. R E IN.

Demgegenüber wächst die Länge A (C) der Scheffe-Intervalle nur (streng) mit der Q

Dimension Q des von C ..., cR aufgespannten Raumes, weil nach Exkurs V 3.1 (19) 1'

gilt

(11) m . F m, n; a ist streng monoton wachsend bzgl. m E IN.

Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind

als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen-

sion Q.

Spezialfall: R = 1

T Für eine einzelne Linearkombination C 8, d. h. für R = 1 (wobei wir den Index „I" in

C unterdrücken) ist der Raum 6?= span{c} wegen C s 0 eindimensional, d. h. Q = 1. 1

Wegen

(12) F 1, J-S, a = t2 J-S, F stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be-

T reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für C 8, welches sogar

die exakte Sicherheit 1 - ci! hat.

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 31

wir die Schefje-Intervalle (7) mit den zugehörigen Bonferroni-Intervallen aus 4.8.2 (1)

vergleichen. Die zugehörigen beiden Intervalllängen unterscheiden sich nur um ei­

nen konstanten Faktor

(9) jQ .FQ J-5 ex , ,

t J-5, ex/(2R)

Da sowohl die Scheffe- als auch die Bonferroni-Intervalle konservativ sind (d. h. ihre

simultane Sicherheit ist mindestens 1- a) wird man in der Praxis jeweils diejenige

Methode wählen, die im konkreten Anwendungsfall die kürzeren Intervalle liefert.

Welche der beiden Intervall-Längen kürzer sind, hängt jeweils von den konkreten

Anzahlen J - S, Rund Q und vom Niveau a ab.

Die Länge .6)~) der Bonferroni-Intervalle wächst (streng) mit der Anzahl R der

betrachteten Linearkombinationen, weil gilt

(10) tn , ex/(2R) ist streng wachsend bzgl. RE W.

Demgegenüber wächst die Länge .6Q

( c) der Scheffe-Intervalle nur (streng) mit der

Dimension Q des von cl' ... , cR

aufgespannten Raumes, weil nach Exkurs V 3.1 (19)

gilt

(11) m . F ist streng monoton wachsend bzgl. mE W. m,n;ex

Man wird daher erwarten, daß die Scheffe-Intervalle zumindest dann kürzer sind

als die Bonferroni-Intervalle, wenn die Anzahl R deutlich größer ist als die Dimen­

sion Q.

Spezialfall: R = 1

Für eine einzelne Linearkombination cT (), d. h. für R = 1 (wobei wir den Index ,,1" in

cl unterdrücken) ist der Raum ß = span{ c} wegen c:;= 0 eindimensional, d. h. Q = 1.

Wegen

(12) 2 F J 5 = tJ_5 9' 1, - ,ex '2

stimmt hier das Bonferroni- mit dem Scheffe-Intervall überein, und liefert das be­

reits im Abschnitt 4.5 betrachtete zweiseitige Konfidenzintervall für cT (), welches sogar

die exakte Sicherheit 1- a hat. D

Page 118: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 32

Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe-

Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis

bl, ..., b E B d e s Raumes B Die QxS-Matrix Q

(13) B = ( bl, ...,

T T mit den Zeilen bl , ..., b hat dann den Rang Q

(I4) Rang B = Q ,

und der Raum Bläßt sich dann darstellen als

Damit läßt sich die Aussage (6) auch äquivalent schreiben als

(16) p { d T B 6 €cQT d BO für alle d c I R Q } = 1-a bzw.

(16) ' - 2 T -1 P { I ~ ~ ( B B - B ~ ) 12<r a . d A d f ü r a l l e d ~ I R ~ } = 1-a mit

Um die Wahrscheinlichkeit in (16)' bestimmen zu können, benötigen wir das fol-

gende Resultat (vgl. hierzu auch Abb. 2):

Q (18) Für r > 0, a E IR und eine symmetrische, positiv-definite QxQ-Matrix A sind

die folgenden drei Aussagen äquivalent

(ii) I ( c , ~ ) A I < r . I I c I I A für alle C E IR Q ,

T 2 T -1 (iii) Id al i r 2 . d A d für alle d E IRQ

Q Weiter gelten für beliebige C, d E IR die Ungleichungen

wobei "=" statt "5" in (iv) bzw. (V) genau dann gilt, wenn a linear abhängig von

C bzw. von ~ - l d ist.

Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 32

Wir gehen jetzt auf die Herleitung der fundamentalen Eigenschaft (6) der Scheffe­

Intervalle ein. Hierzu betrachten wir eine beliebige, aber im folgenden feste Basis

b1, ... , b

Q E {jj' des Raumes -(jJ. Die QxS-Matrix

(13) T B = ( b1, ... , b

Q )

mit den Zeilen b[, ... , b~ hat dann den Rang

(14) Rang B = Q ,

und der Raum (jj' läßt sich dann darstellen als

Damit läßt sich die Aussage (6) auch äquivalent schreiben als

(16)

(16) I

(17)

P { cl TB 0 E C QT für alle cl E IRQ} = 1- a bzw. cl BO

P{ 1 clT(BO-BO) 12 < f~. clT A -1cl für alle clEIRQ} 1-a

A=(B(XTDX)-1B T)-1, f2=a2.Q.PQJ_S· a , ,a

mit

Um die Wahrscheinlichkeit in (16) I bestimmen zu können, benötigen wir das fol­

gende Resultat (vgl. hierzu auch Abb. 2):

(18) Für r> 0, a E IRQ und eine symmetrische, positiv-definite QxQ-Matrix A sind

die folgenden drei Aussagen äquivalent

(i) IlaIIA<r,

(ii) l(c,a)AI<r·llcIIA

(iii) 1 cl Ta 12 < r 2 . cl T A -1 cl

für alle cE IRQ ,

für alle cl E IRQ.

Weiter gelten für beliebige c, cl E IRQ die Ungleichungen

(iv) IcTAal2 =(c,a)~ <llall~·llcll~, (Cauchy-Schwarz-Ungleichung)

(v) IclTa l2 =(cl,a)2<llall~·clTA-1cl,

wobei "=" statt "<" in (iv) bzw. (v) genau dann gilt, wenn a linear abhängig von

c bzw. von A -1cl ist.

Hiermit ergibt sich eine weitere äquivalente Versionen von (16) bzw. (6)

Page 119: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4 - 33

die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung B und

a2 herleiten läßt.

Abb.2: Geometrische Interpretation von (i) U (iii) in (18) für Q = 2. Die Ellipse

{a I llall < r } ist der Durchschnitt aller „Streifenn , die von parallelen A - Tangentenpaaren begrenzt werden. Für jede Richtung d E I R ~ ist

T 2 2 T - 1 {a 1 ld al 5 r d A d} derjenige Streifen, der zu den beiden Tangenten

gehört, die orthogonal zu d sind

4.7 Konstruktion von Konfidenzbereichen 11.8.05 4- 33

die sich jetzt aus den Verteilungen der voneinander unabhängigen Schätzung () und

0-2 herleiten läßt.

Abb.2: Geometrische Interpretation von (i) {} (iii) in (18) für Q = 2. Die Ellipse

{a IllallA < r} ist der Durchschnitt aller "Streifen" , die von parallelen

Tangentenpaaren begrenzt werden. Für jede Richtung d E IRQ ist

{a IldT al2 < r2 dT A -ld} derjenige Streifen, der zu den beiden Tangenten

gehört, die orthogonal zu d sind .

Page 120: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5 - 1

5. Weitere Analysen im Gauß-Markov-Modell

In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe-

sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün-

den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli-

che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß-

Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem

Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im

Gauß-Markov-Modell die Einheitsmatrix II darstellen und somit das von D indu- J

zierte Skalarprodukt ( U ,V),, wieder das übliche Skalarprodukt ( U , V ) ist.

Unser Ausgangspunkt ist daher wieder ein J-dimensionalen Beobachtungsvektors

Y - zusammen mit einer JxS-Covariablenmatrix X - wobei die Covarianz-Struktur

von Y gegeben ist durch

2 (GMC) Cov(Y) = D . IIJ (GauJ3-Markov-Covarianzstruktur).

Die Normalverteilungsannahme

(NVY) Y ist J-dimensional normalverteilt:

-4y) = NJ(E(y), Cov(y)) (N~rmalverteilun~ von Y').

wollen wir nicht generell voraussetzen, sondern werden sie erst bei Bedarf (für

Tests, Konfidenzintervalle etc.) stets explizit erwähnen.

5. Weitere Analysen im Gauss-Markov-Modell 11.8.05 5-1

5. Weitere Analysen im Gauß-Markov-Modell

In diesem Kapitel wollen wir die linearen Modelle weiter untersuchen und insbe­

sondere spezielle Modelle näher betrachten. Hierbei beschränken wir uns aus Grün­

den der Übersicht auf das einfachere Gauß-Markov-Modell. Dies ist keine wesentli­

che Einschränkung, da sich das allgemeinere Aitken-Modells ja auf das Gauß­

Markov-Modell zurückführen läßt. Bei der Verwendung von Resultaten aus dem

Aitken-Modells ist lediglich zu beachten, daß die Matrix V und ihre Inverse D im

Gauß-Markov-Modell die Einheitsmatrix 11 J darstellen und somit das von D indu­

zierte Skalarprodukt (u, v)D wieder das übliche Skalarprodukt (u, v) ist.

Unser Ausgangspunkt ist daher wieder ein i-dimensionalen Beobachtungsvektors

Y - zusammen mit einer ixS-Covariablenmatrix X - wobei die Covarianz-Struktur

von Y gegeben ist durch

(GMC) Cov(Y) = 0-2

. 11 J (Gauß-Markov-Covarianzstruktur) .

Die Normalverteilungsannahme

(NVY) Y ist i-dimensional normalverteilt:

L(Y) = NJ

( E(Y) , Cov(Y)) (Normalverteilung von Y).

wollen wir nicht generell voraussetzen, sondern werden SIe erst bei Bedarf (für

Tests, Konfidenzintervalle etc.) stets explizit erwähnen.

Page 121: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells

5.1 Fehlspezifikation des Modells

7.7.10 5-2

Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher

sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es

nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn

das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt

vor, wenn der Erwartungswert /-L. = E(Y.) nicht nur von der beobachteten Covari-J J

ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten)J

Covariablenvektor u. = (u .1' ..., u ·R) E lRR abhängt, der nicht im spezifizierten ModellJ J J

berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon

ausgehen, daß statt des bisher verwendeten Modells

(LM).J

T/-L. = E(Y.) = x. ()J J J

für alle j = 1, ..., J

das folgende erweiterte lineare Modell zutrifft

(LM)~J

T T/-L. = E(Y.) = x. ß+ u. A

J J J Jfür alle j = 1, ..., J

mit den beiden Parametervektoren ßE lRS und AE lRR. Man beachte, daß der Para­

meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den Erwar­J

tungswert /-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte ModellJ

immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u

enthält.

Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen

kann, wenn man das fehlspezifierte Modell mit dem inadäquaten Parameter () ver­

wendet. Mit den Covariablenmatrizen

(1) x = (x. ). JxS-Matrix,JS JS

v = (u. ). JxR-Matrix,Jr Jr

lassen sich die Modelle wie folgt schreiben

(LM)

(LM)*

X() ,

Xß+ VA = (X, V) (~).

Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-

5.1 Fehlspezifikation des Modells 7.7.10 5-2

5.1 Fehlspezifikation des Modells

Bei konkreten Anwendungen der Theorie in der Praxis, kann man nie ganz sicher

sein, ob das verwendete lineare Modell hinreichend genau zutrifft. Deshalb ist es

nützlich, zu untersuchen, wie die bisherigen Resultate zu modifizieren sind, wenn

das zugrunde gelegte lineare Modell nicht zutrifft. Ein typischer solcher Fall liegt

vor, wenn der Erwartungswert J-L. = E(Y.) nicht nur von der beobachteten Covari-J J

ablen x. sondern auch noch von einem weiteren (typischerweise unbeobachteten) J

Covariablenvektor u. = ( u .1' ... , u ·R) E lR R abhängt, der nicht im spezifizierten Modell J J J

berücksichtigt ist. Wir wollen diese Situation näher untersuchen, wobei wir davon

ausgehen, daß statt des bisher verwendeten Modells

(LM). J

T J-L. = E(Y.) = x. () J J J

das folgende erweiterte lineare Modell zutrifft

(LM)~ J

T T J-L. = E(Y.) = x. ß + u. A

J J J J

für alle j = 1, ... , J

für alle j = 1, ... , J

mit den beiden Parametervektoren ßE lRS und A E lRR. Man beachte, daß der Para­

meter ß (und nicht etwa ()) den wahren Einfluß der Covariablen x. auf den Erwar­J

tungswert J-L. beschreibt. Es sei darauf hingewiesen, daß auch das erweiterte Modell J

immer noch von spezieller Natur ist, weil es z.B. keine Wechselwirkung von x mit u

enthält.

Von Interesse ist nun, welche Schlüsse man über den wahren Parameter ß ziehen

kann, wenn man das jehlspezijierte Modell mit dem inadäquaten Parameter () ver­

wendet. Mit den Covariablenmatrizen

(1) x = (x. ). JxS-Matrix, JS JS

lassen sich die Modelle wie folgt schreiben

(LM) X() ,

(LM)* Xß+ VA = (X, V) (~).

v = (u. ). JxR-Matrix, Jr Jr

Damit der Parameter () eindeutig bestimmt ist, setzen wir wieder die Rangbedin-

Page 122: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells

gung voraus

7.7.10 5-3

(RB) Rang(X) = S (Rangbedingung) . I

Mit den linearen Räumen

(2)

die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie

folgt beschreiben

(LM)'

(LM)'*

Jl E vft,

Jl E JIC* vft + JV.

Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte

Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser

ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch

(3) Pc4 Jl X() bzw.

(4) X- (XTXr1XT

(5) P - XX-.c4-

() = X- Jl mit

(Linksinverse von X)

Für das erweiterte Modell ergibt sich

Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,

ist folgende Orthogonalitätsbedingung hinreichend und notwendig:

(7) ()=ß

XTU=O,

für alle>. E lRR

bzw. (Orthogonalitätsbedingung) .

Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol­

gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so­

mit liegt der konstante Vektor e+ = (1,... ,1) in .At. Damit die Orthogonalitätsbedin-

5.1 Fehlspezifikation des Modells 7.7.10 5-3

gung voraus

(RB) Rang(X) = S (Rang bedingung) .

Mit den linearen Räumen

(2)

die von den Spalten von X bzw. U aufgespannt werden, lassen sich die Modelle wie

folgt beschreiben

(LM)'

(LM)'*

Jl E vft,

Jl E JIC* vft + JV.

Legt man nun bei der Analyse das Modell vft zugrunde - obwohl das erweiterte

Modell JIC* zutrifft - so hat der Schätzer () zwar den Erwartungswert (), aber dieser

ist nicht durch Jl = X() definiert sondern nach 4.4 (0) durch

(3)

(4)

bzw.

Für das erweiterte Modell ergibt sich

() = X- Jl mit

(Linksinverse von X)

Damit die Parameter () und ß für jeden möglichen Paramterwert >. übereinstimmen,

ist folgende Orthogonalitätsbedingung hinreichend und notwendig:

(7) für alle>. E lRR

bzw. (Orthogonalitätsbedingung) .

Die Orthogonalitätsbedingung wird aber im allgemeinen nicht erfüllt sein, wie fol­

gendes Argument zeigt. Typischerweise umfaßt vft das konstante Modell und so­

mit liegt der konstante Vektor e+ = (1, ... ,1) in .At. Damit die Orthogonalitätsbedin-

Page 123: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-4

gung gilt, müßte insbesondere für jede Spalte u von U geltenr

~u. = 0 bzw. u := l~u. = o.j Jr +r J j Jr

Folglich müßte die Mittelwerte U+r aller unberücksichtigten Covariablen ulr

' ..., UJr

gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.

In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,

sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierendens s

Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-

ten, wie die folgenden beiden einfachen Beispiele zeigen:

• Linearen Regressionsanalyse einer Variablen z:

J.Lj = (){ + ()2Zj = ()1 + ()iZj-Z-)

Hier ist nur der Anstiegsparameter ()2 von Interesse, der den Einfluß der Cova­

riablen Z beschreibt.

• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5)A A A

J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·

Hier sind die Unterschiede ()k - ()Z von primärem Interesse und weniger die ein-

zelnen Parameter ()k.

Wir wollen daher die Parameter ßund () in zwei Teile zerlegen

(8) ß = (ßl' ß2)

() = (()1' ()2)

mit

mit

und uns überlegen, unter welchen Bedingungen ß2

= ()2 gilt. Hierzu betrachten wir

die zugehörige Zerlegung der Matrix

wobei Xk

eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..

raume

(10)

Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl

und X2

der Fall, d.h. Xl und X2

haben vollen Spaltenrang. Die betrachteten Mo­

delle lassen dann wie folgt formulieren

5.1 Fehlspezifikation des Modells 7.7.10

gung gilt, müßte insbesondere für jede Spalte u von U gelten r

~u. = 0 j Jr

bzw. U := l~u. = o. +r J j Jr

5-4

Folglich müßte die Mittelwerte U +r aller unberücksichtigten Covariablen ulr

' ... , U Jr

gleich Null sein müssen, was im allgemeinen nicht der Fall sein dürfte.

In der Praxis ist allerdings oft nicht der gesamte Parameter ß bzw. () von Interesse,

sondern nur einzelne Komponenten ß bzw. () (die zu einer primär interessierenden s s

Einflußvariablen gehören) oder Unterschiede (d.h. Differenzen) solcher Komponen-

ten, wie die folgenden beiden einfachen Beispiele zeigen:

• Linearen Regressionsanalyse einer Variablen z:

J.Lj = (){ + ()2Zj = ()1 + ()iZj - z )

Hier ist nur der Anstiegsparameter () 2 von Interesse, der den Einfluß der Cova­

riablen Z beschreibt .

• Einfache Varianzanalyse für einen Faktor A mit K Stufen (vgl. 3.2.3-5) A A A

J.Lj = ()l I1j + ()2 12j + ... + ()K1Kj·

Hier sind die Unterschiede () k - ()Z von primärem Interesse und weniger die ein-

zelnen Parameter () k.

Wir wollen daher die Parameter ß und () in zwei Teile zerlegen

(8) ß = (ßl' ß2)

() = (()1' ()2)

mit

mit

und uns überlegen, unter welchen Bedingungen ß2

= ()2 gilt. Hierzu betrachten wir

die zugehörige Zerlegung der Matrix

wobei Xk

eine JxSk-Matrix für k = 1,2 ist, SOWIe die zuhehörigen linearen Teil-..

raume

(10)

Da die Spalten von X linear unabhängig sind, ist dies auch für die Spalten von Xl

und X2

der Fall, d.h. Xl und X2

haben vollen Spaltenrang. Die betrachteten Mo­

delle lassen dann wie folgt formulieren

Page 124: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-5

Xl ()l + X2 ()2'

Xlßl + X 2ß2 + VA.

und der Modellraum .At läßt sich darstellen als

Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de­

nen von X2

sind, d.h. es soll gelten

(12) bzw.

Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei­

spielen (Regressions- bzw. Varianzanalyse) erfüllen. Unter (12) ist .At die direkte

Summe

beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich

(14)

(15)

Pc4 = Pc41

+ Pc42

Pc41

= Xl X;,

mit

Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2

gilt. Zunächst ist

()2 gegeben durch

(16) bzw.

und analog (6) ergibt sich

Damit die Parameter ()2 und ß2

für jeden möglichen Paramterwert A übereinstim­

men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei­

chend und notwendig:

5.1 Fehlspezifikation des Modells 7.7.10 5-5

Xl ()l + X2 ()2'

Xlßl + X 2ß2 + VA.

und der Modellraum .At läßt sich darstellen als

Wir wollen jetzt zusätzlich noch fordern, daß die Spalten von Xl orthogonal zu de­

nen von X2

sind, d.h. es soll gelten

(12) bzw.

Diese Bedingung läßt sich durch eine geignete Parametrisierung in obigen Bei­

spielen (Regressions- bzw. Varianz analyse) erfüllen. Unter (12) ist .At die direkte

Summe

beider Teilräume, und für die orthogonale Projektion auf .At ergibt sich

(14)

(15)

Pc4 = Pc41

+ Pc42

Pc41

= Xl X;,

mit

Wir wollen jetzt untersuchen, unter welchen Bedingungen ()2 = ß2

gilt. Zunächst ist

()2 gegeben durch

(16) bzw.

und analog (6) ergibt sich

Damit die Parameter ()2 und ß2

für jeden möglichen Paramterwert A übereinstim­

men, ist analog (7) - zusätzlich zu (12) - die folgende Orthogonalitätsbedingung hinrei­

chend und notwendig:

Page 125: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-6

(18) für alle AE IRR

bzw. ~ ..1 JV (Orthogonalitätsbedingung) .

Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache

Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel­

chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des

Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au­

tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in

der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf

eine Vergrößerung der Varianz - nicht mehr auswirkt.

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse

Wir versetzen uns jetzt konkret in die Situation der einfachen Varianzanalyse für ei-

nen Faktor A E {I, ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des

Einzel-Index j = 1, , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe

von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe

k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k).k

Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde

(1) für alle 1 < k < K, 1 < i < I(k),

während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft

(2) für alle 1 < k < K, 1 < i < I(k).

Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu

(3) Bk ßk +ul+A für alle 1 < k < K, wobei

1(4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).

zBeim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßkselbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für

diese folgt:

5.1 Fehlspezifikation des Modells 7.7.10 5-6

(18) für alle A E IRR

bzw. (Orthogonalitätsbedingung) .

Im folgenden werden wir an zwei elementaren, aber wichtigen Beispielen (einfache

Varianzanalyse und lineare Regression einer Variablen) untersuchen, unter wel­

chen Bedingungen die interessierenden Parameter auch bei Fehlspezifikation des

Modells erwartungstreu geschätzt werden können. Da diese Bedingungen nicht au­

tomatisch erfüllt sein werden, gehen wir auf die sogenannte Randomisierung in

der Datenerhebung ein, unter der sich eine Fehlspezifikation des Modells - bis auf

eine Vergrößerung der Varianz - nicht mehr auswirkt.

5.1.1 Fehlspezifikation bei der einfachen Varianzanalyse

Wir versetzen uns jetzt konkret in die Situation der einfachen Varianz analyse für ei-

nen Faktor A E {I, ... ,K} mit K Stufen (vgl. 3.2.3-5). Hierbei verwenden wir statt des

Einzel-Index j = 1, ... , J wieder den Doppelindex (k,i) , bei dem k = 1, ... ,K die Stufe

von A angibt, und 1 < i < I(k) der laufende Beobachtungsindex innerhalb der Stufe

k ist. Die Gesamtzahl der Beobachtungen ist dann J = ~ I(k). k

Der Analyse legen wir das vollständige Modell für einen Faktor zugrunde

(1) für alle 1 < k < K, 1 < i < I(k),

während in Wirklichkeit (analog 5.1) das folgende erweiterte lineare Modell zutrifft

(2) für alle 1 < k < K, 1 < i < I(k).

Der Zusammenhang zwischen den Parametern () und ß ergibt sich nach 5.1 (6) zu

(3) Bk ßk + ul+ A für alle 1 < k < K, wobei

1 (4) u k+ I(k) ~ u ki (u-Mittelwertfür Stufe k).

z Beim Vergleich der verschiedene Stufen sind nun nicht die Parameter Bk bzw. ßk selbst, sondern deren Unterschiede für verschiedene Stufen k:;= l von Interesse. Für

diese folgt:

Page 126: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-7

(5) für k ;= l.

Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ßgenau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen

Stufen gleich sind

(6) für alle>. E IRR

Da die Gleichheit uk+= u

z+ der Mittelwerte für alle kund l im allgemeinen nicht

vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der

Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo­

raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt

werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel]

hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen

bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari­

able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,

wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun­

gen angewandt wird.

5.1.2 Einfache Varianzanalyse mit Randomisierung

Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu­

chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig

zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung­

verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi­

sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil

dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute

Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb

auf keine konkrete Randomisierungsverteilung festlegen.

Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später

für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher

zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge­

gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde

liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)

5.1 Fehlspezifikation des Modells 7.7.10 5-7

(5) für k ;= l.

Hieraus ergibt sich, daß die Unterschiede der Komponenten von () mit denen von ß genau dann für jedes>. übereinstimmen, wenn die u-Mittelwerte in den zugehörigen

Stufen gleich sind

(6) für alle>. E IRR

Da die Gleichheit uk+ = u

z+ der Mittelwerte für alle kund l im allgemeinen nicht

vorliegen wird, wollen wir uns jetzt überlegen, wie man diese Problem bereits der

Datenerhebung umgehen kann. Dies setzt allerdings ein experimentelles Design vo­

raus, d.h. für jedes Untersuchungsobjekt j kann die Stufe des Faktors frei gewählt

werden, und der resultierende Wert von Y. wird beobachtet. Ein typische Beispiel ]

hierfür ist eine klinische Studie, bei der insgesamt K verschiedene Behandlungen

bei einem bestimmten Krankheitsbild eingesetzt werden können, und die Zielvari­

able Y den Behandlungserfolg beurteilt. Hier liegt ein experimentelles Design vor,

wenn bei jedem Patienten j frei entschieden werden kann, welche der K Behandlun­

gen angewandt wird.

5.1.2 Einfache Varianzanalyse mit Randomisierung

Wir betrachten jetzt das sogenannte randomisierte Design, bei dem jedem Untersu­

chungsobjekt (z.B. ein Patient) die Stufe des Faktors (z.B. die Behandlung) zufällig

zugeteilt wird, d.h. es wird gemäß einer vorgegebenen sogenannten Randomisierung­

verteilung auf der Menge {I, ... ,K} jeweils eine Stufe zufällig ausgewählt (Randomi­

sierung). Typischerweise ist die Randomiserungsverteilung die Gleichverteilung, weil

dies zu einem näherungsweise balanciertem Design führt. Aber es kann auch gute

Gründe für die Wahl einer anderen Verteilung geben, und wir wollen uns deshalb

auf keine konkrete Randomisierungsverteilung festlegen.

Wir formulieren das Modell zunächst für eine Einzelbeobachtung Y und erst später

für den gesamten Beobachtunsvektor Y. Da die zu Y gehörige Faktorstufe vorher

zufällig gewählt wurde, betrachten wir den Faktor Aals Zufallsvariable mit vorge­

gebener Randomisierungsverteilung. Das der einfachen Varianzanalyse zugrunde

liegende Bedingte Lineare Modell einer Einzelbeobachtung lautet dann (vgl. auch 1.1)

Page 127: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-8

(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.

Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt

(2) Var(YIA=k) = a2 für 1 < k < K.

Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova­

riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf­

nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors €ansehen wer­

den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell

(3) für 1 <k< K,

und das zugehörige bedingte homogene Varianzmodell gelten

(4) Var(YIA=k,€=u) = a; für alle kund u.

Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der

(unbekannten) Realisierung u von €abhängt und somit sind A und €stochastisch

unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell

(5) für 1 < k < K.

Der Vergleich mit (1) liefert den Zusammenhang von Bund ß

(6)

und für die interessierenden Stufenunterschiede gilt daher

(7) für alle k, l.

Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor­

rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt

und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert

der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der

wahre Einfluß der Faktorstufe k durch ßk modelliert wird.

Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu

für den wahren Unterschiede ßk

- ßr Die wahren Parameter ß und>' lassen sich

5.1 Fehlspezifikation des Modells 7.7.10 5-8

(1) f-Lk:= E(YIA=k) = Bk für 1 < k < K.

Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt

(2) Var(YIA=k) = a2 für 1 < k < K.

Weiter gehen wir davon aus, daß die im obigen Modell nicht berücksichtigte Cova­

riable u E IRR nicht beobachtet wird (sonst könnte man sie ja mit ins Modell auf­

nehmen) und als Realisierung eines R-dimensionalen Zufallsvektors € ansehen wer­

den kann. In Wirklichkeit soll dann das erweiterte Bedingte Lineare Modell

(3) für 1 <k< K,

und das zugehörige bedingte homogene Varianzmodell gelten

( 4) Var(YIA=k,€=u) = a; für alle kund u.

Durch die Randomisierung ist sichergestellt, daß die Verteilung von A nicht von der

(unbekannten) Realisierung u von € abhängt und somit sind A und € stochastisch

unabhängig. Deshalb ergibt sich aus (3) das gegenüber (1) veränderte Modell

(5) für 1 < k < K.

Der Vergleich mit (1) liefert den Zusammenhang von Bund ß

(6)

und für die interessierenden Stufen unterschiede gilt daher

(7) für alle k, l.

Man beachte, daß das Modell (1) nicht fehlspezifiziert, weil es ebenso wie das kor­

rekte Modell (5) die bedingten Erwartungswerte f-Lk in keiner Weise einschränkt

und somit das vollständige Modell für einen Faktor darstellt. Allerdings modelliert

der Parameter Bk im erweiterten Modell (3) nicht den Einfluß der Stufe k, weil der

wahre Einfluß der Faktorstufe k durch ßk modelliert wird.

Für einen Datensatz Y = (Yk) sind nach (7) die Schätzungen 0k - 0z erwartungstreu

für den wahren Unterschiede ßk

- ßt Die wahren Parameter ß und>' lassen sich

Page 128: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-9

ohne Kenntnis der Covariablenwerte U = (uk) allerdings nicht schätzen, weil sie

durch (5) nicht eindeutig bestimmt sind.

Abschließend wollen wir noch auf den Zusammenhang der Varianzen 0-2 und o-}

aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für

eine Einzelbeobachtung voraus

(8) mit E(c) = o.

Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die

Fehlervariable c* ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig­

keit der bedingten Varianzhomogenität (4) (vgl. 1.2)

(9) Var(Y IA = k, €= u) = Var(c*) =: o-} für alle kund u.

Unter Verwendung der zentrierten Variablen

(10) mit

läßt sich das Modell (8) auch schreiben als

(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mitk

(12) c=€oTA + c*, E(c) =0.

Mit (6) lautet (11)

(13) mit E(c) = 0,

wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari­

anzhomogenität (2) (vgl. 1.2)

(14) Var(YI A = k) = Var(c) 2=:0- für alle k.

Wegen der Unabhängigkeit von €und c* ist

Falls € ° TA keine Einpunktverteilung hat, ist also 0-2> 0-;, und somit ließe sich in

diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co­

variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe

5.1 Fehlspezifikation des Modells 7.7.10 5-9

ohne Kenntnis der Covariablenwerte U = (u k) allerdings nicht schätzen, weil sie

durch (5) nicht eindeutig bestimmt sind.

Abschließend wollen wir noch auf den Zusammenhang der Varianzen a2 und a} aus (2) und (4) eingehen. Hierzu setzen wir das Zufällige Lineare Modell (vgl. 1.1) für

eine Einzelbeobachtung voraus

(8) mit E(c) = o.

Hierbei bezeichnet I{A = k} die Indikatorvariable für das Ereignis {A = k}, und die

Fehlervariable c * ist von (A, €) stochastisch unabhängig. Hieraus folgt die Gültig­

keit der bedingten Varianzhomogenität (4) (vgl. 1.2)

(9) Var(Y I A = k, € = u) = Var( c) =: a} für alle kund u.

Unter Verwendung der zentrierten Variablen

(10) mit

läßt sich das Modell (8) auch schreiben als

(11) Y = 2: I{A = k} . [ßk + E(€) TA ] + c mit k

(12) c=€oTA + c*, E(c) =0.

Mit (6) lautet (11)

(13) mit E(c) = 0,

wobei c stochastisch unabhängig von A ist. Hieraus ergibt sich die bedingten Vari­

anzhomogenität (2) (vgl. 1.2)

(14) Var(YI A = k) = Var(c) 2 =:a für alle k.

Wegen der Unabhängigkeit von €und c* ist

Falls € ° TA keine Einpunktverteilung hat, ist also a2> a;, und somit ließe sich in

diesem Fall die bedingte Varianz von Y durch Kenntnis und Einbeziehung der Co­

variable u ins Modell verringern - was sich auch vorteilhaft auf die Testschärfe

Page 129: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-10

und die Länge von Konfidenzintervallen auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana­

lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe­

zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari­

anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele­

vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich

kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen

ausschalten.

5.1.3 Fehlspezifikation bei linearer Regression einer Variablen

Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z

(1) !-L. = E(Y.) = B1' +B

2z.

J J Jfür alle j.

Unter Verwendung der zentrierten Covariablen

(2) x.=z.-zJ J

mit 1z = J ~z.. J

J

läßt sich das Modell äquivalent schreiben als

(3) !-L. = E(Y.) = B1+B

2x.

J J Jfür alle j, mit

Da uns hier primär der Parameter B2 interessiert (der den Einfluß von z bzw. x be­

schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e+= (1) und x = (xj)

der zugehörigen Covariablenmatrix

orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell

Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt

(6)

Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e+' X2

= x, ergibt sich aus 5.1

(17) und X~X2=Szz der Zusammenhang der beiden relevanten Anstiegsparameter

5.1 Fehlspezifikation des Modells 7.7.10 5-10

und die Länge von Konfidenzintervallen auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der einfachen Varianzana­

lyse und Nichtberücksichtigung einer relevanten Covariablen u zwar eine Fehlspe­

zifikation des Modells vermeidet, dafür aber zu einer gegenüber der bedingten Vari­

anz a; höheren Varianz a2 (und somit geringerer Testschärfe) führt. Aber die rele­

vanten Stufenunterschiede (7) lassen trotzdem erwartungstreu schätzen. Folglich

kann - und sollte man - durch Randomisierung unerwünschte Fehlspezifikationen

ausschalten.

5.1.3 Fehlspezifikation bei linearer Regression einer Variablen

Wir betrachten jetzt das lineare Regressionsmodell mit einer Variablen z

(1) J-L. = E(Y.) = B1' + B

2z.

J J J für alle j.

Unter Verwendung der zentrierten Covariablen

(2) x.=z.-z J J

mit 1 z = J ~z. . J

J

läßt sich das Modell äquivalent schreiben als

(3) J-L. = E(Y.) = B1 + B

2 x.

J J J für alle j, mit

Da uns hier primär der Parameter B 2 interessiert (der den Einfluß von z bzw. x be­

schreibt) ist die Darstellung (3) vorteilhafter, weil die Spalten e + = (1) und x = (xj)

der zugehörigen Covariablenmatrix

orthogonal sind. In Vektor-Schreibweise lautet das Regressionsmodell

Wir gehen jetzt wieder davon aus, daß in Wirklichkeit das erweiterte Modell gilt

(6)

Da (4) eine Zerlegung der Form 5.1 (9) ist mit Xl = e +' X2

= x, ergibt sich aus 5.1

(17) und X~X2 =Szz der Zusammenhang der beiden relevanten Anstiegsparameter

Page 130: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-11

(7) mit

Unter Verwendung der Spaltendarstellung

ergibt sich dann weiter

(9)

Wegen

für alle AE IRR

für alle r = 1, ...,R

(11)

(10) xTu = 2:= (zo-z)u o = 2:= (zo-z)(u o -u+) mit u+r= J12:=0 uJorr 0 J Jr 0 J Jr r

J J Jbesagt x Tu = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet

r r

J1 2:= (z 0 - z) (u 0 - u+ ) = o.

o J Jr rJ

Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden

- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgen-r

den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.

5.1.4 Lineare Regression einer Variablen mit Randomisierung

Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be­

trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei

dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y

untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen­

telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi­

scherweise endlichen) Trägermenge TZ C IR gewählt.

Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und

betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co­

variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls­

variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das

der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe­

obachtung lautet dann (vgl. auch 1.1)

5.1 Fehlspezifikation des Modells 7.7.10 5 -11

(7) mit

Unter Verwendung der Spaltendarstellung

ergibt sich dann weiter

(9) für alle A E IRR

für alle r = 1, ... ,R

Wegen

(10) xTu = 2:= (z.-z)u. = 2:= (z.-z)(u. -u+) mit u = J12:= u. r . J Jr . J Jr r +r. Jr

J J J besagt x T u = 0 , daß die empirische Covarianz der Vektoren x und u verschwindet

r r

(11) J1 2:= (z. - z) (u. - u+ ) = o.

. J Jr r J

Da die empirischen Covarianzen im allgemeinen nicht verschwinden werden

- und dies bei unbeobachtetem u auch nicht überprüfbar ist - werden wir im folgen­r

den zeigen, wie man das Problem durch eine Randomisierung umgehen kann.

5.1.4 Lineare Regression einer Variablen mit Randomisierung

Analog zur einfachen Varianzanalyse wollen wir jetzt ein randomisiertes Design be­

trachten. Als typisches Besipiel kann man sich eine klinische Studie vorstellen, bei

dem der Einfluß der Dosis z eines Medikaments auf eine relevante Zielvariable Y

untersucht werden soll, wobei die Dosis z frei bestimmt werden kann (experimen­

telles Design). Bei einer Randomisierung wird die Dosis z zufällig aus einer (typi­

scherweise endlichen) Trägermenge TZ C IR gewählt.

Wir formulieren das zugehörige Modell wieder erst für eine Einzelbeobachtung Y und

betrachten den gesamten Beobachtunsvektor Y später. Da der zu Y gehörige Co­

variablenwert z zufällig gewählt wurde, betrachten wir die Covariable als Zufalls­

variable Z mit vorgegebener Randomisierungsverteilung auf dem Träger TZ Das

der Regressionsanalyse zugrunde liegende Bedingte Lineare Modell einer Einzelbe­

obachtung lautet dann (vgl. auch 1.1)

Page 131: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5 -12

(1) für alle z.

Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt

(2) Var(YIZ=z) = a 2 für alle z.

Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte

Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse­

hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell

(3) für alle z.

und das zugehörige bedingte homogene Varianzmodell gelten

(4) Var(YIZ=z,€=u) = a} für alle z und u.

Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht

von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto­

chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell

(5)

mit

für alle z

welches formal mit dem Modell (1) übereinstimmt, wobei

(6)

Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2

bzw. ß2

beider

Modelle - die den Einfluß von z modellieren - stimmen überein.

Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher] ]

trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion desA ]

Modells vor, und die Schätzung e2 ist erwartungstreu für den Anstiegsparameter

e2

= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co­

variablenwerte (u) nicht schätzen, weil sie durch ß1

nicht eindeutig bestimmt sind.

Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten

5.1 Fehlspezifikation des Modells 7.7.10 5 -12

(1) für alle z.

Zusätzlich wird das bedingte homogene Varianzmodell (vgl. auch 1.2) vorausgesetzt

(2) Var(YIZ=z) = a 2 für alle z.

Weiter gehen wir wieder davon aus, daß die im obigen Modell nicht berücksichtigte

Covariable u E IRR als Realisierung eines R-dimensionalen Zufallsvektors € anse­

hen werden kann. In Wirklichkeit soll dann das erweiterte bedingte lineare Modell

(3) für alle z.

und das zugehörige bedingte homogene Varianzmodell gelten

( 4) Var(YIZ=z,€=u) = a} für alle z und u.

Durch die Randomisierung ist wieder sichergestellt, daß die Verteilung von Z nicht

von der (unbekannten) Realisierung u von € abhängt und somit sind Z und € sto­

chastisch unabhängig. Deshalb ergibt sich aus (3) das Modell

(5) für alle z

mit

welches formal mit dem Modell (1) übereinstimmt, wobei

(6)

Daher ist das Modell (1) auch korrekt und die Anstiegsparameter e2

bzw. ß2

beider

Modelle - die den Einfluß von z modellieren - stimmen überein.

Für einen Datensatz Y = (Y.) mit randomisierten Covariablen z = (z.) liegt daher ] ]

trotz der nicht berücksichtigten Einflußvariablen (u.) keine Fehlspezifiaktion des A ]

Modells vor, und die Schätzung e 2 ist erwartungstreu für den Anstiegsparameter

e2

= ß2. Lediglich die wahren Parameter ß{ und >'lassen sich ohne Kenntnis der Co­

variablenwerte (u) nicht schätzen, weil sie durch ß1

nicht eindeutig bestimmt sind.

Der Unterschied zwischen dem Regressionsmodell (1) bzw. (5) und dem erweiterten

Page 132: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.1 Fehlspezifikation des Modells 7.7.10 5-13

Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier

analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu­

fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung

(7) mit E(c) = 0,

und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c*. Hieraus ergibt

sich die bedingten Varianzhomogenität (4)

(8) Var(YIZ=z, €= u) = Var(c) =: a} für alle z und u.

Unter Verwendung der zentrierten Variablen

(9) mit

läßt sich das Modell (7) auch schreiben als

(10)

(11)

mit

E(c) = 0,

wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte

Varianzhomogenität (2)

(12) Var(YIA =k) Var(c) 2=:17 für alle k.

Wegen der Unabhängigkeit von €und c* ist

Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y

durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was

sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen

auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse ­

wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele­

vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu

einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe­

rer Testschärfe) führt.

5.1 Fehlspezifikation des Modells 7.7.10 5-13

Modell liegt vor allem in der unterschiedlichen Varianz (2) und (4), was wir hier

analog zur Varianzanalyse untersuchen wollen. Ausgangspunkt ist wieder das Zu­

fällige Lineare Modell (vgl. 1.1) für eine Einzelbeobachtung

(7) mit E(c) = 0,

und einer von (Z, €) stochastisch unabhängigen Fehlervariablen c *. Hieraus ergibt

sich die bedingten Varianzhomogenität (4)

(8) Var(YIZ=z, €= u) = Var(c) =: a}

Unter Verwendung der zentrierten Variablen

(9) mit

läßt sich das Modell (7) auch schreiben als

(10)

(11)

für alle z und u.

mit

E(c) = 0,

wobei c stochastisch unabhängig von Z ist. Hieraus ergibt sich die bedingte

Varianzhomogenität (2)

(12) Var(YIA =k) Var(c) 2 =:17 für alle k.

Wegen der Unabhängigkeit von €und c* ist

Falls €O TA keine Einpunktverteilung hat, so ließe sich die bedingte Varianz von Y

durch Kenntnis und Einbeziehung der Covariable u ins Modell verringern - was

sich wieder vorteilhaft auf die Testschärfe und die Länge von Konfidenzintervallen

auswirken würde.

Insgesamt stellen wir fest, daß die Randomisierung bei der Regressionsanalyse -

wie schon bei der einfachen Varianzanalyse - und Nichtberücksichtigung einer rele­

vanten Covariablen u eine Fehlspezifikation des Modells vermeidet, dafür aber zu

einer gegenüber der bedingten Varianz 17; höheren Varianz 172 (und somit geringe­

rer Testschärfe) führt.

Page 133: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 14

5.2 Anpassungstests für lineare Modelle

Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet, J welches wir jetzt mit Ao C R statt A bezeichnen wollen, so taucht die zentrale

Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo-

dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Y1, ..., YJ) von

dem unter dem Modell Ao geschätzten Erwartungswert Po = (,Lol, ...,,L ) beurtei- O J

len. Dies kann sowohl global, d.h. für alle J Beobachtungen simultan, als auch lokal,

d.h. für alle Beobachtungen einzeln, erfolgen. Die lokale Beurteilung führt zu einer

Residuenanalyse, die wir später behandeln werden, und die globale Beurteilung führt

zu den Anpassungstests, auf die wir jetzt eingehen.

J Im Rahmen eines umfassenden linearen Modells 4 cA1 C R kann die Gültig-

keit des Modells 4 als eine lineare Hypothese formuliert werden

(1) Nullhypothese Ho: p E Ao (Modell Ao gilt)

Alternative H1: p 6 Ao , p E Al (Modell Ao gilt nicht, aber Al gilt).

die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge-

setzten Obermodells A muß natürlich vorher hinreichend gesichert sein. Eine uni- 1

verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell

Ao durch eine JxS Covariablenmatrix X beschrieben ist

und hierbei die verschiedenen Covariablenvektoren X . (also die Zeilen von X) nicht 3

nur einmal, sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe- S bung sicherstellen, indem man für jede interessierende Covariable X E R nicht nur

eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn

zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui-

valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz-

relation - auf { 1, ..., J) durch

Bezeichnet

5.2 Anpassungstest für lineare Modelle 11.8.05 5-14

5.2 Anpassungstests für lineare Modelle

Wird bei einer statistischen Analyse ein bestimmtes lineares Modell verwendet,

welches wir jetzt mit .ACO

C IR] statt .AC bezeichnen wollen, so taucht die zentrale

Frage auf, ob das zugrunde gelegte Modell korrekt ist. Zur Überprüfung der Mo­

dell-Anpassung wird man die Abweichungen der Beobachtung Y = (Yl, ... , Y

J) von

dem unter dem Modell .ACo geschätzten Erwartungswert 40

= (401' ... , 4

0J) beurtei­

len. Dies kann sowohl global) d.h. für alle J Beobachtungen simultan) als auch lokal)

d.h. für alle Beobachtungen einzeln) erfolgen. Die lokale Beurteilung führt zu einer

Residuenanalyse) die wir später behandeln werden, und die globale Beurteilung führt

zu den Anpassungstests, auf die wir jetzt eingehen.

Im Rahmen eines umfassenden linearen Modells .ACO

C.ACl

C IR] kann die Gültig­

keit des Modells .ACo als eine lineare Hypothese formuliert werden

(1) Nullhypothese HO: Jl E.ACo (Modell .ACo gilt)

Alternative

die mit dem F-Test überprübar ist. Die Adäquatheit des hierbei als gültig vorausge­

setzten Obermodells .ACl

muß natürlich vorher hinreichend gesichert sein. Eine uni­

verselle Methode für einen solchen F-Test ist stets dann gegeben, wenn das Modell

.ACO

durch eine JxS Covariablenmatrix X beschrieben ist

und hierbei die verschiedenen Covariablenvektoren x. (also die Zeilen von X) nicht ]

nur einmal) sondern mehrmals auftreten. Man kann dies schon bei der Datenerhe-

bung sicherstellen, indem man für jede interessierende Covariable xE IRS nicht nur

eine, sondern mehrere voneinander unabhängige Beobachtungen Y erhebt. Wenn

zwei Beobachtungen denselben Covariablenvektor haben, so wollen wir sie als äqui­

valent (hinsichtlich ihrer Covariablen) ansehen, d.h. wir definieren eine Äquivalenz­

relation '""'"' auf { 1, ... , J} durch

Bezeichnet

Page 134: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 15

die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön-

nen wir diese K verschiedenen Covariablenvektoren X (11, ..., x(q formal als einen

Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k

von A . dadurch charakterisiert, daß X der zugehörige Covariablenwert ist: 3 (4

Bezeichet

die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön-

nen wir den Beobachtungsindex j = 1, ..., J wieder durch einen Doppelindex (5 , i ) mit

1 5 5 5 K und 1 5 i 5 I(k) ersetzen. Jede einzelne Beobachtung (k,i) ist dann gege-

ben durch (Yk i , xk ), wobei der Covariablenvektor

X - X k i - (k) für alle 1 5 i 5 I(k)

nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen

Covariablenvektor X und der Index i zählt die Wiederholungen für diesen Covari- (4 ablenvektor.

Das vollständige Modell für den Faktor A läßt sich dann schreiben als

(M1 F) Pki = $k für alle 1 5 5 5 K , 1 5 i 5 I(k),

K mit einem Parametervektor 4 = ($ ...., $K) E R . Dieses Modell besagt, daß der Er- 1' wartungswert ,LL nur von der Stufe k , d.h. vom zugehörigen Covariablenwert X L i (k) (aber nicht vom Wiederholungsindex i) abhängt. Diese Abhängigkeit kann aber

völlig beliebig sein, da für jede Stufe k ein eigener Parameter $k vorgesehen ist.

Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man

davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den

betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen

Beobachtungen Yki mit gleichem Covariablenwert X tatsächlich um unabhängige (4 Wiederholungen einer Zufallsvariablen Yk handelt. Andererseits kann das Modell

(MIF) z.B. dann falsch sein, wenn der Erwartungswert pki noch von weiteren

5.2 Anpassungstest für lineare Modelle

(4) K = # {x. E IRS I j = 1, ... , J} ]

11.8.05 5 -15

die Anzahl der verschiedenen Covariablenvektoren (bzw. Äquivalenzklassen), so kön­

nen wir diese K verschiedenen Covariablenvektoren X (1) , ... , x(K) formal als einen

Faktor A mit K Stufen auffassen. Zu jeder Beobachtung j ist die zugehörige Stufe k

von Aj dadurch charakterisiert, daß x(k) der zugehörige Covariablenwert ist:

Bezeichet

(6) I(k) = #{j I Aj=k} = #{j I x j = x(k)} > 0

die Anzahl aller Beobachtungen j, bei denen der Faktor A die Stufe k hat , so kön­

nen wir den Beobachtungsindex j = 1, ... , J wieder durch einen Doppelindex (k, i) mit

1 < k < Kund 1 < i < I(k) ersetzen. Jede einzelne Beobachtung (k, i) ist dann gege­

ben durch (Yki

, xki

), wobei der Covariablenvektor

(7) für alle 1 < i < I(k)

nicht vom Index i abhängt. Der Index k charakterisiert also den S-dimensionalen

Covariablenvektor x(k) und der Index i zählt die Wiederholungen für diesen Covari­

ablenvektor.

Das vollständige Modell für den Faktor A läßt sich dann schreiben als

(MIF) J-Lki = 1fJk für alle 1 < k < K, 1 < i < I(k),

mit einem Parametervektor "p = (1fJ1' .... , 1fJK

) E IRK. Dieses Modell besagt, daß der Er­

wartungswert J-Lki nur von der Stufe k , d.h. vom zugehörigen Covariablenwert x(k)

(aber nicht vom Wiederholungs index i) abhängt. Diese Abhängigkeit kann aber

völlig beliebig sein, da für jede Stufe k ein eigener Parameter 1fJk

vorgesehen ist.

Folglich wird man das Modell (MIF) stets dann voraussetzen können, wenn man

davon überzeugt ist, daß der Erwartungswert - auf beliebige Weise - nur von den

betrachteten Covariablen abhängt. Dies ist z.B. dann der Fall, wenn es sich bei allen

Beobachtungen Y k i mit gleichem Covariablenwert x(k) tatsächlich um unabhängige

Wiederholungen einer Zufallsvariablen Y k handelt. Andererseits kann das Modell

(MIF) z.B. dann falsch sein, wenn der Erwartungswert J-Lk i noch von weiteren

Page 135: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 16

T (nicht erhobenen) Covariablen uk i€ IR abhängt, und diese nicht konstant bzgl. i

sind, d.h. (7) gilt nicht für u statt X.

Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen

den zugehörigen Modellraum mit

J (8) Al = { E IR I pki = pkl für alle 1 < k < K und i, 1 = 1, ..., I(k) }

K = a x a I ( , x . . . x a I ( q

I(1] = L =l a ~ ( k )

Das Modell Al ist nun das gesuchte Obermodell von 4, denn nach (2) gilt

(9) T

P * I L k i = X ( k ) e für alle 1 < 5 < K und i = 1, ..., I(k),

und mit $ - xT 6 (für alle k) ergibt sich Ao C A l . k - (4

Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen-

sionsbedingungen erfüllt sein:

K = D i m A l < J ,

d.h. mindestens ein Covariablenwert tritt mehrmals auf.

S=DimjlCO < K ,

d.h. Ao ist nicht bereits das ,vollständige Modell" A l .

Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf

die Modelle 4 cA1 an. Die Schätzung von 4 unter dem umfassenden Modell

Al lautet nach Abschnitt 5.2 (16)

- (I0) >ul = C Fkt ekt bzw. h k i = 'kt für alle k, i mit

L 1

(11) = - C Yki (Mittelwert aller Beobachtungen der Stufe k) k t I(k)

Sind Po und 8, die Schätzungen unter dem Modell Ao, so hängt bOki nicht mehr

von i ab, und wir schreiben daher auch

T (12) f i o k i = ~ k = ~ ( k q ~ für alle 5, i.

Die relevanten Größen für den F-Test ergeben sich dann zu

5.2 Anpassungstest für lineare Modelle 11.8.05 5-16

(nicht erhobenen) Covariablen u ki E IR? abhängt, und diese nicht konstant bzgl. i

sind, d.h. (7) gilt nicht für u statt x.

Wir wollen jetzt die Gültigkeit des Modells (MIF) voraussetzen und bezeichnen

den zugehörigen Modellraum mit

(8) ...41 = {Jl E IR] I /-Lki = /-Lkl für alle 1 < k < Kund i, l = 1, ... , I(k) } K

= D.1(1) x D.1(2) x ... x D.1(K) = k D1

D.1(k)

Das Modell...41

ist nun das gesuchte übermodell von ...40

' denn nach (2) gilt

T (9) JlE...40 {} /-Lki=x(k)() füralle1<k<Kundi=1, ... , I(k) ,

und mit 1fJk = x~) () (für alle k) ergibt sich ...40

C ...41.

Bevor wir allerdings den F-Test anwenden können, müssen die folgenden Dimen­

sionsbedingungen erfüllt sein:

(DB1) K = Dim...41

< J!

d.h. mindestens ein Covariablenwert tritt mehrmals auf.

(DB2) S = Dim...40

< K,

d.h . ...40

ist nicht bereits das "vollständige Modell" ...41"

Wir setzen diese Dimensionsbedingungen jetzt voraus und wenden den F-Test auf

die Modelle ...40

C...41

an. Die Schätzung von Jl1

unter dem umfassenden Modell

...41

lautet nach Abschnitt 5.2 (16)

(10)

(11)

bzw. 41ki = Y k+ für alle k, i

(Mittelwert aller Beobachtungen der Stufe k)

mit

Sind 40

und () 0 die Schätzungen unter dem Modell ...40

' so hängt 40

k i nicht mehr

von i ab, und wir schreiben daher auch

(12) A A T()A /-Lo ki = /-Lo k = x(k) für alle k, i.

Die relevanten Größen für den F-Test ergeben sich dann zu

Page 136: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 17

(13) D ~ V ( A J = I I Y - I L ~ I I ~ = C C ( Y ~ ~ - ~ ~ ~ ~ ) ~ k i

jAbweichungsquadrate der Einzelwerte um 4)

(14) ~ e v ( ~ ~ ) = I I Y - > ~ ~ 1 1 ~ = C C ( y k i - Fk+12 k i

(Ab~eichungs~uadrate der Einzelwerte vom Gruppenmittel)

(I5) ADev = I I P ~ - > ~ ~ I I ~ = C I ( ~ ) ' ( ~ ~ ~ - ~ ~ ~ ~ ) 2 L

jAbweichungsquadrate der Gruppenmittel um 4)

Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.

Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest

Streuung (Ursache)

Gruppenmittel um A 0

In den Gruppen

Einzelwerte um 4

Hierbei sind 82 und e2 die Schätzungen von o2 bzgl. Al und A0 1 0

(16) $2 - - 1

1 J -K L i

Dev

ADev

Dev(AJ

Dev(Ao)

(mittlere Streuung der Einzelwerte um Gruppenmittel),

$2 - - 1 - C C ('ki- hk12 0 J-S

L i

FG

D G = K - S

F G ( A l ) = J- K

F G ( A o ) = J-S

(mittlere Streuung der Einzelwerte um das Modell A0).

D ~ V / F G

-2 0

0

o A 2 1

A 2 0

0

Und 5; ist auch eine MQ-Schätzung von o2 unter dem Modell Ao, die sich dadurch

ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki) jetzt die K mit

I(k) gewichteten Gruppenmittelwerte F verwendet: k t

5.2 Anpassungstest für lineare Modelle 11.8.05

(13)

(14)

Dev(vltJ = 11 Y - 40 11 2 = 2: 2: (Yk · - 40k )2

k i Z

(Abweichungsquadrate der Einzelwerte um vlto)

A 2 - 2 Dev(vlt1) = IIY -/l111 = 2: 2: (Yk · - Y k +)

k i Z

(Abweichungsquadrate der Einzelwerte vom GruppenmitteV

(15) L:,Dev = 1141-40 11 2 = 2: I(k)· (Yk + - 40k )2

k (Abweichungsquadrate der Gruppenmittel um vlto)

Und die zugehörige Tafel der Streuungszerlegung ist in Tabelle 1 angegeben.

Streuung (Ursache) Dev FG Dev/FG

Gruppenmittel um vita L:,Dev MG =K-S -2 O"a

In den Gruppen Dev(vlt1) FG(vlt

1)=J-K

A2 0"1

Einzelwerte um vlto Dev(vlto) FG(vlto)=J-S A2

0"0

Tabelle 1: Tafel der Streuungszerlegung für den Anpassungstest

Hierbei sind ai und a~ die Schätzungen von 0"2 bzgl. vlt1 und vita

(16) A2 1 - 2 0"1 = J-K 2i 1 (Yki - Y k +)

(mittlere Streuung der Einzelwerte um GruppenmitteV!

(17) a~ = J~S 2i 1 (Yki - 40k )2

(mittlere Streuung der Einzelwerte um das Modell vita).

5 -17

Und a~ ist auch eine MQ-Schätzung von 0"2 unter dem Modell vlto' die sich dadurch

ergibt, daß man anstelle der ursprünglichen J Beobachtungen (Yki

) jetzt die K mit

I(k) gewichteten Gruppenmittelwerte Y k + verwendet:

Page 137: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.2 Anpassungstest für lineare Modelle 11.8.05 5 - 18

(18) a2 - - 1 2

0 K-S L

(mittlere Streuung der Gruppenmittel um das Modell A0).

Die F-Statistik läßt sich dann schreiben als

-2 0

1 2 0 -

K- IIb-boII (19) F = - - - 2

0 1

1 J-K - I I Y - ~ I I ~

Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs-

test für das lconstante Modell interpretiert werden.

5.2 Anpassungstest für lineare Modelle 11.8.05 5-18

(18) a~ = K~S 2: I(k) . (Yk + - 40k )2 k

(mittlere Streuung der Gruppenmittel um das Modell .ACo).

Die F-Statistik läßt sich dann schreiben als

(19) F= (F-Statistik) !

Der F-Test bei der einfachen Varianzanalyse kann jetzt auch als ein Anpassungs­

test für das konstante Modell interpretiert werden.

Page 138: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.3 Residuenanalyse 11.8.05 5 - 19

5.3 Residuenanalyse

Zur Beurteilung, ob das verwendete lineare Modell .L& die beobachteten Daten adä-

quat beschreibt, liegt es nahe, die Beobachtungen Y ..., YJ mit den unter dem Mo- l'

dell geschätzten Erwartungswerten ,L ...,,L zu vergleichen. Neben dem bereits er- 1' J

läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf

lokale Vergleiche eingehen, bei denen man die Residuen

(Residuum)

für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi-

duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und

Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel

handelt es sich um graphische Methoden, sogenannte Residuen-Plots, bei denen die

(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen

aufgetragen werden, wie z. B.

die geschätzten Erwartungswerte ,LI. 3

spezielle Covariablen-Komponenten X . oder eine interessierende Funk- 3s '

tion f(x. ) davon. 3s

Bei allen Residuenplots beurteilt man (optisch), ob Punkte „zufällign verteilt sind

oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.

Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi-

kationen betrachtet. Häufig wird das skalierte Residuums verwendet

(skaliertes Residuum)

welches man formal aus der standardisierten Beobachtung

erhält, indem man ,LL. und a durch ihre Schätzungen ersetzt. Das skalierte Resi- 3

duum unterscheidet sich vom rohen Residuum R . zwar nur um den Faktor G , hat 3

aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-

ten Residuen immer den Freiheitsgrad des Modells ergibt

Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschie- 3

5.3 Residuenanalyse 11.8.05 5-19

5.3 Residuenanalyse

Zur Beurteilung, ob das verwendete lineare Modell vft die beobachteten Daten adä­

quat beschreibt, liegt es nahe, die Beobachtungen Y1' ... , Y J mit den unter dem Mo­

dell geschätzten Erwartungswerten (t , ... , (t zu vergleichen. Neben dem bereits er-1 J

läuterten globalen Vergleich im Rahmen von Anpassungstests, wollen wir jetzt auf

lokale Vergleiche eingehen, bei denen man die Residuen

(1) R.=Y.-(t. J J J

(Residuum)

für alle Beobachtungen j einzeln betrachtet und analysiert. Die Methoden der Resi­

duenanalyse sind eher heuristisch als formal begründet und ihre Anwendung und

Interpretation erfordert etwas Erfahrung und Fingerspitzengefühl. In der Regel

handelt es sich um graphische Methoden, sogenannte Residuen-Plots) bei denen die

(gegebenfalls noch modifizierten) Residuen gegen andere interessierende Größen

aufgetragen werden, wie z. B.

• die geschätzten Erwartungswerte (t. J

• spezielle Covariablen-Komponenten x. ,oder eine interessierende Funk­JS

tionf(x. ) davon. JS

Bei allen Residuenplots beurteilt man (optisch), ob Punkte "zufällig" verteilt sind

oder ob auffällige Strukturen erkennbar sind, die es dann zu interpretieren gilt.

Neben dem durch (1) definierten sogenannten rohen Residuum werden auch Modifi­

kationen betrachtet. Häufig wird das skalierte Residuums verwendet

(2) R~C:= ~ R. = ~ (Y.-(t.) J a J a J J

(skaliertes Residuum)

welches man formal aus der standardisierten Beobachtung

(3) 1. (Y.- fL.) a J J

erhält, indem man fL. und a durch ihre Schätzungen ersetzt. Das skalierte Resi­J

duum unterscheidet sich vom rohen Residuum R. zwar nur um den Faktor a, hat J

aber den Vorteil einer gewissen Normierung, weil die Quadratsumme der skalier-

ten Residuen immer den Freiheitsgrad des Modells ergibt

(4) ~ (R;c)2 = FG(vft) = J - Dim(vft). J

Will man auch die unterschiedliche Varianz der rohen Residuen R. für verschie­J

Page 139: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.3 Residuenanalyse 11.8.05 5 - 20

dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie-

ren. Die Varianz des Residuums R . ergibt sich nach 2.3 (14) als j-tes Diagonalele- 3

ment der Matrix

1 T Cov (R) = 02.(IIJ- P "4%' ) = 02.(IIJ- x(xTx)- X )

Hieraus folgt

S wobei X . E IR der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten 3

2 Skalenparameter o durch seine Schätzung 82, so erhält man die geschätzte Varianz

von R . 3

und das standardzszerte Reszduum

(standardisiertes Residuum).

Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft

nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ

zur Modelldimension S) ist 6 2 e2, und das Residuum R: weicht nur gering von 1

R? ab. 3

Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso-

lute Beurteilung der Abweichung (Y.-,L.) erlaubt, weil es deren Varianz mitbe- 3 3

rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-

dardisierte und skalierte Residuum zumindest dann näherungsweise N(0 , 1)-verteilt,

wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen ,L. 3

und 8 nur unwesentlich von den wahren Werten ,LL. und a abweichen (vgl. hierzu 3

auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-

trem große bzw. „unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen

das (standardisierte oder skalierte) Residuum außerhalb des 20-Bereiches

[ - 2 8 , + 2 81 oder gar außerhalb des 30-Bereiches liegt [ - 3 8 , + 3 81.

Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots

kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:

roh, skaliert oder standardisiert.

5.3 Residuenanalyse 11.8.05 5- 20

dene Beobachtungen j mitberücksichtigen, so kann man das Residuum standardisie­

ren. Die Varianz des Residuums R. ergibt sich nach 2.3 (14) als j-tes Diagonalele­]

ment der Matrix

(5) Cov (R) a 2 . ( 11 J - P c4) = a 2 . ( 11 J - X(X T X) -1 X T)

Hieraus folgt

(6)

wobei x. E IRS der zugehörige Covariablenvektor ist. Ersetzt man den unbekannten ]

Skalenparameter a 2 durch seine Schätzung 52, so erhält man die geschätzte Varianz

vonR. ]

(7)

und das standardisierte Residuum

(8) (standardisiertes Residuum).

Der Unterschied zwischen dem skalierten und standardisierten Residuum ist oft

nicht sehr groß. Insbesondere bei einer hohen Anzahl J von Beobachtungen (relativ

zur Modelldimension S) ist v ~ ~ 52, und das Residuum R~c weicht nur gering von t ] ]

R~ ab. ]

Das standardisierte bzw. skalierte Residuum hat den Vorteil, daß es auch eine abso­

lute Beurteilung der Abweichung (Y.- 4.) erlaubt, weil es deren Varianz mitbe-] ]

rücksichtigt. Bei normalverteilten Beobachtungen, d.h. (NVY) gilt, sind das stan-

dardisierte und skalierte Residuum zumindest dann näherungsweise N(O, l)-verteilt,

wenn hinreichend viele Beobachtungen J vorliegen, weil dann die Schätzungen 4. ]

und 5 nur unwesentlich von den wahren Werten J-L. und a abweichen (vgl. hierzu ]

auch die asymptotischen Resultate in späteren Kapiteln). Hierdurch lassen sich ex-

trem große bzw. "unwahrscheinliche" Residuen herausfinden, z.B. solche bei denen

das (standardisierte oder skalierte) Residuum außerhalb des 2a-Bereiches

[- 25, + 25] oder gar außerhalb des 3a-Bereiches liegt [- 35, + 35].

Nach diesen Vorbetrachtungen wollen wir die wichtigsten Typen der Residuenplots

kurz erläutern, wobei es oft unerheblich ist, welchen Residuentyp man verwendet:

roh, skaliert oder standardisiert.

Page 140: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.3 Residuenanalyse 11.8.05 5 - 21

Der Index-Residuen-Plot

Hier werden für alle Beobachtungen j die Residuen RSC dargestellt, d.h. man plottet 3

die Punkte 6, RSC) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu 3

einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen

und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela-

tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich

insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen

entdecken.

Wesentlich mehr Information läßt sich aus diesen Plot gewinnen, wenn die Be-

obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors

A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy-

sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf-

steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co-

variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,

wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva-

riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.

Plot: Residuum gegen Erwartungswert

Es werden die Punkte (,L., RSC) für alle j dargestellt. Hierbei beurteilt man wieder, 3 3

ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-

tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge-

ner Varianzen verletzt sein.

Plot: Residuum gegen eine Covariable aus dem Modell

Hier betrachtet man für festes s die s-te Komponente X des Covariablenvektors S

S X EIR und plottet die Punkte (X. RSC) für alle j. Hier wird geprüft ob die Darstel-

3s' 3 lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen

Covariablen X . eine „Krümmungn in der Punktwolke, so ist der Einfluß von X . 3s 3s

nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer

Transformation h(x. ) der Covariablen (statt X . ) oder durch Hinzufügen eines qua- 3s 3s

dratischen Terms X? als neue Covariable verbessert werden. Im Gegensatz zum In- 3s

dex-Residuen-Plot (mit nach xs sortierten Beobachtungen) lassen sich hier nicht nur

monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch

5.3 Residuenanalyse 11.8.05 5 - 21

Der Index -Resid uen -Plot

Hier werden für alle Beobachtungen j die Residuen R~c dargestellt, d.h. man plottet ]

die Punkte (j, R~C) für alle j. Eine solche Darstellung ermöglicht (im Gegensatz zu ]

einer entsprechenden Tabelle) einen ersten Überblick über die Größe der Residuen

und ihr Vorzeichen. Hierbei beurteilt man hauptsächlich die Lage der Punkte rela­

tiv zur Achse R = 0, und ob sie um diese Achse zufällig streuen. Dadurch lassen sich

insbesondere größere Abweichungen vom Modell über die zugehörigen Residuen

entdecken.

Wesentlich mehr Information läßt sich aus diesen Plot gewmnen, wenn die Be­

obachtungen systematisch sortiert sind. Sind sie z. B. nach den Stufen eines Faktors

A sortiert, so kann man die Residuen für jede Stufe getrennt betrachten und analy­

sieren. Sind die Beobachtungen dagegen nach einer quantitativen Covariablen (auf­

steigend) sortiert, so kann man gegebenfalls monotone Trends zwischen dieser Co­

variablen und den Residuen entdecken. Diese Überlegungen lassen sich fortsetzen,

wenn die Beobachtungen lexikografisch nach mehreren (oder sogar allen) Modellva­

riablen sortiert sind, was daher schon aus diesem Grunde empfehlenswert ist.

Plot: Residuum gegen Erwartungswert

Es werden die Punkte (4., R~C) für alle j dargestellt. Hierbei beurteilt man wieder, ] ]

ob die Punkte zufällig um die Achse R = 0 streuen. Wenn z. B. bei größeren Erwar-

tungswerten auch stets größere Residuen auftreten, so kann die Annahme homoge­

ner Varianzen verletzt sein.

Plot: Residuum gegen eine Covariable aus dem Modell

Hier betrachtet man für festes s die s-te Komponente x des Covariablenvektors S

xE IRS und plottet die Punkte (x. , R~C) für alle j. Hier wird geprüft ob die Darstel­JS J

lung Strukturen aufweist oder nicht. Erkennt man hier z.B. bei einer quantitativen

Covariablen x. eine "Krümmung" in der Punktwolke, so ist der Einfluß von x. F F

nicht zufriedenstellend modelliert, und dies kann eventuell durch Verwendung einer

Transformation h(x. ) der Covariablen (statt x. ) oder durch Hinzufügen eines qua-JS JS

dratischen Terms x? als neue Covariable verbessert werden. Im Gegensatz zum In­JS

dex-Residuen-Plot (mit nach x sortierten Beobachtungen) lassen sich hier nicht nur S

monotone Trends erkennen, sondern man kann diese auch quantifizieren (z. B. durch

Page 141: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.3 Residuenanalyse 11.8.05 5 - 22

einen quadratischen Zusammenhang), weil hier auch die Werte X. berücksichtigt 3

werden und nicht nur ihre Anordnung (d. h. ihre Ränge).

Plot: Residuum gegen nicht ins Modell aufgenommen Covariable

Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene

Covariable z . auf den Erwartungswert hat, kann man die Punkte (z., R?) für alle j 3 3 3

plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-

hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li-

near, quadratisch undIoder ggf. transformiert) die Variable z . in einem erweiterten 3

Modell als Covariable aufzunehmen wäre.

5.3 Residuenanalyse 11.8.05 5- 22

emen quadratischen Zusammenhang), weil hier auch die Werte x. berücksichtigt ]

werden und nicht nur ihre Anordnung (d. h. ihre Ränge).

Plot: Residuum gegen nicht ins Modell aufgenommen Covariable

Um herauszufinden welchen Einfluß eine bisher nicht in das Modell aufgenommene

Covariable z. auf den Erwartungswert hat, kann man die Punkte (z., R~C) für alle j ] ] ]

plotten und auf Zufälligkeit beurteilen. Eine eventuell erkennbare funktionale Ab-

hängigkeit (etwa linear oder gekrümmt) liefert dann erste Anhaltspunkte, wie (li­

near, quadratisch und/oder ggf. transformiert) die Variable z. in einem erweiterten ]

Modell als Covariable aufzunehmen wäre.

Page 142: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 23

5.4 Modellsuche

Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten

Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo-

dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent-

sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales

Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei-

nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein

universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver-

fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).

Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:

konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal-

ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr-

scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be-

schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob-

wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame-

trischer Modelle gelten.

5.4.1 Sequentielle Testprozeduren

Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y ., X .) und der zuge- 3 3

hörige lineare Modellraum A für den Erwartungsvektor ,U von Y = (Y.). Zusätzlich 3

betrachten wir in A eine aufsteigende Sequenz von R 2 2 linearen Teilräumen

mit streng aufsteigenden Dimensionen

(2) Dim Al < Dim A2 < . . . . . . < Dim AR < Dim A.

Die Modellräume A sind hierbei fest vorgegeben und sollen sequentiell überprüft r

werden, wobei wir die Gültigkeit des umfassendes Modell A voraussetzen. Wir be-

trachten für r = 1, ..., R nun die zugehörigen Nullhypothesen

5.4 Modellsuche 12.8.05 5- 23

5.4 Modellsuche

Im Abschnitt 3.3 haben wir schon gesehen, daß es bereits bei zwei beobachteten

Covariablen zahlreiche Möglichkeiten gibt, den Einfluß dieser Covariablen zu mo­

dellieren. Bei mehreren Covariablen wird die Vielfalt der möglichen Modelle ent­

sprechend größer, und es erhebt sich die Frage, wie man generell ein optimales

Modell auswählen kann. Je nach Intention der statistischen Analyse wird man ei­

nen unterschiedlichen Optimalitätsbegriff zu Grunde legen und folglich gibt es kein

universelles Verfahren für eine Modellsuche. Eine Übersicht der wichtigsten Ver­

fahren und ihrer Probleme findet man in der Monographie von A.J. Miller (1990).

Wir wollen hier nur zwei grundsätzlich verschiedene Verfahren kurz besprechen:

konfirmatorische sequentielle Testprozeduren (die ein vorgegebenes Testniveau einhal­

ten) und einfache explorative Modell-Suchverfahren (bei denen die Irrtumswahr­

scheinlichkeit nicht durch ein vorgegebenes Niveau kontrolliert wird). Dabei be­

schränken wir die Darstellung auf die hier interessierenden Linearen Modelle, ob­

wohl die zugrunde liegenden Prinzipien auch für eine allgemeinere Klasse parame­

trischer Modelle gelten.

5.4.1 Sequentielle Testprozeduren

Ausgangspunkt der Betrachtungen ist wieder ein Datensatz (Y., x.) und der zuge­] ]

hörige lineare Modellraum vft für den Erwartungsvektor Jl von Y = (Y.). Zusätzlich ]

betrachten wir in vft eine aufsteigende Sequenz von R > 2 linearen Teilräumen

(1) c c ...... C

mit streng aufsteigenden Dimensionen

(2) Dirn vft1

< Dirn vft2

< ...... < Dirn vftR

< Dirn vft.

Die Modellräume vft sind hierbei fest vorgegeben und sollen sequentiell überprüft r

werden, wobei wir die Gültigkeit des umfassendes Modell vft voraussetzen. Wir be-

trachten für r = 1, ... , R nun die zugehörigen Nullhypothesen

Page 143: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 24

die eine aufsteigende Sequenz bilden, d.h. es gilt

Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors

8= (Bl, ..., BR) in R Komponenten (die auch wieder Vektoren sein können) gegeben

mit den Nullhypothesen

(5) H ~ : o e r = . . . = e R = o .

und den zugehörigen Modellräumen

Anwendung: Kl inische Studie

Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines

neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be-

handlungen fassen wir als einen Faktor A mit K= 4 Stufen auf: Placebo (A = l) bzw.

Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un- A ter Verwendung der Indikatorvariablen Ik = I{A = kl für die vier Behandlungsarme

1% = 1, 2, 3 , 4 läßt sich der Erwartungswert ,L für den durch die Zielvariable Y gemes-

senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für

den Faktor A

auch wie folgt umparametrisieren

A A A A A A ,L = Q1 + Q2.(12 +I3 +I4) + Q3.(13 +I4) + Q4.14 mit

8 =8'-8' 4 4 3

bzw.

Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -

egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder

nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:

5.4 Modellsuche 12.8.05 5- 24

die eine aufsteigende Sequenz bilden, d.h. es gilt

(4) HR- 1 ::::} ......::::} 0 ::::}

Eine typische Anwendung hierfür ist durch eine Zerlegung des Parametervektors

()= (()1' ···'()R) in R Komponenten (die auch wieder Vektoren sein können) gegeben

mit den Nullhypothesen

und den zugehörigen Modellräumen

(6) .At = { X() I () = ... = ()R = 0 }. r r

Anwendung: Klinische Studie

Als einfache Anwendung betrachten wir eine klinische Studie zum Vergleich eines

neuen Medikaments in drei verschiedenen Dosierungen mit einem Placebo. Die Be­

handlungen fassen wir als einen Faktor A mit K = 4 Stufen auf: Placebo (A = 1) bzw.

Medikament in geringer (A = 2), mittlerer (A = 3) und hoher (A = 4) Dosierung. Un­

ter Verwendung der Indikatorvariablen If = I{A = k} für die vier Behandlungsarme

k = 1,2, 3,4 läßt sich der Erwartungswert f-L für den durch die Zielvariable Y gemes­

senen Behandlungserfolg bei einer einzelnen Person im vollständigen Modell für

den Faktor A

auch wie folgt umparametrisieren

81 = 8;,

8; = 81,

82 = 8~ - 8;,

8~ = 81 +82,

mit

84 = 8~ - 8~ bzw.

8 ~ = 81 +82 + 83 + 84.

Von primärem Interesse ist, ob der Behandlungserfolg des neuen Medikaments -

egal in welcher der drei Dosierungen - sich gegenüber Placebo unterscheidet oder

nicht, und die zugehörige Nullhypothese beschreibt das konstante Modell:

Page 144: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 25

1 H : 8 = 8 = 8 = O 0 2 3 4

(kein Unterschied des Medikaments gegenüber Placebo).

Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha-

ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,

ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls

einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet

2 H : 8 = 8 = 0 (kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis). 0 3 4

Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat

einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ-

lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt-

lere Dosis, und die zugehörige Nullhypothese ist

3 H : 8 = O 0 4

(kein Unterschied der hohen gegenüber der mittleren Dosis).

Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ-

ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber

nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch

eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-

ringe, mittlere und hohe Dosis).

Für jedes r = 1, ..., R sei jetzt kir) die F-Statistik des F-Tests der Hypothesen für das

Untermodell J& C J& T

(7) H ; : , ~ E J & T- VS. H T : P @ J & ~ , P E & ,

und F(') bezeichne das obere u-Quantil der zugehörigen (zentralen) F-Verteilung. a Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine

(Bonferroni-)Korrektur des Einzel-Testniveaus u erforderlich wäre, um das globale

Niveau u für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul-

tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen

Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende

oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des

Einzel-Testniveaus u notwendig ist.

Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für

r = l , 2 ... soweit durchgeführt bis erstmals H; nicht abgelehnt wird, und die Prozedur

entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-

5.4 Modellsuche 12.8.05 5- 25

(kein Unterschied des Medikaments gegenüber Placebo).

Nur wenn diese Nullhypothese abgelehnt wird - d.h. Medikament und Placebo ha­

ben eine signifikant unterschiedliche Wirkung gezeigt - will man weiter überprüfen,

ob eine Erhöhung der Dosis (mittel oder hoch) gegenüber der geringen Dosis ebenfalls

einen Einfluß hat oder nicht. Die entsprechende Nullhypothese lautet

(kein Unterschied bei Dosiserhöhung gegenüber geringer Dosis).

Nur wenn auch diese Nullhypothese abgelehnt wird - d.h. eine Dosiserhöhung hat

einen signifikanten Einfluß auf den Behandlungserfolg gezeigt - will man schließ­

lich noch überprüfen, ob die hohe Dosierung einen anderen Einfluß hat als die mitt­

lere Dosis, und die zugehörige Nullhypothese ist

(kein Unterschied der hohen gegenüber der mittleren Dosis).

Hier liegen also R = 3 sequentielle Nullhypothesen der Form (5) vor. - Diese Situ­

ation läßt sich auf mehr als 4 Stufen eines Faktors A verallgemeinern. Dies ist aber

nur dann sinnvoll, wenn die zugrunde gelegte Anordnung der Faktorstufen auch

eine praktische Bedeutung hat (wie hier bei den Behandlungsstufen: Placebo, ge-

ringe, mittlere und hohe Dosis). D

Für jedes r = 1, ... , R sei jetzt I.r) die F-Statistik des F-Tests der Hypothesen für das

Untermodell .At c.At r

(7) vs.

und F (r) bezeichne das obere a-Quantil der zugehörigen (zentralen) F-Verteilung. Ct

Wir wollen allerdings nicht einfach alle R F-Tests durchführen, weil hierfür eine

(Bonferroni-)Korrektur des Einzel-Testniveaus a erforderlich wäre, um das globale

Niveau a für die insgesamt R multiplen Tests zu erreichen (vgl. Exkurs MTK Mul­

tiple Tests und Konfidenzbereiche). Da die Nullhypothesen (4) bzw. die zugehörigen

Modellräume (1) sequentiell angeordnet sind, können wir eine sequentiell aufsteigende

oder absteigende Testprozedur anwenden, bei denen keine (Bonferroni-)Korrektur des

Einzel-Testniveaus a notwendig ist.

Bei der aufsteigenden sequentiellen Testprozedur werden die F-Tests aufsteigend für

r = 1,2 ... soweit durchgeführt bis erstmals H~ nicht abgelehnt wird, und die Prozedur

entscheidet sich - unter allen möglichen Modellen aus (1) - für dieses zuletzt über-

Page 145: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 26

prüfte Modell A . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so ent- T

scheiden wir uns für das Modell A= Derjenige Modellindex 1 < r < R+1 T -

für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch

~ i n { r l F ( T ) < F ( ' ) } a falls { r lF(T)<Ft)} t0 T R + 1 sonst

Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r zu T

entscheiden, obwohl bereits ein Teilmodell AT mit r < r (und wegen (1) somit auch T

für r = r -1) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel- T

len Prozedur ist höchstens ci! (vgl. Exkurs M T K 3).

Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen

Testprozedur die F-Tests absteigend für r = R, R- 1 ... soweit durchgeführt bis erstmals

H; abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model-

len aus (1) - für das zuletzt nicht abgelehnte Modell ATt1. F'alls alle R F-Tests die

Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell Al.

Derjenige Modellindex 1 < r < R + l für den sich die aufsteigende Prozedur entschei- L -

det, ist daher gegeben durch

1 + ~ a x {r lF(T)>F(')} a falls { r lF(T)>F(')} a t 0 I 1 sonst

Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r zu L

entscheiden, obwohl bereits das Teilmodell A mit r = r -1 zutrifft. Das zugehö- T L

rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens ci!

(vgl. Exkurs M T K 3).

Beide sequentielle Testprozeduren kommen für R > 2 nicht notwendig zum gleichen

Ergebnis. Es gilt aber stets r < r d.h. das bei der absteigenden Prozedur ausge- T - L '

wählte Modell umfaj't das von von der aufsteigenden Prozedur ausgewählte Modell.

Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r < r gilt. In die- T L

Sem Fall gibt es drei Indizes

q = r < s = r -1 < t = r T L L '

mit den zugehörigen Modellräumen

5.4 Modellsuche 12.8.05 5- 26

prüfte Modell vft . Falls alle R F-Tests die Nullhypothese abgelehnt haben, so ent­r

scheiden wir uns für das Modell vft = vft R + r Derj enige Modellindex 1 < r i < R + 1

für den sich die aufsteigende Prozedur entscheidet, ist daher gegeben durch

sonst } (8) r = { Min { r I ~r) < F lr) }

i R+1

falls { r I ~r) < F (r) } ;= 0 Q

Bei dieser Prozedur besteht der Fehler 1. Art darin sich für den Modellindex r i zu

entscheiden, obwohl bereits ein Teilmodell vft mit r< r (und wegen (1) somit auch r i

für r = r i-I) zutrifft. Das zugehörige Fehlerrisiko 1. Art der aufsteigenden sequentiel-

len Prozedur ist höchstens a (vgl. Exkurs MTK 3).

Im Gegensatz zur aufsteigenden Prozedur werden bei der absteigenden sequentiellen

Testprozedur die F-Tests absteigend für r = R, R-1 ... soweit durchgeführt bis erstmals

H~ abgelehnt wird, und die Prozedur entscheidet sich - unter allen möglichen Model­

len aus (1) - für das zuletzt nicht abgelehnte Modell vftr+ r Falls alle R F-Tests die

Nullhypothese nicht abgelehnt haben, so entscheiden wir uns für das Modell vftr Derjenige Modellindex 1 <TL <R+1 für den sich die aufsteigende Prozedur entschei­

det, ist daher gegeben durch

(9) r = { 1 + Max { r I ~r) > F lr) }

1 1

falls { r I ~r) > F lr) } ;= 0

sonst }. Bei dieser Prozedur besteht der Fehler 1. Art darin, sich für den Modellindex r J- zu

entscheiden, obwohl bereits das Teilmodell vft mit r = r -1 zutrifft. Das zugehö-r J-

rige Fehlerrisiko 1. Art der absteigenden sequentiellen Prozedur ist auch höchstens a

(vgl. Exkurs MTK 3).

Beide sequentielle Testprozeduren kommen für R> 2 nicht notwendig zum gleichen

Ergebnis. Es gilt aber stets r i < r 1 ' d.h. das bei der absteigenden Prozedur ausge­

wählte Modell umfaßt das von von der aufsteigenden Prozedur ausgewählte Modell.

Wir wollen uns kurz überlegen, wie es dazu kommen kann, daß r i < r 1 gilt. In die­

sem Fall gibt es drei Indizes

q= r < i

s = r -1 < 1

mit den zugehörigen Modellräumen

vft c q

vft s c

t=r 1 '

vftt '

Page 146: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 27

so daß der F-Test das „innereu Modell .,&E ablehnt, aber die beiden „äußerenu Modelle S

.,&E und .,&E nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un- 4 t

tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = F G ( 4 den

Zählerfreiheitsgrad und mr = FG(+) - n den Nennerfreiheitsgrad beim F-Tests, so

läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:

F(T) > F (4 - a U Dev(.,&E)>c r r : = e 2 ( n + m r F mr,n;a 1.

Für obige Modellräume ergibt sich einerseits

Andererseits ist m Fm streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F- 1 1

Verteilung (19)) und somit gilt für 8 > 0 auch

C t < C < C . S 4

Bei der folgenden möglichen Anordnung

würde dann obige Situation eintreten: der F-Test lehnt das Modell .,&E ab, aber S

nicht die Modelle .,&E und .,&Et. Folglich können sich die auf- und absteigende Pro- 4

zedur für unterschiedliche Modellräume .,&E und .,&E entscheiden. Die Ursache 4 t

hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden

oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ-

ten F-Test) sein.

Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere

hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung

ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur

von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,

wenn man ausgehend vom (z.B. konstanten) Modell .,&El schrittweise nur signifikante

Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze-

dur verwenden, wenn es darum geht, ein bereits etabliertes Modell .,&E schrittweise

zu vereinfachen.

Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere

Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen

F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der

Datenanalyse spezifiziert werden und das umfassende Modell .,&E muß korrekt sein.

5.4 Modellsuche 12.8.05 5- 27

so daß der F-Test das "innere" Modell vft ablehnt, aber die beiden "äußeren" Modelle s

vftq

und vftt

nicht ablehnt. Zur Klärung dieser scheinbar paradoxen Situtation un-

tersuchen wir den F-Test der Hypothesen (7) genauer. Bezeichnet n = FG( v«) den

Zählerfreiheitsgrad und m = FG( vft ) - n den Nennerfreiheitsgrad beim F-Tests, so r r

läßt sich das Ablehnungskriterium des Tests äquivalent umformulieren:

~r) > F(r) - Ct

Für obige Modellräume ergibt sich einerseits

Dev(vft ). q

Andererseits ist m F streng wachsend in m (vgl. Exkurs V 3.1 Die zentrale F-m,n,Ct

verteilung (19)) und somit gilt für a> 0 auch

< c s <

Bei der folgenden möglichen Anordnung

< < c s <

c . q

Dev(vft) < c q

würde dann obige Situation eintreten: der F-Test lehnt das Modell vft ab, aber s

nicht die Modelle vftq

und vft( Folglich können sich die auf- und absteigende Pro-

zedur für unterschiedliche Modellräume vftq

und vftt

entscheiden. Die Ursache

hierfür kann ein Fehler 2. Art (wegen zu geringer Schärfe) bei der aufsteigenden

oder ein Fehler 1. Art bei der absteigenden Prozedur (im jeweils zuletzt durchgeführ­

ten F-Test) sein.

Ob einer der beiden sequentiellen Testprozeduren sinnvoller ist als die andere

hängt von der konkreten Modell-Sequenz (1) und der dabei verfolgten Zielsetzung

ab. Zum Beispiel ist bei der obigen klinischen Studie nur die aufsteigende Prozedur

von Interesse. Generell wird man die aufsteigende Prozedur immer dann wählen,

wenn man ausgehend vom (z.B. konstanten) Modell vft1

schrittweise nur signifikante

Modellerweiterungen vornehmen will. Umgekehrt wird man die absteigende Proze­

dur verwenden, wenn es darum geht, ein bereits etabliertes Modell vft schrittweise

zu vereinfachen.

Die Anwendung der sequentiellen Prozeduren hat den Vorteil, daß man mehrere

Modelle überprüfen kann und die Gesamtprozedur das Testniveau der einzelnen

F-Tests nicht überschreitet. Allerdings müssen hierfür die Modellräume (1) vor der

Datenanalyse spezifiziert werden und das umfassende Modell vft muß korrekt sein.

Page 147: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 28

5.4.2 Modell-Suchverfahren

Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel-

len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird

das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen

beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet

werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei-

ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be-

obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari-

ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr 2 als 2 Stufen, oder aus verschiedenen Potenzen z, z , ... einer quantitativen Covari-

ablen).

Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell

4 welches nur noch diejenigen beobachteten Covariablen enthält, die einen „signi-

fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche

nach einem geeigneten Modell N erfolgt typischerweise durch ein Mehr-Schritt-

Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:

die Vorwärts- und die Rückwärts-Suche.

Die Vorwärtssuche startet mit einem möglichst einfachen Modell Ao (z. B. dem

konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova-

riablen eine aufsteigende Modellfolge

die beim einem „optimalenu Modell N e n d e t . Die Rückwärtssuche startet demgege-

nüber mit einem möglichst umfangreichen (und zutreffenden) Modell Ao und kon-

struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell-

folge

die wieder beim einem „optimalenu Modell Nende t , was aber im allgemeinen nicht

mit dem aus einer Vorwärtssuche übereinstimmt.

Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht

5.4 Modellsuche 12.8.05 5- 28

5.4.2 Modell-Such verfahren

Wir wollen hier nur zwei typische explorative Verfahren zur Modellsuche vorstel­

len, die allerdings nicht notwendig zum gleichen Modell führen. In der Praxis wird

das gesuchte Modell meist durch eine Reihe von interessierenden Modell-Variablen

beschrieben die aus den beobachteten Covariablen auf verschiedene Weise gebildet

werden können (vgl. Kapitel 3). Eine solche Modell-Variable kann einerseits aus ei­

ner einzelnen formalen Covariablen bestehen (z.B. einer ggf. transformierten be­

obachteten quantitativen Covariablen z) oder andererseits mehreren formalen Covari­

ablen entsprechen (z.B. den Indikatorvariablen eines beobachteten Faktors mit mehr

als 2 Stufen, oder aus verschiedenen Potenzen z, z2, ... einer quantitativen Covari­

ablen).

Gesucht ist dann ein möglichst einfaches (d.h. niedrig-dimensionales) Teilmodell

JV;" welches nur noch diejenigen beobachteten Covariablen enthält, die einen "signi­

fikanten" Einfluß auf den Erwartungswert der Beobachtung Y haben. Die Suche

nach einem geeigneten Modell JV erfolgt typischerweise durch ein Mehr-Schritt­

Suchverfahren, wobei man prinzipiell zwei verschiedene Methoden verwendet kann:

die Vorwärts- und die Rückwärts-Suche.

Die Vorwärtssuche startet mit einem möglichst einfachen Modell .ACo (z. B. dem

konstanten Modell) und konstruiert durch schrittweise Hinzunahme weiterer Cova­

riablen eine aufsteigende Modellfolge

die beim einem "optimalen" Modell JV endet. Die Rückwärtssuche startet demgege­

nüber mit einem möglichst umfangreichen (und zutreffenden) Modell .ACo und kon­

struiert durch schrittweise Herausnahme von Covariablen eine absteigende Modell­

folge

die wieder beim einem "optimalen" Modell JV endet, was aber im allgemeinen nicht

mit dem aus einer Vorwärtssuche übereinstimmt.

Die Frage, ob bei diesen Verfahren ein weiterer Schritt erforderlich ist oder nicht

Page 148: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 29

(d. h. man hat das Modell M bereits erreicht) wird durch den F-Test entschieden mit

den zugehörigen Modellräumen A C Aktl, d. h. man setzt das umfassende Mo- r dell Aktl voraus und testet die Hypothesen

Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange-

zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell 4 im Vergleich

zu Aktl. Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen

P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen

Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht

der Fall, weil sich dort die jeweiligen Modellräume 4 C A (und damit die Hy- k t l

pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y

ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein

formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes

Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard-

niveau a = 5 % , sondern auch höhere Werte (z.B. 10%) verwendet, um die „Test-

schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird

verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich

insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die

bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen

Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.

Wenn beim vorliegende Datensatz (Y., X .) mit j = 1, ..., J die Anzahl J hinreichend 3 3

groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,

d.h. man bestimmt eine disjunkte Zerlegung J U J ={I, ..., J ) . Mit dem durch J1 ge- 1 2

geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh-

ren und die dabei erhaltene Modellsequenz a m zweiten - durch J2 gegebenen - Teil-

datensatz mit einer sequentiellen Testprozedur überprüfen.

5.4 Modellsuche 12.8.05 5- 29

( d. h. man hat das Modell J'V bereits erreicht) wird durch den F-Test entschieden mit

den zugehörigen Modellräumen vftr

C vftk+ l' d. h. man setzt das umfassende Mo­

dell vftk+ 1 voraus und testet die Hypothesen

gegen

Bei den Such-Prozeduren wird dann der P-Wert des Tests zur Beurteilung herange­

zogen. Je kleiner dieser P-Wert ist, desto schlechter ist das Modell vftk

im Vergleich

zu vftk+ r Die Anwendung eines solchen Tests bzw. die Berechnung des zugehörigen

P-Werts setzt allerdings voraus, daß die Hypothesen unabhängig von dem zufälligen

Beobachtungsvektor Y gewählt werden. Dies ist bei den folgenden Prozeduren nicht

der Fall, weil sich dort die jeweiligen Modellräume vftk C vftk+ 1 (und damit die Hy­

pothesen) eines Schritts nach bestimmten Kriterien aus den Beobachtungsdaten Y

ergeben. Die Entscheidung zwischen beiden Modellen ist hier deshalb nicht als ein

formaler Test (zum vorgegebenen Niveau) sondern als ein heuristisches begründetes

Auswahlkriterium zu verstehen. Deshalb wird hier nicht notwendig das Standard­

niveau a = 5%, sondern auch höhere Werte (z.B. 10%) verwendet, um die "Test­

schärfe" zu erhöhen. Obwohl in jedem Schritt formal ein F-Test durchgeführt wird

verzichtet man auf eine (Bonferroni-)Korrektur für multiples Testen, weil es sich

insgesamt nur um eine explorative Modellsuche handelt. Man kann allerdings die

bei der Modellsuche gefundene Modellsequenz (VS) bzw. (RS) an einem anderen

Datensatz unter Verwendung der sequentiellen Test-Prozeduren aus 5.4.1 überprüfen.

Wenn beim vorliegende Datensatz (Y., x.) mit j = 1, ... , J die Anzahl J hinreichend ] ]

groß ist, so kann man den Datensatz auch zufällig in zwei Teildatensätze zerlegen,

d.h. man bestimmt eine disjunkte Zerlegung J1 UJ2 = {I, ... ,J}. Mit dem durch J1 ge­

geben ersten Teildatensatz kann man dann eine explorative Modellsuche durchfüh­

ren und die dabei erhaltene Modellsequenz am zweiten - durch J2

gegebenen - Teil­

datensatz mit einer sequentiellen Testprozedur überprüfen.

Page 149: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 30

5.4.3 Das Vorwärts-Suchverfahren

Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell

Ao , wie z.B. dem konstanten Modell Ao = AJ, eine aufsteigende Folge von Modellen

konstruiert, die beim gesuchten Modell N e n d e t :

Vor jedem Vorwärtsschritt „A' H Aktl " für k 2 1 sind zunächst alle für eine Er-

weiterung des aktuellen Modells Ak noch zur Verfügung stehenden potentiellen

Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene

beobachtete Covariablen ( g f . inclusive in Betracht zu ziehender Transformationen

bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen

bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo-

dells A' um eine neue Covariable wird nun diejenige Erweiterung A ausge- 'tl

wählt, die den gröflten Fortschritt gegenüber dem aktuellen Modell 4 erzielt, d. h.

wo der P-Wert des zugehörigen F-Tests von A' a m geringsten ist. Das Verfahren

wird abgebrochen, wenn es keine „signifikanteu Erweiterung A mehr gibt, die 'tl

nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for-

mal vorgegebenes Niveau ci! definiert.

Der Vorwärts-Schritt „Ak H Aktl " für AL t A wird in drei Teilschritten aus-

geführt (wobei mit Test immer der F-Test gemeint ist):

(VSI) Betrachte alle Obermodelle Akr > A', die sich durch Hinzufügen einer

neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo-

dells Ak enthalten ist) ergeben, und nicht bereits das vollständige Modell

sind. Wenn es kein solches Obermodell mehr gibt, so endet das Verfahren

mit (VS4). Andernfalls bestimmt man den P-Wert P des Tests von AL un- r

ter Ak , dd.. von

: rcAk gegen H Ir : p@ Ak für alle diese Obermodelle..

5.4 Modellsuche 12.8.05 5- 30

5.4.3 Das V orwärts-Suchverfahren

Beim Vorwärts-Suchverfahren wird ausgehend von einem minimalen Basis-Modell

.ACo' wie z.B. dem konstanten Modell .ACo = ~ J' eine aufsteigende Folge von Modellen

konstruiert, die beim gesuchten Modell JV endet:

Vor jedem Vorwärts schritt ".ACk f-----t .ACk+ 1" für k > 1 sind zunächst alle für eine Er­

weiterung des aktuellen Modells .ACk noch zur Verfügung stehenden potentiellen

Modellvariablen aufzulisten, und zwar sowohl bisher nicht im Modell enthaltene

beobachtete Covariablen (ggf. inclusive in Betracht zu ziehender Transformationen

bei quantitativen Covariablen) als auch mögliche neue Wechselwirkungen zwischen

bereits aufgenommenen Variablen. Unter allen möglichen Erweiterungen des Mo­

dells .ACk um eine neue Covariable wird nun diejenige Erweiterung .ACk+ 1 ausge­

wählt, die den größten Fortschritt gegenüber dem aktuellen Modell .ACk erzielt, d. h.

wo der P-Wert des zugehörigen F-Tests von .ACk am geringsten ist. Das Verfahren

wird abgebrochen, wenn es keine "signifikante" Erweiterung .ACk+ 1 mehr gibt, die

nicht bereits das vollständige Modell ist. Die Signifikanz wird hierbei durch ein for­

mal vorgegebenes Niveau a definiert.

Der Vorwärts-Schritt ".ACk f-----t .ACk+ 1" für .ACk :;= .AC wird in drei Teilschritten aus­

geführt (wobei mit Test immer der F-Test gemeint ist):

(VS1) Betrachte alle übermodelle .ACkr ~.ACk' die sich durch Hinzufügen ezner

neuen in Frage kommenden Covariablen (die nicht schon im aktuellen Mo­

dells .ACk enthalten ist) ergeben, und nicht bereits das vollständige Modell

sind. Wenn es kein solches übermodell mehr gibt, so endet das Verfahren

mit (VS4). Andernfalls bestimmt man den P-Wert Pr des Tests von .ACk un­

ter .ACk r ' d.h. von

HOr : Jl E.ACk gegen

für alle diese übermodelle ..

Page 150: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5- 31

(VS2) Betrachte dasjenige (bzw. eines, falls es mehrere gibt) Modell Akt aus

(VSI) mit minimalem P-Wert, d.h.

Pt = Min P r

und führe den Test von H zum Niveau a durch. 0 t

(VS3) Falls der Test aus (VS2) das aktuelle Modell Ak ablehnt, so wird das

Obermodell Akt das neue aktuelle Modell, d.h. man setzt

&k+1:= &kt

und der nächste Vorwärtsschritt (mit A statt A j beginnt. k t l

Falls der Test das aktuelle Modell Ak nicht ablehnt, endet das Verfahren

mit (VS4).

(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

M:= AL.

Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des

umfassenden Modells Ak nicht sichergestellt ist und somit die Varianz o2 über- r

schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.

a 2 10%.

5.4.4 Das Rückwärts-Suchverfahren

Dieses Verfahren setzen die Gültigkeit eines umfassenden Obermodells A voraus.

Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana-

lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen

(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun-

gen als formale Covariable in das Modell A aufnehmen. Da wir das Modell A im

folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.

durch einen Anpassungstest oder eine Re~iduenanal~se) , sofern es nicht bereits aus

theoretischen Erwägungen korrekt sein muß.

Beim Rückwärts-Suchverfahren wird ausgehend vom Modell A eine absteigende

Folge von Modellen konstruiert, die beim gesuchten Modell Mende t :

Der Rückwärts-Schritt "AL H jlCtl " für k 2 1 basiert hierbei darauf, daß man

5.4 Modellsuche 12.8.05 5- 31

(VS2) Betrachte dasjenige (bzw. emes, falls es mehrere gibt) Modell vftk taus

(VS1) mit minimalem P-Wert, d.h.

Pt = Min P r r

und führe den Test von HOt zum Niveau a durch.

(VS3) Falls der Test aus (VS2) das aktuelle Modell vftk

ablehnt, so wird das

übermodell vftk

t das neue aktuelle Modell, d.h. man setzt

vftk+1 := vftkt und der nächste Vorwärtsschritt (mit vft

k+

1 statt vft

k) beginnt.

Falls der Test das aktuelle Modell vftk

nicht ablehnt) endet das Verfahren

mit (VS4).

(VS4) Das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

J'II":= vftk

.

Da die F-Tests in (VS2) extrem konservativ sein können - weil die Gültigkeit des

umfassenden Modells vftkr

nicht sichergestellt ist und somit die Varianz 0-2 über­

schätzt wird (vgl. 4.3) - sollte man hier ein nicht zu kleines Niveau a wählen, z.B.

a>lO%.

5.4.4 Das Rückwärts-Suchverfahren

Dieses Verfahren setzen die Gültigkeit eines umfassenden übermodells vft voraus.

Wenn keine speziellen Vorinformationen vorliegen (z.B. die vorangegangenen Ana­

lysen oder Literaturstudien), so wird man in der Regel alle beobachteten Covariablen

(ggf. geeignet transformiert) zusammen mit den interessierenden Wechselwirkun­

gen als formale Covariable in das Modell vft aufnehmen. Da wir das Modell vft im

folgenden als korrekt voraussetzen, sollte man seine Anpassung überprüfen (z.B.

durch einen Anpassungstest oder eine Residuenanalyse), sofern es nicht bereits aus

theoretischen Erwägungen korrekt sein muß.

Beim Rückwärts-Suchverfahren wird ausgehend vom Modell vft eine absteigende

Folge von Modellen konstruiert, die beim gesuchten Modell J'II" endet:

Der Rückwärts-Schritt "vftk

1----+ vftk+

1" für k > 1 basiert hierbei darauf, daß man

Page 151: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 32

diejenige Modellvariable des aktuellen Modells 4 ausfindig, die den geringsten

Einfluß hat und diese aus dem aktuellen Modell entfernt, wenn der zugehörige F-

Test zum Niveau ci! dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari-

able auf diese Weise aus dem aktuellen Modell entfernen läßt.

Der Rückwärts-Schritt ,,% H Aktl " wird in drei Teilschritten ausgeführt (wobei

mit Test immer der F-Test gemeint ist):

(RSI) Betrachte alle Teilmodelle Akr C%, die sich durch Elimination einer

Modell-Variablen des aktuellen Modells 4 ergeben, und bestimme den P-

Wert P der Beobachtung für den Test von unter A', d.h. von r

pcAkr gegen H : ~ @ A k r , ~ c A k . r

(RS2) Betrachte dasjenige Modell Akt aus (RSI) mit maximalem P-Wert, d.h.

Pt = Max P r

und führe den Test von H zum Niveau ci! durch. 0 t

(RS3) Falls sich der Test aus (RS2) sich für das Modell Akt entscheidet, so wird

dieses das neue aktuelle Modell, d.h. man setzt-

und der nächste Rückwärtsschritt (mit A statt A') beginnt. 'tl

Falls der Test das Modell Akt ablehnt, wird das Verfahren abgebrochen und

das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

5.4.5 Modifizierte Suchverfahren

Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur

gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi-

sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier

Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän-

kung auf eine spezielle Modellklasse, werden dann im Schritt (RSI) bzw. (VSI) nur

Modelle Ak aus dieser Klasse zugelassen. r

5.4 Modellsuche 12.8.05 5- 32

diejenige Modellvariable des aktuellen Modells vftk ausfindig, die den geringsten

Einfluß hat und diese aus dem aktuellen Modell entfernt) wenn der zugehörige F­

Test zum Niveau a dies erlaubt. Das Verfahren endet, wenn sich keine Modell-Vari­

able auf diese Weise aus dem aktuellen Modell entfernen läßt.

Der Rückwärts-Schritt "vftk f-----t vftk+ 1" wird in drei Teilschritten ausgeführt (wobei

mit Test immer der F-Test gemeint ist):

(RS1) Betrachte alle Teilmodelle vftk

r C vftk

, die sich durch Elimination ezner

Modell-Variablen des aktuellen Modells vftk

ergeben, und bestimme den P­

Wert Pr der Beobachtung für den Test von vftkr unter vftk, d.h. von

gegen

(RS2) Betrachte dasjenige Modell vftkt aus (RS1) mit maximalem P-Wert, d.h.

Pt = MaxP r r

und führe den Test von HOt zum Niveau a durch.

(RS3) Falls sich der Test aus (RS2) sich für das Modell vftk

t entscheidet, so wird

dieses das neue aktuelle Modell, d.h. man setzt-

und der nächste Rückwärtsschritt (mit vftk+

1 statt vft

k) beginnt.

Falls der Test das Modell vftk t ablehnt) wird das Verfahren abgebrochen und

das aktuelle Modell ist das gesuchte Modell, d.h. man setzt

5.4.5 Modifizierte Suchverfahren

Bei den Suchverfahren beschränkt man sich oft auf spezielle Modellklassen, die nur

gut interpretierbare Modelle enthalten, wie z.B. die hierachischen Modelle. Hierarchi­

sche Modelle sind dadurch charakterisiert, daß sie mit einer Wechselwirkung zweier

Variablen auch stets die beteiligten Variablen selbst enthalten. Bei einer Beschrän­

kung auf eine spezielle Modellklasse, werden dann im Schritt (RS1) bzw. (VS1) nur

Modelle vftk

r aus dieser Klasse zugelassen.

Page 152: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

5.4 Modellsuche 12.8.05 5 - 33

Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen-

det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su-

che a m Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such-

schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü-

gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom-

mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge-

mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen

Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In

jedem Fall sollte man die Anpassung für das endgültige Modell N n o c h einmal er-

neut überprüfen, z.B. mit einer Residuenanalyse.

Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller

1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke

vorteilhafter sein, Variablen ins Modell Naufzunehmen, die sich bei den Suchver-

fahren nicht als „signifikantu erweisen (vielleicht wegen einer zu geringen „Schärfeu

des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell N von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell

N= 4 Y ) . Deshalb kann man auf dieses Modell N a u c h keine weitere statisti-

schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an-

wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.

5.4 Modellsuche 12.8.05 5- 33

Das Rück- und Vorwärts-Suchverfahren werden nicht nur in Reinkultur verwen­

det, sondern auch miteinander kombiniert. So kann man z.B. bei der Rückwärts-Su­

che am Ende (oder sogar nach jedem Teilschritt) erneut mit einem Vorwärts-Such­

schritt überprüfen, ob man nicht eine bereits eliminierte Variable wieder hinzufü­

gen sollte. Entsprechend kann man bei der Vorwärts-Suche auch bereits aufgenom­

mene Variablen wieder durch einen Rückwärts-Schritt eliminieren. Solche ge­

mischte Prozeduren sind insbesondere dann empfehlenswert, wenn die einzelnen

Variablen untereinander stärkere Zusammenhänge (Korrelationen) aufweisen. In

jedem Fall sollte man die Anpassung für das endgültige Modell J'V noch einmal er­

neut überprüfen, z.B. mit einer Residuenanalyse.

Die Anwendung formaler Suchprozeduren ist nicht unumstritten (vgl. auch Miller

1990). So kann es aus inhaltlichen oder anderen Gründen z.B für Prognosezwecke

vorteilhafter sein, Variablen ins Modell J'Vaufzunehmen, die sich bei den Suchver­

fahren nicht als "signifikant" erweisen (vielleicht wegen einer zu geringen "Schärfe"

des Such-Verfahrens). Wie bereits oben erwähnt, hängt das ausgewählte Modell J'V

von den Beobachtungsdaten Y ab und ist streng genommen ein zufälliges Modell

J'V = JV(Y). Deshalb kann man auf dieses Modell J'Vauch keine weitere statisti­

schen Verfahren (wie z.B. Tests oder Konstruktion von Konfidenzbereichen) an­

wenden, die nur für fest vorgebene (d.h. von Y unabhängige) Modelle gelten.

Page 153: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1

6. Asymptotische Resultate im Gauß-Markov-Modell

Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun­

gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um

exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der

Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese

Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo­

rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.

Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00

unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari­

ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J

obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J

muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge

(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J

au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J

formulieren.

Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y

J) multivariat nor­

malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()

und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi­

denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für

J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha­

ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor­

malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt

sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche

untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau

asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um­

fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,

wenn die Beobachtungen nicht normalverteilt sind.

Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend

in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell

als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie

sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we­

sentlichen Einblick in typische asymptotischen Schlußweisen liefern.

6. Asymptotische Resultate im Gauß-Markov-Modell 31.5.11 6-1

6. Asymptotische Resultate im Gauß-Markov-Modell

Tests und Konfidenzbereiche haben wir bisher nur für normalverteilte Beobachtun­

gen konstruiert, d.h. nur unter der Verteilungsannahme (NVY) handelt es sich um

exakte Tests und Konfidenzbereiche. Da man die Normalverteilungsannahme in der

Praxis nicht immer überprüfen kann oder will, stellt sich die Frage, inwieweit diese

Methoden zumindest approximativ gültig sind, wenn keine Normalverteilung vo­

rausgesetzt wird, aber dafür die Anzahl J der Beobachtungen "hinreichend groß" ist.

Formal betrachten wir hierzu eine Asymptotik mit wachsender Anzahl J ---+ 00

unabhängiger Beobachtungen Y1, ... , Y J' wobei wir an die Folge der zentrierten Vari­

ablen z. = Y. - f-L. noch eine Bedingung stellen werden. Bei normal verteilten Be-J J J

obachtungen ist Z. '""'"' N(O, CJ2) und die Z. sind sogar identisch verteilt. Im allgemeinen J J

muß das aber nicht der Fall sein und wir werden hier nur fordern, daß die Folge

(Z1 gleichgradig integrierbar ist. Für die asymptotischen Resultate benötigen wir J

au 'ßerdem noch eine Bedingung an die Covariablen-Folge (x .), die wir erst später J

formulieren.

Für normalverteilte Beobachtungen ist der Vektor Y = (Y1' ... , Y

J) multivariat nor­

malverteilt und hieraus ergab sich die Normalverteilung der Parameter-Schätzung ()

und die (skalierte) x2-Verteilung der Schätzung 52, auf denen die Tests und Konfi­

denzbereiche basierten. Eine asymptotische Verteilungsaussage über Y ist aber für

J ---+ 00 nicht möglich, weil die Dimension von Y mit J anwächst. Demgegenüber ha­

ben die Schätzer feste Dimensionen und wir werden zeigen, daß () asymptotisch nor­

malverteilt und 52 eine konsistente Schätzung für CJ2 ist. Mit diesen Ergebnissen läßt

sich das asmptotische Verhalten der t- und F-Tests sowie der Konfidenzbereiche

untersuchen. Es wird sich zeigen, daß die Tests und Konfidenzbereiche ihr Niveau

asymptotisch einhalten. In der Praxis bedeutet dies, daß bei nicht zu geringem Um­

fang J diese Tests und Konfidenzbereiche auch dann noch approximativ gültig sind,

wenn die Beobachtungen nicht normalverteilt sind.

Es sei darauf hingewiesen, daß die zentralen Ergebnisse dieses Kapitels weitgehend

in allgemeineren asymptotischen Resultaten für das Generalisierte Lineare Modell

als Spezialfall enthalten sind. Sie werden hier deshalb separat behandelt, weil sie

sich mit einfacheren Methoden vollständig herleiten lassen und bereits emen we­

sentlichen Einblick in typische asymptotischen Schlußweisen liefern.

Page 154: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik 10.6.11 6-2

6.1 Grundlagen der Asymptotik

Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be­

obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm

Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der

Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen

(Homogenität der Varianzen)

(EE)

(HVar)w

p,. = E(Y.) existiert ] ]

Var(Yj ) = 0-2 E(O,oo)

für alle j E W,

für alle j E W.

Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm

(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm

Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch

weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,

daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:

z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J

Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent­

lich schächere Momenten-Bedingung:

Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm

Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der

Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter­

schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der

Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):

Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm

Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun­

gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei­

nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt

6.1 Grundlagen der Asymptotik 10.6.11 6-2

6.1 Grundlagen der Asymptotik

Ausgangspunkt der asymptotischen Betrachtungen ist ein unendliche Folge von Be­

obachtungen (Y.). lI.T zusammen mit einer Covariablen-Folge (x.EIRS). lI.T" Der JJEm J JEm

Vollständigkeit halber formulieren wir als Grundvoraussetzung zunächst, daß der

Erwartungswert aller Beobachtungen existiert und ihre Varianzen übereinstimmen

(Homogenität der Varianzen)

(EE)

(HVar)w

p,. = E(Y.) existiert ] ]

Var(Yj ) = 0-2 E(O,oo)

für alle j E W,

für alle j E W.

Weiter fordern wir,daß Beobachtungen (Y.). lI.Tstochastisch unabhängig sind: JJEm

(Unab)W Die Folge (Y.). lI.Tist stochastisch unabhängig .. J JEm

Um später den Zentralen Grenzwertsatz anwenden zu können müssen wir noch

weitere Bedingungen an die Verteilungen stellen. Eine plausible Forderung wäre,

daß die zentrierten Beobachtungen identisch verteilt sind mit endlichen 4. Momenten:

z. = Y.- p,. sind identisch verteilt mit E(Z~) <00 für j E W. J J J J

Für die hier herzuleitende asymptotischen Resultate reicht allerdings eine wesent­

lich schächere Momenten-Bedingung:

Die Folge E([ Y.- p, .]4). lI.T ist beschränkt. J J JEm

Allerdings benötigen wir diese Bedingung nur zum Nachweis der Konsistenz der

Varianzschätzung 6.2. Für die asymptotische Normalverteilung der Parameter­

schätzung e reicht eine Bedingung über die gleichgradige Integrierbarkeit - die aus der

Momenten-Bedingung folgt (vgl. Billingsley 1968, p. 32):

Die Folge ([Y.- p,.]2). lI.T ist gleichgradig integrierbar. J J JEm

Für jeden festen Stichprobenumfang JE Werfüllen somit die ersten J Beobachtun­

gen die Bedingungen (Unab) und (HVar) aus Kapitel 1 und 2. Wir wollen nun ei­

nen Grenzprozeß mit wachsendem Stichprobenumfang J betrachten, den wir jetzt

Page 155: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik 10.6.11 6-3

aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für

n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir

allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies

zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über­

sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be­

fürchten sind. Insbesondere ist

(1) Y = (Yl, ... , Y ) E IR n

n n

der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova­

riablenmatrix

(2) T X = (xl' ... , x ) . n n

Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung

für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits

für n =5 voraussetzen:

Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5

Beobachtungen hat den Rang S.

Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen

wir folgende fundamentale Covariablen-Bedingung

(CB) 1.. XTX ) V, n n n n---+ 00

V ist nicht-singuläre 5x5-Matrix.

Unter Berücksichtigung von

T n T X X = 2: x.x. ,

n n . J J J=1

T X Y = 2: x.Y. n n . J J

J=1

n (3)

läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren

(CB) , 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo

V ist nicht-singuläre 5x5-Matrix.

Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei

denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,

daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä­

chung der Covariablen-Bedingung ausreichend ist.

6.1 Grundlagen der Asymptotik 10.6.11 6-3

aber (wie bei asymptotischen Betrachtungen üblich) mit n = J bezeichen und für

n ---+ 00 untersuchen. Im Zusammenhang mit dem Grenzprozess n ---+ 00 werden wir

allen bisherige Notationen mit dem zusätzlichen Index ))n" versehen, sofern dies

zum besseren Verständnis erforderlich ist. Allerdings wird aus Gründen der Über­

sicht dieser Index gelegentlich fortgelassen, wenn keine Mißverständnisse zu be­

fürchten sind. Insbesondere ist

(1) Y = (Yl, ... , Y ) E IR n

n n

der Beobachtungsvektor der ersten n Beobachtungen mit der zughörigen nx5-Cova­

riablenmatrix

(2) T X = (xl' ... , x ) . n n

Damit der Parameter () eindeutig bestimmt ist, wollen wir wieder die Rangbedingung

für alle n > 5 fordern, indem wir sie (ohne Einschränkung der Allgemeinheit) bereits

für n =5 voraussetzen:

Die 5x5-Covariablen-Matrix Xs = (xl' ... , xS ) T für die ersten 5

Beobachtungen hat den Rang S.

Für den Nachweis der Lindeberg-Bedingung im Zentraler Grenzwertsatz benötigen

wir folgende fundamentale Covariablen-Bedingung

(CB) 1.. XTX ) V, n n n n---+ 00

V ist nicht-singuläre 5x5-Matrix.

Unter Berücksichtigung von

T n T X X = 2: x.x. ,

n n . J J J=1

(3) n

T X Y = 2: x.Y. n n . J J

J=1 läßt sich die Covariablen-Bedingung äquivalent wie folgt formulieren

(CB) , V ist nicht-singuläre 5x5-Matrix. 1 n T - 2: x.x. ------tl V, n .=1 J J n---+oo

Am Ende dieses Abschnitts geben wir zwei Verfahren der Datenerhebung an, bei

denen die Covariablen- Bedingung erfüllt ist. Ausserdem werden wir noch sehen,

daß für die asymptotischen Resultate in den folgenden Abschnitten eine Abschwä­

chung der Covariablen-Bedingung ausreichend ist.

Page 156: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik 10.6.11 6-4

Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,

und da sie nicht singulär ist, folgt

(4) V ist positiv-definit.

Folglich ist (CB) auch äquivalent zu

(CB) " 1..X TX ----tl V, n n n n---+ 00

V ist positiv-definite SxS-Matrix.

Eine weitere äquivalente Fassung von (CB) ist

(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit

1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00

Aus (CB) ergibt sich sofort

(5)

Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell

voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:

(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I

der Folge ist positiv-definit.

Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an­

wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist

(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I

und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).

Und wichtige Folgerung aus (CB) zeigen wir noch

(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n

----tl O. n---+ 00

wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8

6.1 Grundlagen der Asymptotik 10.6.11 6-4

Die Matrix V ist als Grenzwert positiv-semi-definiter Matrizen positiv-semi-definit,

und da sie nicht singulär ist, folgt

(4) V ist positiv-definit.

Folglich ist (CB) auch äquivalent zu

(CB) " 1..X TX ----tl V, n n n n---+ 00

V ist positiv-definite SxS-Matrix.

Eine weitere äquivalente Fassung von (CB) ist

(CB)'" Für jedes O:;=cEIRS gibt es ein v>O mit

1.. cTX TX c = 1..IIX cl1 2 ) v. n n n n n n---+ 00

Aus (CB) ergibt sich sofort

(5)

Obwohl wir die Covariablen-Bedingung (CB) hier der Einfachheit halber generell

voraussetzen, wollen wir schon jetzt eine Abschwächung von (CB)" angeben:

(CB)* Die Folge (1.. X TX ) lI.T ist beschränkt und jeder Häufungspunkt n n n nEll'I

der Folge ist positiv-definit.

Wie wir noch sehen werden, reicht (CB)* als Voraussetzung für die wichtigsten an­

wendungsrelevanten Grenzwertsätze aus. Eine äquivalente Formulierung ist

(CB)*' Für jedes 0:;= cE IRS ist die Folge (1.. cTX TX c) lI.T beschränkt n n n nEll'I

und von Null wegbeschränkt (d.h. ihr Infimum ist> 0).

Und wichtige Folgerung aus (CB) zeigen wir noch

(6) 1 11 11 -·Max x r,;,n . J. max V'6 1 :::;J:::;n

----tl O. n---+ 00

wobei 11 c 11 = Max 1 c 1 die Maximum-Norm eines Vektors cE IRS ist. max 1 <8<S 8

Page 157: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik

Die Gültigkeit des Modells

T /-L.=x.() J J

10.6.11 6-5

für ein () E IRS und alle j E W ,

wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische

Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret

werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er­

wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums

(7)

ergibt sich als äquivalente Formulierung von (LM)W

(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n

Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein­

n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit

n

(8) für y = (Y1' ... , Y ) E IR n . n n

Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n

(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n

Die zugehörigen Zufallsvariablen

(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'

A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n

haben dann nach 4.4 folgende Erwartungswerte

(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '

E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln

Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartung­n

6.1 Grundlagen der Asymptotik

Die Gültigkeit des Modells

T /-L.=x.() J J

10.6.11 6-5

für ein () E IRS und alle j E W ,

wollen wir jedoch zunächst nicht generell voraussetzen, um auch das asymptotische

Verhalten der Schätzer untersuchen zu können, wenn das Modell nicht gilt. Konkret

werden wir die Gültigkeit des Modells (LM)W immer explizit als Voraussetzung er­

wähnen, wenn dies erforderlich ist. Unter Verwendung des Modellraums

(7)

ergibt sich als äquivalente Formulierung von (LM)W

(LM)']N /-L = (/-L1' ... , /-L ) E .At für alle n > S. n n n

Für jede Realisierung y von Y = (Y1' ... , Y ) ist der MQ-Schätzer von () für das n n n Modell.At - auch wenn das Modell nicht gilt - nach Abschnitt 4.3 (mit D als Ein­

n heitsmatrix) gegeben durch die lineare Funktion () : IR n -----+ IRSmit

n

(8) für y = (Y1' ... , Y ) E IR n . n n

Und die zugehörige lineare Schätzfunktion (i, : IR n -----+ IR n für /-L lautet dann n

(9) A ( ) _ X [X T X J -1 X T /-Ln y n - n n n n Y n für Y = (Y1' ... , Y ) E IR n . n n

Die zugehörigen Zufallsvariablen

(10) () = () (Y ) = [X T X J -1 X T Y (n) n n n n n n'

A = A (Y ) = X [X T X J -1 X T Y . /-L(n) /-Ln n n n n n n

haben dann nach 4.4 folgende Erwartungswerte

(11) E(()(n)) = ()n(/-Ln) = [X:XnJ-1X: /-Ln '

E( A) A ( ) = X [X T X J -1 X T = X () ( ). /-L(n) = /-Ln /-Ln n n n n /-Ln n n /-Ln

Wenn das Modell.At gilt, so sind diese Schätzer erwartungstreu. Die Erwartung­n

Page 158: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik 10.6.11 6-6

streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.

bzw. für alle nE W.

Schließlich ist die Schätzung für 0-2 gegeben durch

Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen

die Covariablen-Bedingung (CB)' gilt.

Zufällige Covariablen

Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn

eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die

Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design­

matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei­

nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen

sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge­

zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).

Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt

X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der

gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch

eine Stichprobe vom Umfang n aus der Verteilung von X.

- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X

n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls­

variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er­

gibt sich

(13) n

1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00

J= P-fast-sicher.

Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper­

bene des IRS liegt, d.h. wenn für jedes tE IRS gilt

(14) T-t X = 0 P-fast-sicher t = o.

Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit

6.1 Grundlagen der Asymptotik 10.6.11 6-6

streue von (i, ist sogar äquivalent zur Gültigkeit des Modells, d.h. zu (LM)W.

bzw. für alle nE W.

Schließlich ist die Schätzung für 0-2 gegeben durch

Abschließend wollen noch zwei Verfahren der Datenerhebung angeben, bei denen

die Covariablen-Bedingung (CB)' gilt.

Zufällige Covariablen

Wir betrachten jetzt eine eme Datenerhebung, bei der die Covariablen xl' ... , xn

eine Stichprobe vom Umfang n eines S-dimensionalen Zufallsvektors X sind (die

Bezeichnung X statt X wird hier verwendet, um Verwechselungen mit der Design­

matrix X zu vermeiden). Dies ist in zwei typischen Situationen der Fall. Wenn ei­

nerseits die Covariable vorgegeben werden (wovon wir bisher immer ausgegangen

sind), so werden sie in diesem Fall einfach zufällig gemäß der Verteilung von X "ge­

zogen", und dies ist eine allgemeine Form der Randomisierung (vgl. 5.1.2, 5.1.4).

Wenn aber andererseits die Covariablen wie in 1.1 beschrieben (dort mit X statt

X) auch Zufallsvariablen sind und zusammen mit der Zielvariablen zufällig aus der

gemeinsamen Verteilung von (Y,X) gezogen werden, so ist xl' ... , x n natürlich auch

eine Stichprobe vom Umfang n aus der Verteilung von X.

- -Zur formalen Beschreibung betrachten wir unabhängige Wiederholungen Xi, ... , X

n von X und untersuchen Covariablen-Bedingung (CB)', allerdings jetzt mit Zufalls­

variablen statt der Realisierungen. Aus dem starken Gesetz der großen Zahlen er­

gibt sich

(13) n

1 --T --T 2:= X. X. ) V: = E(X X ) n. 1 J J n---+ 00

J= P-fast-sicher.

Hierbei ist V genau dann positiv-definit, wenn X nicht P-fast-sicher in einer Hyper­

bene des IRS liegt, d.h. wenn für jedes tE IRS gilt

(14) T-t X = 0 P-fast-sicher t = o.

Anders formuliert ist V genau dann nicht positiv-definit, wenn es ein t :;= 0 gibt mit

Page 159: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.1 Grundlagen der Asymptotik 10.6.11 6-7

5 T- -

tX=2: tX =O 8=1 8 8

P-fast-sicher.

Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der

restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para­

metervektor () wäre nicht sinnvoll.

Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be­

dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine

Hyperebene des IRS konzentriert ist.

Endliche viele Covariablen

Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge

{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht

nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika­

torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten

und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari­

ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für

k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die

relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt

1n

T 1K

T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n

Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver­

schwinden, d.h. wenn

(16) für alle k = 1, ... , K

gilt, so folgt

(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l

Wegen K> S hat XK

nach (RB)s den Rang S und damit ist V positiv-definit und

die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist

z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn

(18) für alle k = 1, ... , Kund m E Wo

und in diesem Fall ist ck = l für alle k.

6.1 Grundlagen der Asymptotik 10.6.11 6-7

5 T- -

tX=2: tX =O 8=1 8 8

P-fast-sicher.

Dann wäre aber eine Komponente von X P-fast-sicher eine Linearkombination der

restlichen Komponenten und das lineare Modell mit einem S-dimensionalen Para­

metervektor () wäre nicht sinnvoll.

Zusammengefasst gilt also bei dieser Form der Datenerhebung die Covariablen-Be­

dingung (CB)' mit Wahrscheinlichkeit 1, wenn die Verteilung von X nicht auf eine

Hyperebene des IRS konzentriert ist.

Endliche viele Covariablen

Wir gehen jetzt davon aus, daß alle Covariablenvektoren aus einer endlichen Menge

{x(l)' ... , x(K)} C IRS frei gewählt werden können, was z.B. immer dann (aber nicht

nur dann) der Fall ist, wenn alle Komponenten des Covariablenvektor aus Indika­

torvariablen bestehen.( vgl. z.B. 3.2.3 und 3.3.3). Hierbei muss natürlich K > S gelten

und wir setzen ohne Beschränkung der Allgemeinheit voraus, daß alle K Covari­

ablenwerte bereits unter den ersten K Beobachtungen vorkommen, d.h. x k = x(k) für

k=l, ... ,K. Bezeichnet nk = # {j=1, ... , nl Xj=Xk } die absolute und cnk=nk/n die

relative Häufigkeit von x k unter den ersten n Covariablen xl' ... , X n' so gilt

1n

T 1K

T K T (15) - 2: x. x . - - 2: nk x k x k 2: C k x k x k . n j =1 J J n k=l k=l n

Wenn sich die relativen Häufigkeiten für wachsendes n stabilisieren und nicht ver­

schwinden, d.h. wenn

(16) für alle k = 1, ... , K

gilt, so folgt

(17) ~ .~ xjxT n-HX!) k~_l ck xkxJ = Xl Diag{c1, ... , cK} X K =: v. J=l

Wegen K> S hat XK

nach (RB)s den Rang S und damit ist V positiv-definit und

die Covariablen-Bedingung (CB)' gilt. Die hierfür hinreichende Bedingung (16) ist

z.B. dann erfüllt, wenn die Covariable zyklisch wiederholt werden, d.h. wenn

(18) für alle k = 1, ... , Kund m E Wo

und in diesem Fall ist ck = l für alle k.

Page 160: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-8

6.2 Asymptotische Verteilung der Schätzer

Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)

herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen­

ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des

S-dimensionalen Score-Vektors X T Y : n n

(ANS) 00

Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan­

dardisierte Fassung

(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\

in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man

die asymptotische Normalverteilung der Parameterschätzung

(ANP) 00

(ANP)

Vn [ O(n) - E(O(n)) ]

1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)

ci: ) N (0, l1s ). n---+ 00 S\

Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n

(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem

Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der

exakten Verteilungsaussagen im Normalverteilungs-Modell.

Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00

meterschätzung

(KP) P ----tl 0,

n---+ 00

aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät­

zung folgt

(KonP) Unter (LM)wgilt: P ----tl ()

n---+ 00 (Konsistenz von 0).

Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n

6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-8

6.2 Asymptotische Verteilung der Schätzer

Wir wollen zuerst die asymptotische Normalverteilung der Parameterschätzung O(n)

herleiten und setzen dafür zunächst nur die Abschwächung (GGI)W der Momen­

ten-Bedingung voraus. Als Erstes zeigen wir die asymptotische Normalverteilung des

S-dimensionalen Score-Vektors X T Y : n n

(ANS) 00

Unter Verwendung einer beliebigen Wurzel [X:XnJ 1/2 ergibt sich hieraus die stan­

dardisierte Fassung

(ANS) 1.. [XTX ]-1/2 X T[y -Jl] ci:) N(O,l1s ), a n n n n n n---+ 00 S\

in der die Limesmatrix V aus (CB) nicht mehr vorkommt. Als nächstes erhält man

die asymptotische Normalverteilung der Parameterschätzung

(ANP) 00

(ANP)

Vn [ O(n) - E(O(n)) ]

1.. [XTX ]T/2[0 -E(O )] a n n (n) (n)

ci: ) N (0, l1s ). n---+ 00 S\

Man beachte, daß für normalverteiltes Y die jeweils linken Seiten in (ANS) und n

(ANP) exakt die Standard-Normalverteilung des Grenzwertes haben. In diesem

Sinn sind diese Konvergenzaussagen eine asymptotische Verallgemeinerung der

exakten Verteilungsaussagen im Normalverteilungs-Modell.

Durch Multiplikation mit. ~ ---+ 0 ergibt sich aus (ANP) die Konvergenz der Para-v n 00

meterschätzung

(KP) P ----==------t) 0,

n---+ 00

aus der unter der Gültigkeit des Modells sofort die Konsistenz der Parameterschät­

zung folgt

(KonP) Unter (LM)wgilt: P ----tl ()

n---+ 00 (Konsistenz von 0).

Eine zu (ANP) analoge Aussage für die Schätzung (i, des Erwartungswerts Jl ist n n

Page 161: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-9

nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al­

lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung

von (L um seinen Erwartungswert angeben: n

(1) ci: 2 n---+oo) Xs ·

Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen

als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig­

keit des Modells:

(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo

(Konsistenz von 52).

Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)

die Standardabweichung a durch ihre Schätzung ersetzen:

(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n

ci: ) N (0, l1s )' n---+oo S\

(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .

Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa­

gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)

herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00

einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen

dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab­

schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische

Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver­

teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi­

stenz einer weiteren Teilfolge n" zu zeigen mit

(*)

Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit

-.1" [XTII X 11] -----+ V", n n n

V" positiv-definit.

Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung

von (ANP) auf die Teilfolge n" ergibt (*).

6.2 Asymptotische Verteilung der Schätzer 10.6.11 6-9

nicht möglich, weil dessen Dimension n unter der Asymptotik gegen 00 strebt. Al­

lerdings läßt sich die asymptotische Verteilung der (quadratischen) Abweichung

von (L um seinen Erwartungswert angeben: n

(1) ci: 2 n---+oo) Xs ·

Ab jetzt wollen wir auch die Momenten-Bedingung (MB)W voraussetzen und zeigen

als nächstes die Konsistenz der Varianzschätzung - allerdings nur unter der Gültig­

keit des Modells:

(Kon V) Unter (LM)wgilt: A2 P 2 a ) a n n---+oo

(Konsistenz von 52).

Insbesondere können wir - unter der Gültigkeit des Modells - in (ANS) und (ANP)

die Standardabweichung a durch ihre Schätzung ersetzen:

(ANSr Unter (LM)T'>Tgilt: ~ [X TX ]-1/2 X T [y - Jl ] ll'I a nn n n n

ci: ) N (0, l1s )' n---+oo S\

(ANP) A Unter (LM)wgilt: ~ [X TX ]T/2[O -()] ci: N (Oll ) a n n (n) n---+oo) S\' S .

Wie schon angekündigt, lassen sich die anwendungsrelevanten Konvergenzaussa­

gen auch bereits aus der Abschwächung (CB)* der Covariablen-Bedingung (CB)

herleiten. Mit Ausnahme der Konvergenzaussagen (ANS) und (ANP) - die als 00 00

einzige den Grenzwert V aus (CB) enthalten - lassen sich alle anderen Aussagen

dieses Abschnitts unter Verwendung des Teilfolgenkriteriums schon aus der Ab­

schwächung (CB)* herleiten. Wir zeigen dies exemplarisch für die asymptotische

Normalverteilung (ANP) des Parameters. Nach dem Teilfolgenkriterium für Ver­

teilungskonvergenz (vgl.Exkurs KV 1) ist für eine beliebige Teilfolge n' die Exi­

stenz einer weiteren Teilfolge n" zu zeigen mit

(*)

Nach (CB)* gibt es zur Teilfolge n' eine weitere konvergente Teilfolge n" mit

-.1" [XTII X 11] -----+ V", n n n

V" positiv-definit.

Für die Teilfolge n" gilt also die Covariablen-Bedingung (CB) und die Anwendung

von (ANP) auf die Teilfolge n" ergibt (*).

Page 162: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-10

6.3 Asymptotische Tests für Linearkombinationen

Wir betrachten jetzt wieder eine feste Linearkombination cT() des Parameters ()

mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben Rejerenzwert Co E IR (etwa

Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme

sind (vgl. auch Abschnitt 2.5.2)

(1)

(2)

TNullhypothese H=: c () = Co

TNullhypothese H<: c () < Co

vs.

vs.

Alternative H:;zt.: cT() :;= Co '

Alternative H>: cT() > co.

Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel­

len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM}j}J voraussetzen. Der

Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus­

setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er­

gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten

lassen, weil sie den Grenzwert V nicht enthalten.

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests

Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische

Normalverteilung der geschätzten Linearkombination cTO(n)

TA T

(1)c ()(n) - C () cf N(O, 1) mit)

acnn---+ 00

(2) 2 0-2 c T[X:Xn

J-1 c 00-cn n---+ 00

Ersetzt man die Varianz 0-2 durch ihre Schätzung 0- 2

, so erhält mann

(3) A 2 A 2 T [X TX J-10- =o-c c.cn n n n

Aus der Konsistenz der Schätzung 0- 2 ergibt sichn

(4)p

n---+ 001.

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-10

6.3 Asymptotische Tests für Linearkombinationen

Wir betrachten jetzt wieder eine feste Linearkombination cT () des Parameters ()

mit cE IRSund c:;= 0, die wir mit einem fest vorgegeben ReJerenzwert Co E IR (etwa

Co = 0) vergleichen wollen. Die zugehörigen zwei- bzw. einseitigen Testprobleme

sind (vgl. auch Abschnitt 2.5.2)

(1)

(2)

T Nullhypothese H=: c () = Co

T Nullhypothese H<: c () < Co

vs.

vs.

Alternative H:;zt.: cT () :;= Co '

Alternative H>: cT () > co.

Für die asymptotischen Resultate dieses Abschnitts wollen wir neben den generel­

len Voraussetzungen aus 6.1 auch die Gültigkeit des Modells (LM)W voraussetzen. Der

Einfachheit halber wollen wir weiterhin die Covariablen-Bedingung (CB) voraus­

setzen, obwohl sich mit der in 6.2 erläuterten "Teilfolgen-Argumentation" alle Er­

gebnisse dieses Abschnitts auch aus der schwächeren Bedingung (CB)* herleiten

lassen, weil sie den Grenzwert V nicht enthalten.

6.3.1 Die asymptotische Verteilung der Teststatistik des t-Tests

Aus der asymptotischen Normalverteilung von O(n) ergibt sich die asymptotische

Normalverteilung der geschätzten Linearkombination cTO(n)

TA T

(1) c ()(n) - C () L N(O, 1) mit

acn n---+ 00

(2) 2 a

2c

T [X:Xn

J-1 c 0 a cn n---+ 00

Ersetzt man die Varianz a 2 durch ihre Schätzung 0- 2 , so erhält man

n

(3) A 2 A 2 T [X TX J-1 a =ac c. cn n n n

Aus der Konsistenz der Schätzung 0- 2 ergibt sich n

(4) p

1. n---+ 00

Page 163: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-11

und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n

(5)n---+ 00

N(O,l) .

Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen

TA

(6) Tn

C ()(n) - CoA

acn

verhält sich asymptotisch wie folgt

(7) T cf N(O,l) für T) C () = co'n n---+ 00

(8) T P für T) -00 C () < Co 'n n---+ 00

(9) T P für T) +00 C () > Co .

n n---+ 00

6.3.2 Asymptotische Eigenschaften des t-Test

Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das

asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test

zum (nominellen) Niveau a ist

(1)

und unter Verwendung der Konvergenz der t-Quantile

(2) t ) zn - Si (X n---+ 00 (X

ergibt sich für n ---+ 00 die asymptotische Schärfe

(3) = { alPowoo(a) := lim pow(n)(a)2 n---+oo 2

unter

unter

H=." cT

() = Co

TH;;t:.'" c ():;= Co

}.

Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein

asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-11

und somit die zu (1) analoge Aussage mit der Schätzung ac n statt a c n

(5) n---+ 00

N(O,l) .

Die Teststatitistik aus 2.5.2 für die ersten n Beobachtungen

TA

(6) Tn

C ()(n) - Co A

acn

verhält sich asymptotisch wie folgt

(7) T L N(O,l) für T C () = co' n n---+ 00

(8) T P für T -00 C () < Co ' n n---+ 00

(9) T P für T +00 C () > Co .

n n---+ 00

6.3.2 Asymptotische Eigenschaften des t-Test

Wir wollen jetzt zeigen, daß der ein- bzw. zweiseitige t-Test aus Abschnitt 2.5 das

asymptotische Niveau a hat und konsistent ist. Die Schärfe des zweiseitigen t-Test

zum (nominellen) Niveau a ist

(1)

und unter Verwendung der Konvergenz der t-Quantile

(2) t ) Z n - Si (X n---+ 00 (X

ergibt sich für n ---+ 00 die asymptotische Schärfe

(3) = { al Powoo(a) : = lim pow(n)(a) 2 n---+oo 2

unter

unter

H=: cT

() = Co

T H;;t:: c ():;= Co

}.

Folglich konvergiert das Fehlerrisko 1. Art des zweiseitigen t-Test gegen a, d.h. sein

asymptotisches Niveau ist a. Ferner ist der zweiseitige t-Test konsistent, weil seine

Page 164: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.3 Asymptotische Tests für Linearkombinationen

Schärfe unter der Alternative H gegen 1 konvergiert.:;Z:

8.7.10 6-12

Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist

(4)

und konvergiert für n ---+ 00 gegen die asymptotische Schärfe

(5)fürfürfür

cT(} < CocT(} = CocT(} > Co }

Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT(}< Co ist

daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist

auch konsistent, weil seine Schärfe unter der Alternative H>: cT() > Co gegen 1 kon­

vergiert.

Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die

asymptotisch äquivalenten Gauß-Tests verwenden:

(6) Zweiseitiger Gauß-Test von H= vs. H:;z: zum asymptotischen Niveau a:

Ablehnung von H_

(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:

Ablehnung von H< T>z ,- Q

Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während

das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz

Sec. 27.2):

(8) z < tQ m,Q

für jedes a < ~ und mE lN.

6.3 Asymptotische Tests für Linearkombinationen

Schärfe unter der Alternative H gegen 1 konvergiert. :;Z:

8.7.10

Die Schärfe des einseitigen t-Tests zum (nominellen) Niveau a ist

(4)

und konvergiert für n ---+ 00 gegen die asymptotische Schärfe

(5) für für für

cT(} < Co cT(} = Co cT(} > Co

6-12

} Das maximale asymptotische Fehlerrisiko 1. Art für die Nullhypothese H<: cT

(}< Co ist

daher gleich a, d.h. der einseitige t-Test hat das asymptotische Niveau a. Er ist

auch konsistent, weil seine Schärfe unter der Alternative H >: cT () > Co gegen 1 kon­

vergiert.

Wegen die Quantilkonvergenz (2) kann man für großes n statt der t-Tests auch die

asymptotisch äquivalenten Gauß-Tests verwenden:

(6) Zweiseitiger Gauß-Test von H = vs. H:;z: zum asymptotischen Niveau a:

Ablehnung von H_

(7) Einseitiger Gauß-Test von H< vs. H> zum asymptotischen Niveau a:

Ablehnung von H< T>z , - Q

Die t-Tests haben jedoch gegenüber diesen Gauß-Tests den Vorteil, daß sie unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a haben, während

das Niveau der Gauß-Test in diesem Fall sogar > a ist, weil (vgl. Johnson €J Kotz

Sec. 27.2):

(8) für jedes a < ~ und mE lN. z < t Q m,Q

Page 165: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-13

6.3.3 Schärfeapproximation für den asymptotischen t-Test

Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al­

ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre­

ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap­

proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap­

proximation für den einseitigen Tests ist die Darstellung

(1)

(2)

(3)

pow~n)(a) = P{ Tn > tn-S

.a

},TA T

C ()(n) - C ()

TC ()- co

= p{ U +V > z - "( }n n - a n

(Nichtzentralität) .

mit

und

Aus der asymptotischen Verteilung von U und V

(4) U cf N(O, 1) ,-------+n

(5) V P

°-------+n

ergibt sich

(6) U±V cf N(O, 1) .-------+n n

Mit (1) ergibt sich als vorläufige Schärfe-Approximation

(7) für großes n

Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)

gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.

(8) für großes n.

Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation

(9) für großes n,

die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes

Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen­

der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-13

6.3.3 Schärfe approximation für den asymptotischen t-Test

Beim ein- bzw. zweiseitigen t-Test konvergiert die Schärfe unter der jeweiligen Al­

ternative für n ---+ 00 gegen 1. Dies ist zwar beruhigend, liefert aber für einen konkre­

ten Stichprobenumfang n keine Information. Wir wollen daher jetzt noch eine Ap­

proximation der Schärfe für "großes n" angeben. Ausgangspunkt der Schärfe-Ap­

proximation für den einseitigen Tests ist die Darstellung

(1) pow~n)(a) = P{ Tn > tn -S

.a } =p{U+V>z-l'} mit , n n - a n

TA T o-c n . tn- S·a (2) Un C (}(n) - C {}

Vn und z - , a

acn acn

T C {}- c

(3) I'n 0 (Nichtzentralität) .

acn

Aus der asymptotischen Verteilung von U und V

(4) U L N(O, 1) , -----+ n

(5) V P

° -----+ n

ergibt sich

(6) U±V L N(O, 1) . -----+ n n

Mit (1) ergibt sich als vorläufige Schärfe-Approximation

(7) für großes n

Da diese Approximation insbesondere auch im Normalverteilungsmodell (NVY)

gilt, läßt sich die in 2.5.3 hergeleitete exakte Schärfe ebenfalls so approximieren, d.h.

(8) für großes n.

Zusammen mit (7) ergibt sich daher als endgültige Schärfe-Approximation

(9) für großes n,

die für normalverteiltes Y sogar exakt ist. Anders formuliert: die für normalverteiltes

Y hergeleitete exakte Schärfe des einseitigen t-Tests liefert auch bei nicht vorliegen­

der Normalverteilung (unter den Voraussetzungen aus 6.1) für großes n eine Approxi-

Page 166: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-14

mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge­

genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung

gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):

Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der

Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht

vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert

(11) POw(2n)(a) ~ p{ F

1_ ("(2) > F

1-So }

,n S\ n ,n ,afür großes n.

6.3.4 Asymptotische Konfidenzbereiche

Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,

daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT()

(1)TA

c ()(n) - L1n (untere Grenze) bzw.

mit

cTO(n) + L1n (obere Grenze)

L1 =0- ·tn cn n-S,a

die asymptotische Sicherheit 1- ahaben, d.h. es gilt

(2)

(3)

n---+ 00

n---+ 00

1- a,

1- a.

Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()

(4)

(5)

{()EIRSIII()-O(n) lien <fan}

0- 2 ·S· Fn S,n-S,a'

mit

hat die asymptotische Sicherheit 1- a, d.h. es gilt

(6) ----+l 1-a.n---+ 00

6.3 Asymptotische Tests für Linearkombinationen 8.7.10 6-14

mation der Schärfe. Abschließend sei noch bemerkt, daß die Approximation (7) ge­

genüber (9) auch konservativer ist, weil für mE lN, "( > 0 und a < ~ die Abschätzung

gilt (vgl. z.B. das Skript G. Osius: Einführung in die Statistik, 16.1):

Und für den zweiseitigen t-Test liefert eine analoge Überlegung, daß die unter der

Normalverteilungsannahme (NVY) in 2.5.3 hergeleitete exakte Schärfe bei nicht

vorliegender Normalverteilung und großem n eine Approximation der Schärfe liefert

(11) POw(2n)(a) ~ p{ Pl

_ ("(2) > Pl

-So } ,n S\ n ,n ,a

für großes n.

6.3.4 Asymptotische Konfidenzbereiche

Aus der asymptotischen Verteilung der geschätzten Linearkombination ergibt sich,

daß die in 2.5.2 angegebenen Konfidenzgrenzen für cT ()

(1) T" c ()(n) - L1n (untere Grenze) bzw.

mit

die asymptotische Sicherheit 1- ahaben, d.h. es gilt

(2)

(3)

P { T()" ;\ T() } c (n) - L.Jn < c

P { T() T()" ;\} C < C (n) + L.Jn

n---+ 00

n---+ 00

cTO(n) + L1n (obere Grenze)

L1 =5 ·t n cn n-S,a

1- a,

1- a.

Auch der Konfidenzbereich aus 4.7.1 für den gesamten Parametervektor ()

(4)

(5)

{()EIRSIII()-O(n) lien <fan}

5 2 ·S·P n S,n-S,a'

hat die asymptotische Sicherheit 1- a, d.h. es gilt

(6) ----tl 1-a. n---+ 00

mit

Page 167: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.4 Asymptotische Tests für lineare Hypothesen 16.7.10 6-15

6.4 Asymptotische Tests für lineare Hypothesen

Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei­

lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate

auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab­

schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit

des Modells (LM}j}J voraus. Der Einfachheit halber wollen wir weiterhin die Covari­

ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil­

folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V

nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.

Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter­

vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stich­n

probenumfang n abhängt. Für einen linearen Teilraum f?TO

C lRS des Parameterrau-

mes mit

(1) S := Dirn f?T < So 0

betrachten wir daher die linearen Hypothesen

(LH) " Alternative H : () \t f?To.

Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Yn

nach 4.6.2 (7) gegeben durch

(2) mit

1.-Unter Verwendung des orthogonalen Komplements f?T

Ovon f?T

Oergibt sich das

Cn-orthogonale Komplement ~n von f?Tomit Exkurs SP 2 (10) zu

(3)

und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen

(4)

Zur Bestimmung der asymptotischen Verteilung von LiDev zeigen wir zunächstn

6.4 Asymptotische Tests für lineare Hypothesen 16.7.10 6-15

6.4 Asymptotische Tests für lineare Hypothesen

Nachdem wir bereits gesehen haben, daß der t-Test auch ohne die Normalvertei­

lungsannahme (NVY) asymptotisch korrekt ist, wollen wir die analogen Resultate

auch für den F-Test von linearen Hypothesen zeigen. Hierfür setzen in diesem Ab­

schnitt - neben den generellen Voraussetzungen aus 6.1 - auch wieder die Gültigkeit

des Modells (LM)W voraus. Der Einfachheit halber wollen wir weiterhin die Covari­

ablen-Bedingung (CB) voraussetzen, obwohl sich mit der in 6.2 erläuterten "Teil­

folgen-Argumentation" alle Ergebnisse dieses Abschnitts, die den Grenzwert V

nicht enthalten, auch aus der schwächeren Bedingung (CB)* herleiten lassen.

Die linearen Hypothesen formulieren wir hier unter Verwendung des Parameter­

vektors (), weil dieser im Gegensatz zum Erwartungsvektor Jl - nicht vom Stich­n

probenumfang n abhängt. Für einen linearen Teilraum f?TO

C lRS des Parameterrau-

mes mit

(1) S := Dirn f?T < S o 0

betrachten wir daher die linearen Hypothesen

(LH) " Alternative H : () \t f?To .

Unter der Nullhypothese ist die Schätzungen von () für den Beobachtungsvektor Y n

nach 4.6.2 (7) gegeben durch

(2) mit

~ Unter Verwendung des orthogonalen Komplements f?T

O von f?T

O ergibt sich das

Cn-orthogonale Komplement ~n von f?To mit Exkurs SP 2 (10) zu

(3)

und die Abweichung von der Nullhypothese läßt sich nach 4.6.2 (4), (9) darstellen

(4)

Zur Bestimmung der asymptotischen Verteilung von ~Dev zeigen wir zunächst n

Page 168: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

6.4 Asymptotische Tests für lineare Hypothesen 8.7.10 6-16

(5) °o(n)p P V ())

n---+ 00 fY '0

(6) 1.. L,Devp V 2

)11 () - p OT () 11 V 'n n n---+ 00 0'0

(7) 11 p;n (0 -()) 112 cf 2 2 mit L,FG = 5 - So.) a . Xl:o.FG0'ln (n) Cn n---+ 00

Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik

L,Dev 2

(8) Unter Ho: () E q-o gilt: F n cf Xl:o.FG- )-n 5 2 ·UG n---+ 00 UGn

(9) Unter H : () \t q-o gilt: Fp

) 00n n---+ 00

Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau

a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist

und unter Verwendung der Konvergenz der F-Quantile

(11) Fl:o.FG, n-S;a

1 2n---+ (0) MG· X l:o.FG,a '

ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests

(12)unter

unter

HO: () E q-o

H:()\tq-O}.

Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti­

sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al­

ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für

großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:

(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:

Ablehnung von Ho1 2~ L,Dev > X A DG .a ~ ,a

Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.

6.4 Asymptotische Tests für lineare Hypothesen 8.7.10 6-16

(5) °o(n) p P V ()

n---+ 00 fY ' 0

(6) 1.. L,Dev p V 2

) 11 () - p OT () 11 V ' n n n---+ 00 0''0

(7) 11 p;n (0 -()) 112 L 2 2 mit L,FG = 5 - So. ) a . Xl:o.FG 0'ln (n) Cn n---+ 00

Hieraus ergibt sich für die asymptotische Verteilung der F-Statistik

L,Dev 2

(8) Unter Ho: () E q-o gilt: F n L Xl:o.FG --

5 2 ·UG n n---+ 00 UG n

(9) Unter H : () \t q-o gilt: F p

) 00 n n---+ 00

Wir wollen jetzt zeigen, daß der F-Test aus Abschnitt 2.6 das asymptotische Niveau

a hat und konsistent ist. Die Schärfe des F-Test zum (nominellen) Niveau a ist

und unter Verwendung der Konvergenz der F-Quantile

(11) F l:o.FG, n-S;a

1 2 n---+ (0) MG· X l:o.FG,a '

ergibt sich für n ---+ 00 die asymptotische Schärfe des F-Tests

unter (12)

unter

HO: () E q-o

H:()\tq-O }.

Folglich konvergiert das Fehlerrisko 1. Art des F-Test gegen a, d.h. sein asymptoti­

sches Niveau ist a. Ferner ist der F-Test konsistent, weil seine Schärfe unter der Al­

ternative H gegen 1 konvergiert. - Wegen die Quantilkonvergenz (11) kann man für

großes n statt des F-Tests auch den asymptotisch äquivalenten Test verwenden:

(13) Deviance-Chiquadrat-Test zum asymptotischen Niveau a:

Ablehnung von Ho 1 2 ~ L,Dev > X A DG . a ~ ,a

Der F-Test hat jedoch gegenüber diesem Chiquadrat-Test den Vorteil, daß er unter

der Normalverteilungsannahme (NVY) sogar das exakte Niveau a hat.

Page 169: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Literatur

Literatur

16.7.10 L-1

Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses ver­wendet wurden. Weitere Literaturhinweise sind dort angegeben.

Statistik: allgemein

Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.

Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner.Braunschweig: Vieweg.

Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik,FB 3, Universität Bremen.

Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No.59, Universität Bremen.

Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.

Statistik: (lineare) Modelle

Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.

Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.

Miller, A.J. (1990). Subset Seleetion in Regression. Chapman and Hall, London.

Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.

Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.

Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.

Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag

Wahrscheinlichkeitstheorie

Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.

Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

Analysis, Lineare Algebra und N umerik

Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.

Fleming, W. (1977): Funetions of Several Variables. Berlin: Springer

Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.

Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2.Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.

Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter

Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer(Heidelberger Taschenbücher 105, 114).

Literatur 16.7.10 L-1

Literatur Die folgende Liste enthält nur Quellen, die auch zur Vorbereitung des Kurses ver­wendet wurden. Weitere Literaturhinweise sind dort angegeben.

Statistik: allgemein

Johnson, N.L., Kotz, S. (1970-72): Distributions in Statistics) Vol. 1-4. New York: Wiley.

Kinder, H.P., Osius, G., Timm, J. (1982): Statistik für Biologen und Mediziner. Braunschweig: Vieweg.

Osius, G. (2006): Einführung in die Statistik (Vorlesungsskript), Institut für Statistik, FB 3, Universität Bremen.

Osius, G. (2009): Statistik in den Naturwissenschaften. Mathematik Arbeitspapiere No. 59, Universität Bremen.

Rao, GR. (1973): Linear Statistical Inference and its Applications. New York: Wiley.

Statistik: (lineare) Modelle

Draper, N.R., Smith, H. (1967): Applied Regression Analysis. New York: Wiley.

Habermann, S.J. (1974): The Analysis of Frequency Data. Chicago: University Press.

Miller, A.J. (1990). Subset Selection in Regression. Chapman and Hall, London.

Schach, S., Schäfer, T. (1978): Regressions- und Varianzanalyse. Berlin: Springer.

Scheffe, H. (1959): The Analysis of Variance. New York: Wiley.

Seber, G.A.F. (1977): Linear Regression Analysis. New York: Wiley.

Toutenburg, H (2003): Lineare Modelle (2. Auflage).Heidelberg, Physica-Verlag

Wahrscheinlichkeitstheorie

Billingsley, P., (1968): Convergence of Probability Measures. New York: Wiley.

Billingsley, P., (1979, 2nd edition 1986): Probability and Measure. New York: Wiley

Gänssler, P., Stute, W. (1977): Wahrscheinlichkeitstheorie. Berlin: Springer.

Analysis, Lineare Algebra und N umerik

Dieudonne, J. (1960): Foundations of Modern Analysis. New York: Academic Press.

Fleming, W. (1977): Functions of Several Variables. Berlin: Springer

Fischer, W., Gamst, J., Horneffer, K. (1977,1981): Skript zur Analysis) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 4, 23. Universität Bremen.

Fischer, W., Gamst, J., Horneffer, K. (1983,1984): Skript zur Linearen Algebra) Bd. 1-2. Mathematik-Arbeitspapiere Nr. 14, 26. Universität Bremen.

Kowalsky, H.-J. (1972): Lineare Algebra. Berlin: W. de Gruyter

Stoer, J. (1983, 1978): Einführung in die Numerische Mathematik I) II. Berlin: Springer (Heidelberger Taschenbücher 105, 114).

Page 170: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Lineare Modelle in der Statistik 8.7.10 Index -1

Index

Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, andenen es erwähnt wird.

2-5

2-342-313-18

3-13 5-6 5-72-6 2-73-10

6-122-18 2-20

1-1 1-31-65-7

Gauß-Markov-ModellGauß-Markov-TheoremGauß-Testgeneralisierte InverseGewichtGewichtete Lineare Modellgewichtete minimale Quadrategewichtetes Gauß-Markov-Modell

4-2 4-4 4-81-8gewichtetes Varianz-Modell

Design-Matrix 1-6Deviance 2-9Deviance-Chiquadrat-Test 6-16Diagonale 3-3Dimensionsbedingungen 5-16direkte Parametrisierung 3-7Dispersions-Parameter 1-3 1-8doppelt-nichtzentrale F-Verteilung 4-21doppelt-nichtzentrale t- Verteilung 4-14Eeindimensionale Nullhypotheseeinfach-nichtzentrale F-Verteilungeinfache Covarianz-Analyseeinfache VarianzanalyseEinheitsvektoreinseitiger Gauß-Testeinseitiger t-TestEinzelbeobachtungErwartungs-Vektorexperimentelles Design

FF-Statistik 2-31 3-14 4-20 5-18 6-16F-Test 2-31 4-21 5-16 5-25 6-16Faktor 3-1 3-6 3-9 3-18 3-28Fehlerrisiko, asymptotisches 6-12Fehlervariable 1-1Fehlspezifikation 5-2 5-6 5-10FG 2-10Freiheitsgrad 4-6- des Modells 2-10Gg-InverseGauß-Markov-Covarianzstruktur

2-1 4-1 5-12-1 4-3

2-86-122-51-81-44-8

4-55-7

5-7 5-11

Covariablen-MatrixCovariablen-VektorCovarianz-Analyse- einfacheCovarianz-ModellDD-orthogonale ProjektionDesign, experimentellesDesign, randomisiertes

Aabsteigende sequentielle Testprozedur

5-264-1

4-1 4-3 4-92-31 4-20

5-14

Bedingtes Lineares ModellBeobachtungsvektorbesser (Schätzer)BestimmtheitsmaßBLUEBonferroni-KonfidenzintervalleBonferroni-UngleichungCCovariablen-Bedingung

6-3 6-5 6-9 6-10 6-151-6 2-11-1 1-6

3-193-181-8

Aitken-CovarianzstrukturAitken-ModellAnalyse der DevianceAnpassungstestAsymptotik-- wachsender Stichprobenumfang 6-2asymptotische Normalverteilung 6-8 6-10asymptotische Schärfe 6-11 6-16asymptotische Sicherheit 6-12asymptotische Verteilung 6-10 6-16asymptotischer Konfidenzbereich 6-14asymptotischer t-Test 6-12asymptotischer Test 6-12 6-16asymptotisches Fehlerrisiko 6-12asymptotisches Niveau 6-11 6-16aufsteigende sequentielle Testprozedur

5-25

BBedingte Normalverteilung 1-5bedingtes homogenes Varianzmodell 1-5Bedingtes Klassisches Lineares Modell

1-51-25-7 5-11

1-62-8

2-322-8

4-284-28

Lineare Modelle in der Statistik 8.7.10 Index -1

Index

Der Index enthält für jedes Stichwort nur die wichtigsten (nicht alle) Textstellen, an denen es erwähnt wird.

A absteigende sequentielle Testprozedur

5-26 Aitken-Covarianzstruktur Aitken-Modell

4-1 4-1 4-3 4-9

Analyse der Deviance 2-31 4-20 An passungstest 5-14 Asymptotik-- wachsender Stichprobenumfang 6-2 asymptotische Normalverteilung 6-8 6-10 asym ptotische Schärfe 6-11 6-16 asymptotische Sicherheit 6-12 asymptotische Verteilung 6-10 6-16 asymptotischer Konfidenzbereich 6-14 asym ptotischer t-Test 6-12 asym ptotischer Test 6-12 6-16 asym ptotisches Fehlerrisiko 6-12 asymptotisches Niveau 6-11 6-16 aufsteigende sequentielle Testprozedur

5-25

B Bedingte Normalverteilung 1-5 bedingtes homogenes Varianzmodell 1-5 Bedingtes Klassisches Lineares Modell

Bedingtes Lineares Modell Beobachtungsvektor besser (Schätzer) Bestimmthei tsmaß BLUE

1-5 1-25-7 5-11

1-6 2-8

2-32 2-8

Bonferroni-Konfidenzintervalle 4-28 Bonferroni-Ungleichung 4-28 C Covariablen-Bedingung

6-3 6-5 6-9 6-10 6-15

Design-Matrix 1-6 Deviance 2-9 Deviance-Chiquadrat-Test 6-16 Diagonale 3-3 Dimensionsbedingungen 5-16 direkte Parametrisierung 3-7 Dispersions-Parameter 1-3 1-8 doppelt-nichtzentrale F-Verteilung 4-21 doppelt-nichtzentrale t- Verteilung 4-14 E eindimensionale Nullhypothese 2-34 einfach-nichtzentrale F-Verteilung 2-31 einfache Covarianz-Analyse 3-18 einfache Varianzanalyse 3-13 5-6 5-7 Einheitsvektor 2-6 2-7 3-10 einseitiger Gauß-Test einseitiger t-Test Einzel b eo bach tung Erwartungs-Vektor experimentelles Design

F

6-12 2-18 2-20

1-1 1-3 1-6 5-7

F-Statistik F-Test Faktor

2-31 3-14 4-20 5-18 6-16 2-314-21 5-16 5-25 6-16

3-1 3-6 3-9 3-18 3-28 Fehlerrisiko, asymptotisches 6-12 Fehlervariable 1-1 Fehlspezifikation 5-2 5-6 5-10 FG 2-10 Freiheitsgrad 4-6 - des Modells 2-10 G g-Inverse 2-5 Gauß-Mar kov -Covarianzstruktur

2-1 4-1 5-1 Gauß-Markov -Modell

Covariablen-Matrix Covariablen-Vektor Covarianz-Analyse - einfache Covarianz-Modell D

1-6 2-1 Gauß-Markov-Theorem 1-1 1-6 Gauß-Test

2-1 4-3 2-8

6-12 2-5 1-8 1-4

D-orthogonale Projektion Design, experimentelles Design, randomisiertes

3-19 3-18 1-8

4-5 5-7

5-7 5-11

generalisierte Inverse Gewicht Gewichtete Lineare Modell gewichtete minimale Quadrate 4-8 gewichtetes Gauß-Markov-Modell

4-2 4-4 4-8 gewichtetes Varianz-Modell 1-8

Page 171: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

Lineare Modelle in der Statistik 8.7.10 Index - 2

3-23-263-19

4-23-152-212-21

1-8

5-321-3

4-22 6-15

2-103-24

3-13-1 3-4

2-3 4-52-9

5-3 5-6

2-3 2-14

5-7 5-115-65-7 5-11

5-71-72-4 6-3

2-4 5-33-8

2-265-10 5-11

2-52-9

5-195-20

2-92-9 4-7 5-19

5-31

2-216-11 6-16

2-35 4-24 3-164-156-134-314-30

SSchärfe- asymptotische- des F-Test- des t-TestSchärfeapproximationScheffe-IntervalleScheffe-Konfidenzintervalle

Qquadratische Form: Erwartungswertquadratisches Regressionsmodellqualitative Variablequantitative VariableRrandomisiertes DesignRandomisierungRandomisierungsverteilungRangbedingungRBReferenzstufeRegression- lineareRegressionsmodellResidual Sum of SquaresResiduenanalyseResiduenplotsResiduenvektorResiduumRückwärts-Suchverfahren

MQ-SchätzungNnichtzentrale t-Verteilung 2-172-20Nichtzentralität 2-17 2-20 2-30 6-13Niveau, asymptotisches 6-11 6-16Norm 4-5Normalen-Gleichung 2-4Normalverteilung 4-9- asymptotische 6-8 6-10Normalverteilungs-Annahme 2-2 5-1nulldimensionales Modell 2-28NVY 2-13 5-1oorthogonale Projektionorthogonales KomplementOrthogonalitätsbedingungPP-Level 2-17 2-18P-Wert 2-172-182-324-21Parametrisierung. direkte 3-7Polynom-Regressionsmodell 3-6 2-6Power 2-21

3-21-3 1-9 2-29

1-52-13

4-26 4-276-14

2-192-204-176-144-28

6-11 6-166-8 6-9

3-3 5-183-8

3-27

MMaximum-Likelihood 2-14 4-10Maximum-Likelihood-Schätzung 2-14 4-10Maximum-Norm 6-4Mindestumfang 3-17minimale Quadrate 2-3minimale Quadrate-Schätzung 2-3ML-Schätzung 2-14Modell, vollständiges 3-9Modell-Such-Verfahren 5-23 5-28Modellraum des Erwartungswerts 1-7

GewichtsfaktorenGruppenunterschiedeGüteGütefunktionGVarMHhierarchisches Modellhomogenes VarianzmodellHypothese, lineareIIndikatorvariableInteraktionIntra-Class-RegressionsmodelKKlassifizierungKlassisches Lineares Modell- bedingtesKLMKonfidenzbereich- asymptotischerKonfidenzgrenzeKonfidenzintervallkonsistentKonsistenzkonstantes ModellKontrast-ParametrisierungKrümmungs-ParameterLLH 4-194-24Likelihood 2-14Likelihood-Quotienten-Test 2-32lineare Hypothese 2-28 4-19 4-22 6-15lineare Regression 5-10 5-11lineares Modell 2-1- bedingtes 1-2 5-7 5-11- zufälliges 1-11-4 5-9 5-13lineares Regressionsmodell 3-6 3-19lineares Testproblem 2-28 4-19Linearkombination 2-19 6-10Linksinverse 2-4

Lineare Modelle in der Statistik

Gewichtsfaktoren 4-2 Gru ppenunterschiede 3-15 Güte 2-21 Gütefunktion 2-21 GVarM 1-8 H hierarchisches Modell 5-32 homogenes Varianzmodell 1-3 Hypothese, lineare 4-22 6-15 I Indikatorvariable 3-2 Interaktion 3-26 Intra-Class-Regressionsmodel 3-19 K Klassifizierung 3-2 Klassisches Lineares Modell 1-3 1-9 2-29 - bedingtes 1-5 KLM 2-13 Konfidenzbereich 4-26 4-27

8.7.10

MQ-Schätzung N

Index - 2

2-3 2-14

nichtzentrale t-Verteilung 2-172-20 Nichtzentralität 2-17 2-20 2-30 6-13 Niveau, asymptotisches 6-11 6-16 Norm 4-5 Normalen-Gleichung 2-4 Normalverteilung 4-9 - asym ptotische 6-8 6-10 Normalverteilungs-Annahme 2-2 5-1 nulldimensionales Modell 2-28 NVY 2-13 5-1 0 orthogonale Projektion 2-3 4-5 orthogonales Komplement 2-9 Orthogonali täts bedingung 5-3 5-6 P P-Level 2-17 2-18 P-Wert 2-172-182-324-21

- asym ptotischer Konfidenzgrenze Konfidenzintervall konsistent

6-14 Parametrisierung. direkte 3-7 2-19 2-20 4-176-14 Polynom-Regressionsmodell 3-6 2-6

4-28 Power 2-21 6-11 6-16 Q

Konsistenz 6-8 6-9 quadratische Form: Erwartungswert 2-10 konstantes Modell Kontrast-Parametrisierung Krümmungs-Parameter

3-3 5-18 quadratisches Regressionsmodell 3-24 3-8 qualitative Variable 3-1

3-27 quantitative Variable 3-1 3-4 L LH Likelihood

4-19 4-24 2-14

Likelihood-Quotienten-Test 2-32 lineare Hypothese 2-28 4-19 4-22 6-15 lineare Regression 5-10 5-11 lineares Modell 2-1 - bedingtes 1-2 5-7 5-11 - zufälliges 1-11-4 5-9 5-13 lineares Regressionsmodell 3-6 3-19 lineares Testproblem 2-28 4-19 Linearkombination 2-19 6-10 Linksinverse M

2-4

Maximum-Likelihood 2-14 4-10 Maximum-Likelihood-Schätzung 2-14 4-10 Maximum-Norm 6-4 Mindestumfang 3-17 minimale Quadrate 2-3 minimale Quadrate-Schätzung 2-3 ML-Schätzung 2-14 Modell, vollständiges 3-9 Modell-Such-Verfahren 5-23 5-28 Modellraum des Erwartungswerts 1-7

R randomisiertes Design Randomisierung Randomisierungsverteilung Rangbedingung RB Referenzstufe Regression - lineare Regressionsmodell Residual Sum of Squares Resid uenanalyse Residuen plots Resid uenvektor Residuum Rückwärts-Suchverfahren S Schärfe - asym ptotische - des F-Test - des t-Test Schärfeapproximation Scheffe-Intervalle Scheffe-Konfidenzintervalle

5-7 5-11 5-65-7 5-11

5-7 1-72-4 6-3

2-4 5-3 3-8

2-26 5-10 5-11

2-5 2-9

5-19 5-20

2-9 2-9 4-7 5-19

5-31

2-21 6-11 6-16

2-35 4-24 3-16 4-15 6-13 4-31 4-30

Page 172: Lineare Modelle in der Statistik - Uni Bremen || Startseiteosius/download/lehre/Skripte/LM/Osius-Linea... · geometrisch motivierte Methode der minimalen Quadrate verwendet und deren

1-81-71-81-8

6-116-124-154-153-223-14

6-12 6-165-23

2-17 2-19 4-13

Lineare Modelle in der Statistik

Score-Vektor 6-8sequentielle Testprozedur 5-23- absteigende 5-26- aufsteigende 5-25Sicherheit, asymptotische 6-14Signifikanzniveau 2-172-182-324-21Skalarprodukt 4-5Skalenparameter 1-3skaliertes Residuum 5-19SKLM 2-13Spur-Operator 2-10standardisiertes Residuum 5-20Streuungszerlegung 2-30 4-20 5-17Struktur-Matrix 1-6Stufe eines Faktors 3-2

Tt-Test- asymptotischer- einseitig- zweiseitigTafel der CovarianzanalyseTafel der VarianzanalyseTest, asymptotischerTestprozedur, sequentielleTeststatistikUUnAbUnabhängigkeitUnKorUnkorreliertheit

vVarianzanalyse, einfache

3-133-16 5-6 5-7verallgemeinerter Minimale Quadrate-

Schätzer 4-5verallgemeinerte Inverse 2-5 4-5Verteilung, asymptotische 6-16VMQ-Schätzer 4-5vollständiges Modell 2-28 3-6 3-9 3-10 3-30Vorwärts-Suchverfahren 5-30

WWechselwirkung 3-20 3-25 3-26 3-29Wechselwirkungsmodell 3-26 3-27Wurzel einer Matrix 4-3ZZentrierung 1-1Zufälliges Lineares Modell 1-11-4 5-9 5-13zweiseitiger Gauß-Test 6-12zweiseitiger t-Test 2-17 2-18 2-20 4-15

8.7.10 Index - 3Lineare Modelle in der Statistik

Score-Vektor 6-8 sequentielle Testprozedur 5-23 - absteigende 5-26 - aufsteigende 5-25 Sicherheit, asymptotische 6-14 Signifikanzniveau 2-172-182-324-21 Skalarprodukt 4-5 Skalenparameter 1-3 skaliertes Residuum 5-19 SKLM 2-13 Spur-Operator 2-10 standardisiertes Residuum 5-20 Streuungszerlegung 2-30 4-20 5-17 Struktur-Matrix 1-6 Stufe eines Faktors 3-2

T t-Test 6-11 - asym ptotischer 6-12 - einseitig 4-15 - zweiseitig 4-15 Tafel der Covarianzanalyse 3-22 Tafel der Varianzanalyse 3-14 Test, asym ptotischer 6-12 6-16 Testprozedur, sequentielle 5-23 Teststatistik 2-17 2-19 4-13 U UnAb 1-8 Unabhängigkeit 1-7 UnKor 1-8 Unkorreliertheit 1-8

V Varianzanalyse, einfache

3-133-16 5-6 5-7 verallgemeinerter Minimale Quadrate-

Schätzer 4-5 verallgemeinerte Inverse 2-5 4-5 Verteilung, asymptotische 6-16 VMQ-Schätzer 4-5 vollständiges Modell 2-28 3-6 3-9 3-10 3-30 Vorwärts-Suchverfahren 5-30

W Wechselwirkung 3-20 3-25 3-26 3-29 Wechselwirkungsmodell 3-26 3-27 Wurzel einer Matrix 4-3 Z Zentrierung 1-1 Zufälliges Lineares Modell 1-11-4 5-9 5-13 zweiseitiger Gauß-Test 6-12 zweiseitiger t-Test 2-17 2-18 2-20 4-15

8.7.10 Index - 3