forschungsstatistik ii prof. dr. g. meinhardt ss 2005 fachbereich sozialwissenschaften,...

Forschungsstatistik IIProf. Dr. G. Meinhardt

SS 2005

Fachbereich Sozialwissenschaften, Psychologisches Institut

Johannes Gutenberg Universität Mainz

KLW-24

2

Thema der Stunde

I. Die Form der Stichprobenkennwerteverteilung

II. Schlüsse von der Stichprobe auf die Population

III. t-Test für unabhängige und abhängige Stichproben

3

Stichprobenkennwerte

Population

Stichprobe des Umfangs Nx

Tue dies k - mal:

1 1 kx x x

Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters

Kennwert (Erwartungswert)

E x

Verteilung von Stichprobenmittelwerten

„Kennwerteverteilung“

Erwartungswert

E x

Die Kennwerteverteilung hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu.

4

Stichprobenkennwerte

Population

Stichprobe des Umfangs N 2 2 21 2 ks s s

Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz

Varianz2

Verteilung von Stichprobenvarianzen

Erwartungswert der Stichprobenvarianzen

2 2

2 2

1

1

NE s

N

N

2s

Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell

2 2

21

Bias E s

N

Tue dies k - mal:

5

Varianz der Stichprobenmittelwerte

Population

Stichprobe des Umfangs Nx

Tue dies k - mal:

1 1 kx x x

Verteilung von Stichprobenmittelwerten

„Kennwerteverteilung“

Varianz

22x N

Der Faktor 1/N bezieht die Populationsvarianz auf die Varianz der Stichprobenmittel

Varianz2

Für N = 1 sind beide Varianzen gleich

Für N geht die Varianz der Mittelwerte gegen Null.

6

Korrektur

Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz

2 2 2 2 21xE s

N

Die Stichprobenvarianz berechnet aus korrigiertem Umfang N-1 ist eine erwartungstreue Schätzung der Populationsvarianz

Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte.

2 2 2 21 1NE s

N N

Korrektur:

22 2

1

1ˆ

1 1

N

ii

Ns x x

N N

7

Form der Verteilung von Mittelwerten

-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x

x

Zentraler Grenzwertsatz:

Der zentrale Grenzwertsatz ermöglicht die Schätzung von Parametern unter Angabe statistischer Sicherheiten

Die Verteilung von Mittelwerten aus Stichproben der Größe N 30 geht mit wachsendem Stichprobenumfang in eine Normalverteilung über, unabhängig von der Verteilungsform der Werte in der Population.

[Math-Beispiel]

8

Konfidenzintervalle in der Verteilung der Mittelwerte

Konfidenzintervalle geben Intervalle um einen Kennwert an, in denen ein gesuchter Wert mit einer bestimmten WK liegt.

1. Man habe einen Mittelwert aus einer Stichprobe der Größe N vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter mit einer bestimmten Wahrscheinlichkeit erwarten ?

2. Der Populationsparameter sei bekannt. Mit welcher Wahrscheinlichkeit kann ein Mittelwert wie der beobachtete oder ein extremerer auftreten?

Fragestellungen:

1 / 2 1 / 2 1x xP x z x z

1 / 2 1 / 2 1x xP z x z

1.

2.

9

Hypothesen

Wissenschaftliche Vermutung über einen Sachverhalt

Hypothesen als Aussagen über Populationsparameter

Aussage Gegenaussage (komplementär)

A: Neue Unterrichtsmethode ist besser als die alte

A: Neue Unterrichtsmethode ist schlechter oder gleich gut

1 1 0:H Statistisch:

0 1 0:H (gerichtet)

1 1 0:H 0 1 0:H (ungerichtet)

10

Entscheidungsregeln (ungerichtet)

Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.

Vergleich mit kritischem Wert oder Signifikanzniveau

Regel 1 (Überschreitungswahrscheinlichkeit):

Wenn 0P z z verwerfe H0

Regel 2 (Kritischer Wert z1-/2):

Wenn 0 1 / 2z z verwerfe H0

Grundlage:

0 1 / 2

0 1 / 2

1P z z

P z z

11

Entscheidungsregeln (gerichtet)

Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.

Vergleich mit kritischem Wert oder Signifikanzniveau

Regel 1 (Überschreitungswahrscheinlichkeit):

Wenn 0P z z verwerfe H0

Regel 2 (Kritischer Wert z1-):

Wenn 0 1z z verwerfe H0

Grundlage:

0 1

0 1

1P z z

P z z

12

Fehler 1. und 2. Art

In der Population gilt

Hypothesenwahrscheinlichkeiten : bedingte WKn

Correct

Rejection

Miss

(Fehler 2. Art)

False Alarm

(Fehler 1. Art)

Hit

H0 H1

H0

H1

Entscheidung für 0 0HP H

1 0HP H 1 1HP H

0 1HP H

[Entscheidungsaufgabe]

t - Test

Prüfung des Mittelwerteunterschieds bei unabhängigen & abhängigen

Stichproben

14

Aufbau

1. Praktische Problemstellung

2. Logik der Schlussweise bei der Prüfungeines Mittelwertsunterschieds

3. Praktische Durchführung am Beispiel

15

Problemstellung

Anzahl der gefundenen Zielelemente in einem Konzentrationsleistungstest

(verhältnisskaliert)

Gruppierungsvariable Messgröße

Gibt es Unterschiede in der Leistung von Mädchen und Jungen?

Frage

Geschlecht

M J

16

Problemstellung

26.7 17.2

Geschlecht

M J

Wir untersuchen 20 Jungen und 20 Mädchen und berechnen Mittelwerte

Mx Jx M Jx x x

26.7 – 17.2 = 9.5

Gibt es „wirkliche“ Unterschiede in der Leistung von Mädchen und Jungen oder ist der gefundene Unterschied rein zufällig?

Frage

17

ModellvorstellungPopulation der Jungen

Stichprobe des Umfangs N

Jx

Population der Mädchen

Stichprobe des Umfangs N

Mx

Bilde Mittelwertsdifferenz

M Jx x x

Tue dies k - mal: 1 1 1M Jx x x

2 2 2M Jx x x k Mk Jkx x x

Verteilung der Differenzen von Mittelwerten

1 2 i kx x x x

18

Modellvorstellung


Annahme:

J M

Die Populationsmittelwerte von Jungen und Mädchen sind gleich

0x

Der Erwartungswert der Differenzen von Mittelwerten ist Null

1 1 0:H 0 1 0:H (ungerichtet)

19


-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x0x

x

x

3 Festlegungen für die Verteilung:

2. Die sind normalverteilt (für NM+ NJ 50)

x1. Sie hat den Mittelwert 0

x 3. Sie hat eine Standardabweichung („Standardfehler“)

Wir können die Wahrscheinlichkeitsbestimmung vornehmen,wenn der Standardfehler bekannt istx

20

Bestimmung des Standardfehlers x

Annahme:

Ist die Messvariable eine in beiden Populationen unabhängige ZV:

2 2M J

xM JN N

Jungen und Mädchen kommen aus derselben Population2 2 2M J

2 1 1x

M JN N

21

Schätzung des Standardfehlers x

Für die Populationsvarianz verwendet man eine Schätzung aus den Daten beider Stichproben:

2 22ˆ

2M M J J

M J

N s N s

N N

wobei und die Stichprobenvarianzen sind2Ms 2

Js

2 2

ˆ 22 2

M Jx

s s

N

Für gleiche Stichprobenumfänge M JN N N gilt:

als beste Schätzung des Standardfehlers der Mittelwertsdifferenz

22

Prinzip der Testung

xTestung der Gültigkeit der „Nullhypothese“ über die Bestimmung der Auftretenswahrscheinlichkeit von in der theoretischen Verteilung der Differenzen vonMittelwerten mit dem Erwartungswert 0x

Fall 1: NM + NJ 50

x

x

xz

(standardnormalverteilt)

Fall 2: NM + NJ < 50

x

x

xt

(t – verteilt mit NM + NJ - 2Freiheitsgraden)

Fall 2: NM + NJ < 50

23

Prinzip der Testung (zweiseitig)

f t

-4 -2 2 4

0.1

0.2

-4 -2 2 4 t0

2.5%2.5%

95%x

xt

Prüfgrösse

Testen zum Signifikanzniveau : Ist |t| > t1-/2?

0.05 Signifikanzniveau

1 / 2P t t

1 / 2t 1 / 2t Annahmebereich

1 / 2t t Ablehnungsbereich

1 / 2t t Ablehnungsbereich

1 / 2t t

24

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

-3 -2 -1 1 2 3

0.1

0.2

0.3

0.4

Die t- Verteilung

Kritische Werte sind bei der t- Verteilung im Vergleich zur N- Verteilung größer

1 / 2 2.23t

Normalverteilung

t- Verteilung mit df = 10

1 / 2 1.96z

Ablehnung der H0 erst bei größeren Werten der Prüfgröße

25

Prüfgröße und Entscheidung

Gilt die Nullhypothese M = J (bzw. = 0)

so ist

t - verteilt mit NM + NJ -2 Freiheitsgraden.

x

xt

Ist die Wahrscheinlichkeit einen extremeren Wert als den empirischent - Wert zu erhalten, kleiner oder gleich 5%, so sehen wir die Nullhypothese als zu unwahrscheinlich an und vermuten, dass ein wirklicher Mittelwertsunterschied in den Populationen besteht.

26

Entscheidung

1. Berechnex

xt

A. Gilt 1 / 2t t Ablehnung von H0

(die Mittelwerte der J. und M. sind signifikant verschieden)

3. Entscheide

B. Gilt Beibehalten von H0

(die Mittelwerte der J. und M. unterscheiden sich nur zufällig)

1 / 2t t

2. Ermittle kritischen t - Wert nach der t - Verteilung 1 / 2( )t

27

Praktische Berechnung

26.7 17.2

173 106

Mx Jx M Jx x x

26.7 – 17.2 = 9.5

2 2 173 106ˆ 2 2 3.48

2 2 46M J

x

s s

N

2Ms 2

Js

GeschlechtM J

24M JN N N

28

Praktische Entscheidung

1. Berechne9.5

2.733.48x

xt

Es gilt 1 / 2 : 2.73 2.024t t

Ablehnung von H0:

Die Wahrscheinlichkeit der gefundenen Mittelwertsdifferenz ist kleiner als 5%.

3. Entscheide

2. Ermittle kritischen t - Wert nach der t- Verteilung: ( = 0.05, df =38)

1 / 2 2.024t

Der Mittelwertsunterschied der Jungen und Mädchen ist signifikant

29

Voraussetzungen

des t- Tests für unabhängige Stichproben

1. Für N1 + N2 < 50 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)

2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen gleich (homogen) sein (Prüfung der geschätzen Populationsvarianzen auf Gleichheitmit F- Test.

3. Die Stichproben müssen unabhängig sein. (Messeinheiten untereinander und zwischen den Stichproben)

t- Test ist relativ robust, selten progressive Entscheidungen

30

Abhängige Stichproben

Eine Gruppe von Schülern wird trainiert.Vorher und nachher wird ein Leistungstest gemacht.

Sind die Schüler nach dem Training besser als vorher?

Frage

1 89 89 0

2 93 94 1

3 98 100 2

4 102 100 -2

5 99 102 3

6 106 110 4

7 117 112 -5

8 99 104 5

9 92 100 8

10 94 103 9

Nr Test 1 Test 2

2.5x 2 16.65s

2 1 Testung der H0:

31

Verteilung der Mittelwerte von Differenzen

0

x

-15 -10 -5 0 5 10 15

0.00

0.05

0.10

Wah

rsch

ein

lich

keits

dic

hte

f (x)

x

x

3 Festlegungen für die Verteilung:

2. Die sind normalverteilt (für N 30)

x1. Sie hat den Mittelwert 0

x

3. Sie hat eine Standardabweichung („Standardfehler“)

Standardfehler x

muss bestimmt werden

32

Schätzung des Standardfehlers x

Es gilt:

Aus Stichprobendaten:

ˆˆ x

N

2

21ˆ

1 1

N

ii

x xN s

N N

Standardfehler aus Stichprobendaten: ˆ1

x

s

N

Wobei N die Anzahl der Messwertpaare ist.

33

Prüfgröße und Entscheidung

Gilt die Nullhypothese 2 = 1 (bzw. = 0)

so ist

t - verteilt mit N - 1 Freiheitsgraden.

x

xt

Interpretation wie im Fall des t – Tests für unabhängige Stichproben

34

Voraussetzungen

des t- Tests für abhängige Stichproben

1. Für N < 30 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)

2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen nicht gleich (homogen) sein. (Allerdings verliert der Test an Teststärke für stark verschiedene Varianzen)

3. Bei hohen Korrelationen der beiden Stichproben und gleichenVarianzen ist der t- Test für abhängige Stichproben weit mehr teststark als der t- Test für unabhängige Stichproben.

[Tafelbeispiel für 2 und 3]

forschungsstatistik ii prof. dr. g. meinhardt ss 2005 fachbereich sozialwissenschaften,...

Documents