forschungsstatistik ii prof. dr. g. meinhardt ss 2005 fachbereich sozialwissenschaften,...
TRANSCRIPT
Forschungsstatistik IIProf. Dr. G. Meinhardt
SS 2005
Fachbereich Sozialwissenschaften, Psychologisches Institut
Johannes Gutenberg Universität Mainz
KLW-24
2
Thema der Stunde
I. Die Form der Stichprobenkennwerteverteilung
II. Schlüsse von der Stichprobe auf die Population
III. t-Test für unabhängige und abhängige Stichproben
3
Stichprobenkennwerte
Population
Stichprobe des Umfangs Nx
Tue dies k - mal:
1 1 kx x x
Stichprobenmittelwerte sind erwartungstreue Schätzungen des Populationsparameters
Kennwert (Erwartungswert)
E x
Verteilung von Stichprobenmittelwerten
„Kennwerteverteilung“
Erwartungswert
E x
Die Kennwerteverteilung hat denselben Erwartungswert wie die Population, aus der die Stichproben gezogen wurden. Schätzstatistiken, die denselben Erwartungswert haben wie die Population, heissen erwartungstreu.
4
Stichprobenkennwerte
Population
Stichprobe des Umfangs N 2 2 21 2 ks s s
Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz
Varianz2
Verteilung von Stichprobenvarianzen
Erwartungswert der Stichprobenvarianzen
2 2
2 2
1
1
NE s
N
N
2s
Die Stichprobenvarianz unterschätzt die Populationsvarianz tendenziell
2 2
21
Bias E s
N
Tue dies k - mal:
5
Varianz der Stichprobenmittelwerte
Population
Stichprobe des Umfangs Nx
Tue dies k - mal:
1 1 kx x x
Verteilung von Stichprobenmittelwerten
„Kennwerteverteilung“
Varianz
22x N
Der Faktor 1/N bezieht die Populationsvarianz auf die Varianz der Stichprobenmittel
Varianz2
Für N = 1 sind beide Varianzen gleich
Für N geht die Varianz der Mittelwerte gegen Null.
6
Korrektur
Stichprobenvarianzen sind keine erwartungstreuen Schätzungen des Populationsvarianz
2 2 2 2 21xE s
N
Die Stichprobenvarianz berechnet aus korrigiertem Umfang N-1 ist eine erwartungstreue Schätzung der Populationsvarianz
Der Bias bei der Schätzung der Pop.Varianz aus der Stichprobenvarianz ist die Varianz der Stichprobenmittelwerte.
2 2 2 21 1NE s
N N
Korrektur:
22 2
1
1ˆ
1 1
N
ii
Ns x x
N N
7
Form der Verteilung von Mittelwerten
-15 -10 -5 0 5 10 15
0.00
0.05
0.10
Wah
rsch
ein
lich
keits
dic
hte
f (x)
x
x
Zentraler Grenzwertsatz:
Der zentrale Grenzwertsatz ermöglicht die Schätzung von Parametern unter Angabe statistischer Sicherheiten
Die Verteilung von Mittelwerten aus Stichproben der Größe N 30 geht mit wachsendem Stichprobenumfang in eine Normalverteilung über, unabhängig von der Verteilungsform der Werte in der Population.
[Math-Beispiel]
8
Konfidenzintervalle in der Verteilung der Mittelwerte
Konfidenzintervalle geben Intervalle um einen Kennwert an, in denen ein gesuchter Wert mit einer bestimmten WK liegt.
1. Man habe einen Mittelwert aus einer Stichprobe der Größe N vorliegen. In welchem Bereich um den Mittelwert kann man den Populationsparameter mit einer bestimmten Wahrscheinlichkeit erwarten ?
2. Der Populationsparameter sei bekannt. Mit welcher Wahrscheinlichkeit kann ein Mittelwert wie der beobachtete oder ein extremerer auftreten?
Fragestellungen:
1 / 2 1 / 2 1x xP x z x z
1 / 2 1 / 2 1x xP z x z
1.
2.
9
Hypothesen
Wissenschaftliche Vermutung über einen Sachverhalt
Hypothesen als Aussagen über Populationsparameter
Aussage Gegenaussage (komplementär)
A: Neue Unterrichtsmethode ist besser als die alte
A: Neue Unterrichtsmethode ist schlechter oder gleich gut
1 1 0:H Statistisch:
0 1 0:H (gerichtet)
1 1 0:H 0 1 0:H (ungerichtet)
10
Entscheidungsregeln (ungerichtet)
Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.
Vergleich mit kritischem Wert oder Signifikanzniveau
Regel 1 (Überschreitungswahrscheinlichkeit):
Wenn 0P z z verwerfe H0
Regel 2 (Kritischer Wert z1-/2):
Wenn 0 1 / 2z z verwerfe H0
Grundlage:
0 1 / 2
0 1 / 2
1P z z
P z z
11
Entscheidungsregeln (gerichtet)
Sei ein vorgegebenes Signifikanzniveau (Konvention: = 0.05)und z0 der beobachtete z- Wert.
Vergleich mit kritischem Wert oder Signifikanzniveau
Regel 1 (Überschreitungswahrscheinlichkeit):
Wenn 0P z z verwerfe H0
Regel 2 (Kritischer Wert z1-):
Wenn 0 1z z verwerfe H0
Grundlage:
0 1
0 1
1P z z
P z z
12
Fehler 1. und 2. Art
In der Population gilt
Hypothesenwahrscheinlichkeiten : bedingte WKn
Correct
Rejection
Miss
(Fehler 2. Art)
False Alarm
(Fehler 1. Art)
Hit
H0 H1
H0
H1
Entscheidung für 0 0HP H
1 0HP H 1 1HP H
0 1HP H
[Entscheidungsaufgabe]
t - Test
Prüfung des Mittelwerteunterschieds bei unabhängigen & abhängigen
Stichproben
14
Aufbau
1. Praktische Problemstellung
2. Logik der Schlussweise bei der Prüfungeines Mittelwertsunterschieds
3. Praktische Durchführung am Beispiel
15
Problemstellung
Anzahl der gefundenen Zielelemente in einem Konzentrationsleistungstest
(verhältnisskaliert)
Gruppierungsvariable Messgröße
Gibt es Unterschiede in der Leistung von Mädchen und Jungen?
Frage
Geschlecht
M J
16
Problemstellung
26.7 17.2
Geschlecht
M J
Wir untersuchen 20 Jungen und 20 Mädchen und berechnen Mittelwerte
Mx Jx M Jx x x
26.7 – 17.2 = 9.5
Gibt es „wirkliche“ Unterschiede in der Leistung von Mädchen und Jungen oder ist der gefundene Unterschied rein zufällig?
Frage
17
ModellvorstellungPopulation der Jungen
Stichprobe des Umfangs N
Jx
Population der Mädchen
Stichprobe des Umfangs N
Mx
Bilde Mittelwertsdifferenz
M Jx x x
Tue dies k - mal: 1 1 1M Jx x x
2 2 2M Jx x x k Mk Jkx x x
Verteilung der Differenzen von Mittelwerten
1 2 i kx x x x
18
Modellvorstellung
Verteilung der Differenzen von Mittelwerten
Annahme:
J M
Die Populationsmittelwerte von Jungen und Mädchen sind gleich
0x
Der Erwartungswert der Differenzen von Mittelwerten ist Null
1 1 0:H 0 1 0:H (ungerichtet)
19
Verteilung der Differenzen von Mittelwerten
-15 -10 -5 0 5 10 15
0.00
0.05
0.10
Wah
rsch
ein
lich
keits
dic
hte
f (x)
x0x
x
x
3 Festlegungen für die Verteilung:
2. Die sind normalverteilt (für NM+ NJ 50)
x1. Sie hat den Mittelwert 0
x 3. Sie hat eine Standardabweichung („Standardfehler“)
Wir können die Wahrscheinlichkeitsbestimmung vornehmen,wenn der Standardfehler bekannt istx
20
Bestimmung des Standardfehlers x
Annahme:
Ist die Messvariable eine in beiden Populationen unabhängige ZV:
2 2M J
xM JN N
Jungen und Mädchen kommen aus derselben Population2 2 2M J
2 1 1x
M JN N
21
Schätzung des Standardfehlers x
Für die Populationsvarianz verwendet man eine Schätzung aus den Daten beider Stichproben:
2 22ˆ
2M M J J
M J
N s N s
N N
wobei und die Stichprobenvarianzen sind2Ms 2
Js
2 2
ˆ 22 2
M Jx
s s
N
Für gleiche Stichprobenumfänge M JN N N gilt:
als beste Schätzung des Standardfehlers der Mittelwertsdifferenz
22
Prinzip der Testung
xTestung der Gültigkeit der „Nullhypothese“ über die Bestimmung der Auftretenswahrscheinlichkeit von in der theoretischen Verteilung der Differenzen vonMittelwerten mit dem Erwartungswert 0x
Fall 1: NM + NJ 50
x
x
xz
(standardnormalverteilt)
Fall 2: NM + NJ < 50
x
x
xt
(t – verteilt mit NM + NJ - 2Freiheitsgraden)
Fall 2: NM + NJ < 50
23
Prinzip der Testung (zweiseitig)
f t
-4 -2 2 4
0.1
0.2
-4 -2 2 4 t0
2.5%2.5%
95%x
xt
Prüfgrösse
Testen zum Signifikanzniveau : Ist |t| > t1-/2?
0.05 Signifikanzniveau
1 / 2P t t
1 / 2t 1 / 2t Annahmebereich
1 / 2t t Ablehnungsbereich
1 / 2t t Ablehnungsbereich
1 / 2t t
24
-3 -2 -1 1 2 3
0.1
0.2
0.3
0.4
-3 -2 -1 1 2 3
0.1
0.2
0.3
0.4
Die t- Verteilung
Kritische Werte sind bei der t- Verteilung im Vergleich zur N- Verteilung größer
1 / 2 2.23t
Normalverteilung
t- Verteilung mit df = 10
1 / 2 1.96z
Ablehnung der H0 erst bei größeren Werten der Prüfgröße
25
Prüfgröße und Entscheidung
Gilt die Nullhypothese M = J (bzw. = 0)
so ist
t - verteilt mit NM + NJ -2 Freiheitsgraden.
x
xt
Ist die Wahrscheinlichkeit einen extremeren Wert als den empirischent - Wert zu erhalten, kleiner oder gleich 5%, so sehen wir die Nullhypothese als zu unwahrscheinlich an und vermuten, dass ein wirklicher Mittelwertsunterschied in den Populationen besteht.
26
Entscheidung
1. Berechnex
xt
A. Gilt 1 / 2t t Ablehnung von H0
(die Mittelwerte der J. und M. sind signifikant verschieden)
3. Entscheide
B. Gilt Beibehalten von H0
(die Mittelwerte der J. und M. unterscheiden sich nur zufällig)
1 / 2t t
2. Ermittle kritischen t - Wert nach der t - Verteilung 1 / 2( )t
27
Praktische Berechnung
26.7 17.2
173 106
Mx Jx M Jx x x
26.7 – 17.2 = 9.5
2 2 173 106ˆ 2 2 3.48
2 2 46M J
x
s s
N
2Ms 2
Js
GeschlechtM J
24M JN N N
28
Praktische Entscheidung
1. Berechne9.5
2.733.48x
xt
Es gilt 1 / 2 : 2.73 2.024t t
Ablehnung von H0:
Die Wahrscheinlichkeit der gefundenen Mittelwertsdifferenz ist kleiner als 5%.
3. Entscheide
2. Ermittle kritischen t - Wert nach der t- Verteilung: ( = 0.05, df =38)
1 / 2 2.024t
Der Mittelwertsunterschied der Jungen und Mädchen ist signifikant
29
Voraussetzungen
des t- Tests für unabhängige Stichproben
1. Für N1 + N2 < 50 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)
2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen gleich (homogen) sein (Prüfung der geschätzen Populationsvarianzen auf Gleichheitmit F- Test.
3. Die Stichproben müssen unabhängig sein. (Messeinheiten untereinander und zwischen den Stichproben)
t- Test ist relativ robust, selten progressive Entscheidungen
30
Abhängige Stichproben
Eine Gruppe von Schülern wird trainiert.Vorher und nachher wird ein Leistungstest gemacht.
Sind die Schüler nach dem Training besser als vorher?
Frage
1 89 89 0
2 93 94 1
3 98 100 2
4 102 100 -2
5 99 102 3
6 106 110 4
7 117 112 -5
8 99 104 5
9 92 100 8
10 94 103 9
Nr Test 1 Test 2
2.5x 2 16.65s
2 1 Testung der H0:
31
Verteilung der Mittelwerte von Differenzen
0
x
-15 -10 -5 0 5 10 15
0.00
0.05
0.10
Wah
rsch
ein
lich
keits
dic
hte
f (x)
x
x
3 Festlegungen für die Verteilung:
2. Die sind normalverteilt (für N 30)
x1. Sie hat den Mittelwert 0
x
3. Sie hat eine Standardabweichung („Standardfehler“)
Standardfehler x
muss bestimmt werden
32
Schätzung des Standardfehlers x
Es gilt:
Aus Stichprobendaten:
ˆˆ x
N
2
21ˆ
1 1
N
ii
x xN s
N N
Standardfehler aus Stichprobendaten: ˆ1
x
s
N
Wobei N die Anzahl der Messwertpaare ist.
33
Prüfgröße und Entscheidung
Gilt die Nullhypothese 2 = 1 (bzw. = 0)
so ist
t - verteilt mit N - 1 Freiheitsgraden.
x
xt
Interpretation wie im Fall des t – Tests für unabhängige Stichproben
34
Voraussetzungen
des t- Tests für abhängige Stichproben
1. Für N < 30 müssen die Werte aus normalverteilten Populationen stammen(Prüfung der Stichprobenwerte auf Normalverteilung)
2. Die Populationsvarianzen, die beiden Stichproben zugrundeliegenmüssen nicht gleich (homogen) sein. (Allerdings verliert der Test an Teststärke für stark verschiedene Varianzen)
3. Bei hohen Korrelationen der beiden Stichproben und gleichenVarianzen ist der t- Test für abhängige Stichproben weit mehr teststark als der t- Test für unabhängige Stichproben.
[Tafelbeispiel für 2 und 3]