statistische tests (signi kanztests) · statistische tests (signi kanztests) [testing statistical...

Statistische Tests (Signifikanztests)

[testing statistical hypothesis]

Prufen und Bewerten von Hypothesen (Annahmen,

Vermutungen) uber die Verteilungen von Merkmalen in einer

Grundgesamtheit (Population) auf der Basis vorliegender

Stichproben, die aus dieser Grundgesamtheit gezogen wurden.

Hypothesen uber die Verteilungen in der Grundgesamtheit

beziehen sich z.B. auf

– Parameter (z.B. Durchschnittswert, Median, Varianz),

– die Verteilungsfunktion insgesamt (z.B. deren Form),

– die Unabhangigkeit,

– die Starke bzw. die Form einer Abhangigkeit ...

1

Beispiel (Korpergroße von 10–jahrigen Kindern):

Merkmal(e) Annahme fur die Grundgesamtheit

Korpergroße Die mittlere Korpergroße ist gleich 145 cm.

Korpergroße Die mittlere Korpergroße ist kleiner als 145 cm.

Korpergroße Die Korpergroße lasst sich durch eine

normalverteilte Zufallsvariable beschreiben.

Korpergroße, Die beiden Merkmale sind unabhangig.

Geschlecht

Korpergroße, Die Korpergroße hangt vom Alter

Alter ab, wobei die Abhangigkeit durch eine

Funktion der Art

Korpergroße = a · Alter + b

(lineare Funktion) beschrieben wird.

2

Fiktiver Dialog:

A:”Ich glaube, dass Kinder in diesem Alter im Durchschnitt

145 cm groß sind.“

B:”Wir haben Ergebnisse einer Erhebung mit Angaben von

200 Kindern in diesem Alter, und da lag die durchschnittliche

gemessene Große bei 143.7 cm.“

A:”Na und? Das war bestimmt Zufall! Nimm andere Kinder in

diesem Alter, und dann erhaltst Du etwa den Wert 145 cm.“

Frage: Sind die 1.3 cm Differenz nun Resultat einer

geringeren mittleren Korpergroße in der Grundgesamtheit

oder sind sie nur zufalliges Resultat der Stichprobenziehung

aus der Grundgesamtheit?

3

Wir wollen also folgende Hypothese auf der Basis der uns

vorliegenden Daten von 200 Kindern uberprufen:

Die durchschnittliche Korpergroße aller Kinder in

der Grundgesamtheit betragt 145 cm.

1. Formulierung der Hypothesen:

Vergleich des Durchschnittswertes (Erwartungswertes) µX der

Zufallsvariable X, die die Korpergroße von – rein zufallig

ausgewahlten – 10–jahrigen Kindern aus der

Grundgesamtheit beschreibt, mit einem hypothetisch

unterstellten Durchschnittswert µ0 = 145.

4

Formulieren zweier sich gegenseitig ausschließender Hypothesen:

H0 . . . Nullhypothese [null hypothesis]

HA . . . Alternativhypothese [alternative hypothesis]

H0 : µX = µ0 = 145 (Nullhypothese)

mogliche Alternativhypothesen HA zur Nullhypothese H0

sind z.B.:

HA : µX 6= µ0 = 145 (zweiseitige Alternative)

HA : µX < µ0 = 145 (einseitige Alternative)

Eine einseitige Alternative wird benutzt, wenn es eine

interessierende Richtung der Abweichung von H0 gibt.

5

2. Festlegung des Signifikanzniveaus [level of

significance] α:

Wir legen die Irrtumswahrscheinlichkeit fest, mit der wir die

Nullhypothese falschlicherweise ablehnen, obwohl sie wahr ist.

Ubliche Werte: α zwischen 0.1 und 0.005

Wir wahlen im Beispiel α = 0.05.

6

3. Aufstellen einer Testgroße [test statistic] T :

Die Testgroße ist eine Stichprobenfunktion, deren Verteilung

unter der Annahme, dass H0 wahr ist, (zumindest

naherungsweise) bekannt sein muss.

Fur AnwenderInnen:

– bekannte Tests aus der Literatur.

– Fragen Sie Ihre Statistikerin oder Ihren Statistiker.

Wichtig: Auswahl eines fur die Daten (Skalenniveau)

und die Fragestellung geeigneten Testverfahrens.

Haufig setzt die Anwendung eines Testverfahrens weitere

Modellannahmen voraus, uber die nachzudenken ist, und die

zunachst untersucht und evtl. auch getestet werden sollten.

7

Im Beispiel: Anwendung des einfachen t–Tests

(SPSS: Analysieren → Mittelwerte vergleichen

→ T–Test bei einer Stichprobe).

Testvoraussetzungen:

– X normalverteilt oder

– Stichprobenumfang n hinreichend groß (n > 30)

Testgoße T fur einfachen t–Test:

T =X − µ0SX

·√n

8

Wenn die Voraussetzungen erfullt sind und H0 richtig ist,

dann gilt (zumindest naherungsweise) fur eine entsprechende

mathematische Stichprobe:

T ist t–verteilt mit n− 1 Freiheitsgraden.

Fur die konkrete Stichprobe erhalten wir

x = 143.7

sX = 7.223

n = 200

Unter der gewahlten Nullhypothese H0 gilt µ0 = 145, und fur

die konkrete Testgroße ergibt sich demnach

t = −2.545

9

4. Ermittlung der Uberschreitungswahrscheinlichkeit

[p-value] (p–Wert):

Ist H0 wahr (ist µ0 also der wahre Erwartungswert), so sollte

die konkrete Stichprobe einen Wert t der Testgroße in der

Nahe von 0 ergeben (x ≈ µ0).

Daher ist H0 abzulehnen, wenn der Wert t”weit weg“ von 0

in Richtung auf HA liegt.

10

Wird die zweiseitige Alternativhypothese HA : µX 6= µ0 = 145

verwendet, dann sind Abweichungen des beobachteten

Durchschnittswerts x von µ0 = 145 nach oben und nach

unten zu berucksichtigen, und die Uberschreitungs-

wahrscheinlichkeit

P (|T | ≥ |t|) = P (T ≤ −|t|) + P (T ≥ |t|)

muss ermittelt werden.

Auf Grund der Symmetrie der t–Verteilung gilt

P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)

11

Wird die einseitige Alternativhypothese HA : µX < µ0 = 145

verwendet, dann ist nur die Abweichung des beobachteten

Durchschnittswerts x von µ0 = 145 nach unten zu

berucksichtigen und

P (T ≤ t)

zu ermitteln.

12

SPSS berechnet beim einfachen t–Test die

Uberschreitungswahrscheinlichkeit

P (|T | ≥ |t|) = 2 · P (T ≤ −|t|) = 2 · P (T ≥ |t|)

fur die zweiseitige Alternative HA : µX 6= µ0 unter der

Bezeichnung Sig. (2-seitig).

Im Beispiel erhalten wir

P (|T | ≥ |−2.545|) = P (|T | ≥ 2.545)

= 0.012

13

Will man die einseitige Alternative HA : µX < µ0 = 145

verwenden, so ist zur Ermittlung der zugehorigen

Uberschreitungswahrscheinlichkeit P (T ≤ t) der von SPSS

ausgegebene Wert zu halbieren, falls t negativ ist.

Ist t positiv, so gilt P (T ≤ t) ≥ 0.5.

Im Beispiel erhalten wir wegen t = −2.545 < 0

P (T ≤ −2.545) =1

2· P (|T | ≥ 2.545)

=1

2· 0.012

= 0.006

14

Allgemein:

Ablehnung von H0, wenn der Wert der Testgroße t”weit

weg“ (im Hinblick auf HA) von den unter H0 typischen

Werten von T liegt.

Typische Werte der Verteilung der Testgroße haben große

Einzelwahrscheinlichkeiten bzw. große Werte der Dichte.

15

5. Anwendung der Entscheidungsregel:

Ist die ermittelte Uberschreitungswahrscheinlichkeit (p–Wert)

kleiner oder gleich dem gewahlten Signifikanzniveau α, so

wird die Nullhypothese H0 abgelehnt.

Im anderen Falle ist gegen H0 nichts einzuwenden.

16

Damit wird H0 : µX = µ0 = 145 bei Verwendung der zwei-

seitigen Alternativhypothese HA : µX 6= µ0 = 145 und des

Signifikanzniveaus α = 0.05 abgelehnt, denn fur den

p–Wert gilt

P (|T | ≥ |t|) = 0.012 ≤ 0.05 = α

H0 wird naturlich auch bei Verwendung der einseitigen

Alternativhypothese HA : µX < µ0 = 145 abgelehnt, denn fur

den zugehorigen p–Wert gilt

P (T ≤ t) =1

2· 0.012 = 0.006 ≤ 0.05 = α

17

Im betrachteten Beispiel ist also die Wahrscheinlichkeit

zufallig in einer Stichprobhe eine Abweichung von mindestens

1.3 cm nach oben oder nach unten vom hypothetisch

unterstellten Durchschnittswert µ0 = 145 zu erleben nur

0.012.

Wenn also die Nullhypothese gilt, ist das nur in 1.2% aller

Falle bei mathematischen Stichproben vom Umfang n = 200

zu erwarten.

Bei dem gewahlten Signifikanzniveau von α = 0.05 fuhrt das

zur Ablehnung der Nullhypothese. Hatten wir dagegen ein

Signifikanzniveau α = 0.01 – also eine kleinere

Irrtumwahrscheinlichkeit – verwendet, so wurde das nicht zur

Ablehnung von H0 fuhren.

18

6. Mogliche Fehlentscheidungen:

Bei der Verwendung der Nullhypothese H0 und der

Alternativhypothese HA gibt es zwei mogliche

Fehlentscheidungen.

Fehler erster Art [type I error]:

Die Nullhypothese H0 wird abgelehnt, obwohl sie richtig ist.

Fehler zweiter Art [type II error]:

Die Nullhypothese H0 wird nicht abgelehnt, obwohl die

Alternativhypothese HA richtig ist.

19

Die verwendete Entscheidungsregel fur einen

Signifikanztest zum Signifikanzniveau α

sichert, dass eine wahre Nullhypothese H0 hochstens mit

Wahrscheinlichkeit α abgelehnt wird.

Die Wahrscheinlichkeit fur einen Fehler erster Art ist

also stets kleiner oder gleich α,

denn die Uberschreitungswahrscheinlichkeit wird unter der

Annahme berechnet, dass H0 wahr ist.

20

Die Wahrscheinlichkeit einen Fehler zweiter Art zu begehen

ist bei einem Signifikanztest i.a. nur sehr schwierig oder gar

nicht ermittelbar, denn die Verteilung von T ist unter der

Alternativhypothese in vielen Fallen nicht bekannt.

Problem: Reduziert man die Wahrscheinlichkeit fur den

Fehler erster Art (durch ein kleineres α), so vergroßert sich

die Wahrscheinlichkeit fur Fehler zweiter Art, und umgekehrt.

In welchem Maße dies geschieht, ist i.a. unbekannt.

21

Bei einem sehr kleinen α wird H0 nur abgelehnt, wenn man

sich sehr sicher ist, dass die Ablehnung richtig ist. Dann

haben wir jedoch eine große Wahrscheinlichkeit fur den

Fehler 2. Art.

Mit einem hinreichend kleinem α lasst sich demnach jede

Nullhypothese”retten“.

22

Will man bei Nichtablehnung von H0 eine Entscheidung

formulieren, dann z.B.”Auf der Basis der Stichprobe ist

gegen H0 nichts einzuwenden“.

Fehlentscheidungen bei Signifikanztests lassen sich nur fur

den Fall der Ablehnung der Nullhypothese quantifizieren.

Der Fehler 1. Art ist dann hochstens α.

Aus diesem Grunde wird haufig die eigentlich zu

untersuchende Arbeitshypothese als

Alternativhypothese formuliert. Wird dann die

Nullhypothese abgelehnt, so wird die verfolgte

Arbeitshypothese ”indirekt bestatigt”.

23

Einfacher t–Test

Anliegen: Uberprufung von Hypothesen uber das

Zusammenfallen des Erwartungswertes µX einer

Zufallsvariable X mit einem vorgegebenen Wert bei

unbekannter Varianz (mindestens Intervallskala erforderlich).

Voraussetzungen: (X1, . . . , Xn) mathematische Stichprobe

aus einer normalverteilten Grundgesamtheit oder mit

hinreichend großem Stichpobenumfang (n > 30).

24

Hypothesen:

H0 : µX = µ0 HA : µX 6= µ0 (1)

HA : µX < µ0 (2)

HA : µX > µ0 (3)

Testgroße:

T =X − µ0SX

·√n

Unter H0 ist T (naherungsweise) t–verteilt mit n− 1

Freiheitsgraden.

25

p–Wert:

p = P (|T | ≥ |t|) bei (1)

p = P (T ≤ t) bei (2)

p = P (T ≥ t) bei (3)

Entscheidungsregel:

Ablehnung von H0, falls p ≤ α.

Bemerkung: Ist die Varianz von X bekannt, kommt der

weitgehend aquivalente Gauß–Test zur Anwendung.

26

statistische tests (signi kanztests) · statistische tests (signi kanztests) [testing statistical...

Documents