formelsammlung zur vorlesung statistik f ur...

18

Upload: donhu

Post on 09-May-2019

215 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

Institut f�ur Statistik SS 08 und WS 08/09

Friedrich Leisch

Formelsammlung zur Vorlesung

Statistik f�ur Wirtschaftswissenschaftler

Diese Formelsammlung darf in der Klausur verwendet werden. Ei-gene Notizen und Erg�anzungen d�urfen eingef�ugt, aber keine zus�atz-lichen Bl�atter eingeheftet werden.

Inhaltsverzeichnis

1 Eindimensionale Merkmale 2

1.1 H�au�gkeiten und H�au�gkeitsverteilungen . 2

1.2 Lageparameter . . . . . . . . . . . . . . . . 3

1.3 Quantile . . . . . . . . . . . . . . . . . . . . 3

1.4 Streuungsparameter . . . . . . . . . . . . . 4

1.5 Konzentrationsma�e . . . . . . . . . . . . . 5

2 Zweidimensionale Merkmale 6

2.1 Gemeinsame H�au�gkeiten, Randh�au�gkei-

ten, bedingte H�au�gkeiten . . . . . . . . . . 6

2.2 Assoziation bei nominalen Merkmalen . . . 6

2.3 Korrelationsrechnung f�ur metrische und or-

dinale Merkmale . . . . . . . . . . . . . . . 7

2.4 Regressionsrechnung . . . . . . . . . . . . . 7

3 Elementare Wahrscheinlichkeitsrechnung 8

3.1 Rechenregeln f�ur Wahrscheinlichkeiten . . . 8

3.2 Bedingte Wahrscheinlichkeiten . . . . . . . 9

3.3 Satz von der totalen Wahrscheinlichkeit . . 9

3.4 Formel von Bayes . . . . . . . . . . . . . . . 9

3.5 Unabh�angigkeit zweier Ereignisse . . . . . . 9

4 Eindimensionale Zufallsvariablen und ihre

Verteilungen 10

4.1 De�nition von diskreten und stetigen Zu-

fallsvariablen und Dichten . . . . . . . . . . 10

4.2 Die Verteilungsfunktion einer Zufallsvariablen 10

4.3 Zusammenh�ange zwischen Dichten und Ver-

teilungsfunktionen . . . . . . . . . . . . . . 11

4.4 Modus, Median und Quantile . . . . . . . . 11

4.5 Erwartungswert, Varianz und Standardab-

weichung . . . . . . . . . . . . . . . . . . . . 11

4.6 Rechenregeln und Eigenschaften von Erwar-

tungswerten . . . . . . . . . . . . . . . . . . 12

4.7 Spezielle diskrete Verteilungen . . . . . . . 12

4.8 Spezielle stetige Verteilungen . . . . . . . . 13

4.9 Approximationsm�oglichkeiten von Vertei-

lungen . . . . . . . . . . . . . . . . . . . . . 14

4.10 Die Chi-Quadrat-, Student- und Fisher-

Verteilung . . . . . . . . . . . . . . . . . . . 14

5 Zweidimensionale Zufallsvariablen und ihre

Verteilungen 15

5.1 De�nition zweidimensionaler Zufallsvariablen 15

5.2 Unabh�angigkeit, Kovarianz und Korrelation 16

6 Testen und Sch�atzen 17

6.1 Punktsch�atzung . . . . . . . . . . . . . . . . 17

6.2 Intervallsch�atzung . . . . . . . . . . . . . . 18

6.3 Spezielle Sch�atzprobleme . . . . . . . . . . . 18

6.4 Testen von Hypothesen . . . . . . . . . . . 19

6.5 Spezielle Testprobleme . . . . . . . . . . . . 20

6.5.1 Einstichproben-Testprobleme . . . . 20

6.5.2 Zweistichproben-Mittelwertsvergleiche 20

6.5.3 Nichtparametrische Tests . . . . . . 21

6.5.4 Weitere Testprobleme . . . . . . . . 22

7 Regressionsanalyse 24

7.1 Lineare Einfachregression . . . . . . . . . . 24

7.2 Multiple lineare Regression . . . . . . . . . 25

8 Varianzanalyse 27

8.1 Einfaktorielle Varianzanalyse . . . . . . . . 27

9 Verteilungstabellen 29

9.1 Standardnormalverteilung . . . . . . . . . . 29

9.2 Students t-Verteilung . . . . . . . . . . . . . 30

9.3 �2-Verteilung . . . . . . . . . . . . . . . . . 31

9.4 Wilcoxon-Vorzeichen-Rang-Test . . . . . . . 32

10 R & Rcmdr Ausgaben 33

10.1 Kennzahlen . . . . . . . . . . . . . . . . . . 33

10.2 Korrelation . . . . . . . . . . . . . . . . . . 34

10.3 Regression . . . . . . . . . . . . . . . . . . . 35

10.4 Varianzanalyse . . . . . . . . . . . . . . . . 35

10.5 Tests . . . . . . . . . . . . . . . . . . . . . . 36

1 EINDIMENSIONALE MERKMALE 2

1 Eindimensionale Merkmale

1.1 H�au�gkeiten und H�au�gkeitsverteilungen

Bezeichnungen:

� Urliste: x1; : : : ; xn

� geordnete Urliste: x(1) � : : : � x(n)

� Merkmalsauspr�agungen: a1 < : : : < ak

� absolute H�au�gkeit der Auspr�agung aj: hj = h(aj) , wobei gilt:kP

j=1h(aj) = n

� relative H�au�gkeit der Auspr�agung aj: fj = f(aj) = hj=n , wobei gilt:kP

j=1f(aj) = 1

H�au�gkeitsfunktion (-verteilung):

absolut: h(x) =

(hj; x = aj; j = 1; : : : ; k0 sonst

relativ: f(x) =

(fj; x = aj; j = 1; : : : ; k0 sonst

Empirische Verteilungsfunktion (kumulierte relative H�au�gkeitsverteilung):

F (x) =Xaj�x

f(aj)

Klassenbildung (Gruppierung):

� k Klassen der Form (c0; c1]; (c1; c2]; : : : ; (ck�1; ck]

� Klassenbreite: dj = cj � cj�1 j = 1; : : : ; k

� Klassenmitte: mj = (cj + cj�1)=2

� absolute H�au�gkeit der Klasse j: hj =P

ai2(cj�1;cj ]

h(ai)

� relative H�au�gkeit der Klasse j: fj = hj=n

Histogramm ( �achentreue H�au�gkeitsverteilung):

"Blockh�ohe\ = f(x) =

(fj=dj x 2 (cj�1; cj]0 sonst

f�ur j = 1; : : : ; k:

Page 2: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

1 EINDIMENSIONALE MERKMALE 3

1.2 Lageparameter

Modus:

xmod: Auspr�agung mit der gr�o�ten H�au�gkeit

Median:

xmed =

8><>:x(n+1

2 ) n ungerade

12

�x(n2+1) + x(n2 )

�n gerade

Arithmetisches Mittel (Durchschnittswert):

�x =1

n

nXi=1

xi

Gewichtetes arithmetisches Mittel:

�xw =nXi=1

wixi wobeinXi=1

wi = 1 und 0 � wi � 1 f�ur alle i

Spezialfall: arithmetisches Mittel f�ur wi = 1=n.

Arithmetisches Mittel bei Schichtenbildung:

�x =1

n(n1�x1 + : : :+ nr�xr) =

1

n

rXj=1

nj�xj

1.3 Quantile

Jeder Wert xp, mit 0 < p < 1, f�ur den mindestens ein Anteil p der Daten � xp und mindestens einAnteil 1� p der Daten � xp ist, hei�t p-Quantil:

Anzahl (x-Werte � xp)

n� p und

Anzahl (x-Werte � xp)

n� 1� p:

�Aquivalent dazu ist: xp ist der kleinste x-Wert, f�ur den F (x) � p gilt, d.h.

F (x) < p f�ur x < xp und F (xp) � p:

Damit gilt f�ur das p-Quantil:

xp = x([np]+1) wenn np nicht ganzzahlig;xp 2 [x(np); x(np+1)] wenn np ganzzahlig:

Speziell: x0:5 = Median; x0:25 = unteres Quartil; x0:75 = oberes Quartil

1 EINDIMENSIONALE MERKMALE 4

1.4 Streuungsparameter

Spannweite:SP = x(n) � x(1) = xmax � xmin

Quantilsabstand:x1�p � xp

Interquartilsabstand:dQ = x0:75 � x0:25

Empirische Varianz (mittlere quadratische Abweichung):

Urliste: ~s2 =1

n

nXi=1

(xi � �x)2 =

1

n

nXi=1

x2i

!� �x2

H�au�gkeitsdaten: ~s2 =1

n

kXj=1

(aj � �x)2h(aj) bzw. ~s2 =kX

j=1

(aj � �x)2 f(aj)

Empirische Standardabweichung:~s = +

p~s2

Stichprobenvarianz:

s2 =1

n� 1

nXi=1

(xi � �x)2

Variationskoe�zient:

v =~s

�x(�x > 0)

Streuungszerlegung:

F�ur r disjunkte statistische Massen E1; : : : ; Er, deren jeweilige arithmetische Mittel bzw. mitt-lere quadratische Abweichungen mit �x1 ; : : : ; �xr bzw. ~s

21; : : : ; ~s

2r bezeichnet sind, berechnet sich

die mittlere quadratische Abweichung f�ur die Gesamtmasse folgenderma�en:

~s2Ges

=1

n

rXj=1

nj~s2j +

1

n

rXj=1

nj(�xj � �xGes

)2

wobei nj = jEjj und �xGes =1n

rPj=1

nj�xj.

Page 3: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

1 EINDIMENSIONALE MERKMALE 5

1.5 Konzentrationsma�e

Lorenzkurve:

F�ur die geordnete Urliste x1 � : : : � xn ergibt sich die Lorenzkurve als Streckenzugdurch die Punkte

(0; 0); (u1; v1); : : : ; (un; vn) = (1; 1)

mit

uj = j=n und vj =

jPi=1

xi

nPi=1

xi:

Bei H�au�gkeitsdaten:

uj =jX

i=1

hi=n =jX

i=1

fi und vj =

jPi=1

hiai

kPi=1

hiai

=

jPi=1

fiai

kPi=1

fiai

j = 1; : : : ; k :

Gini-Koe�izient:

G =Fl�ache zwischen Diagonale und Lorenzkurve

Fl�achezwischen Diagonale und u-Achse

= 2 � Fl�ache zwischen Diagonale und Lorenzkurve

Geordnete Urliste:

G =2

nPi=1

ixi

nnPi=1

xi� n+ 1

n:

H�aufigkeitsdaten mit a1 < : : : < ak:

G =

kPi=1

(ui�1 + ui)hiai

kPi=1

hiai

� 1 ; wobei ui =iX

j=1

hj=n; vi =iX

j=1

hjaj=kX

j=1

hjaj:

Herfindahl-Index:

H =nXi=1

p2i ; wobei pi =xinPj=1

xj:

2 ZWEIDIMENSIONALE MERKMALE 6

2 Zweidimensionale Merkmale

2.1 Gemeinsame H�au�gkeiten, Randh�au�gkeiten, bedingte H�au�gkeiten

Bezeichnungen:

� Urliste: (x1; y1); (x2; y2); : : : ; (xn; yn)

� Merkmalsausspr�agungen: a1; a2; : : : ; ak f�ur X bzw. b1; b2; : : : ; bm f�ur Y

Gemeinsame H�au�gkeiten:

hij = h(ai; bj) absolute H�au�gkeiten

fij = f(ai; bj) =hijn

relative H�au�gkeiten

Randh�au�gkeiten:

hi� =mXj=1

hij; h�j =kXi=1

hij (absolut)

fi� =hi�n

= fX(ai); f�j =h�jn

= fY (bj) (relativ)

Bedingte relative H�au�gkeiten:

fX(aijbj) = f(ai; bj)

fY (bj)=hijh�j

; fY (bjjai) = f(ai; bj)

fX(ai)=hijhi�

2.2 Assoziation bei nominalen Merkmalen

�2-Koe�zient:

�2 =kXi=1

mXj=1

(hij � ~hij)2

~hij= n

kXi=1

mXj=1

(fij � ~fij)2

~fij

wobei ~hij =hi�h�jn

; ~fij = fi�f�j.

Kontingenzkoe�zient:

K =

s�2

�2 + n

korrigierter Kontingenzkoe�zient:

K� =K

Kmax

mit: Kmax =q

M�1M

, wobei M = minfk;mg.

Page 4: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

2 ZWEIDIMENSIONALE MERKMALE 7

Spezialfall: Vierfeldertafel

�2-Koe�zient:

a b a+bc d c+d

a+c b+d n�2 =

n(ad� bc)2

(a+ b)(a+ c)(b+ d)(c+ d)

Kreuzproduktverh�altnis (Odds-Ratio, relative Chance):

h11 h12

h21 h22 =

h11=h12

h21=h22=h11h22

h12h21:

2.3 Korrelationsrechnung f�ur metrische und ordinale Merkmale

Bravais-Pearson-Korrelationskoe�zient

r =

nPi=1

(xi � �x)(yi � �y)snPi=1

(xi � �x)2nPi=1

(yi � �y)2=

nPi=1

xiyi � n�x�ys�nPi=1

x2i � n�x2��

nPi=1

y2i � n�y2�

Rangkorrelationskoe�zient von Spearman

rSP =

nPi=1

(rg(xi)� �rgX)(rg(yi)� �rgY )snPi=1

(rg(xi)� �rgX)2

nPi=1

(rg(yi)� �rgY )2

= 1�6

nPi=1

(rg(xi)� rg(yi))2

(n2 � 1)n;

wobei letzterer Ausdruck nur gilt, falls xi 6= xj; yi 6= yj f�ur alle i; j gilt.

2.4 Regressionsrechnung

Lineare Einfachregression:

Y abh�angige (zu erkl�arende) Variable, Zielgr�o�e, RegressandX unabh�angige (erkl�arende) Variable, Ein u�gr�o�e, Regressor

Regressionsansatz:Y = f(X) + � = � + �X + �

Bezeichnungen:

� gesch�atzte Regressionsgerade: y = � + �x

� Regressionskoe�zienten: � und �

� Residuen: ei = yi � yi = yi � (� + �xi)

3 ELEMENTARE WAHRSCHEINLICHKEITSRECHNUNG 8

Kleinste-Quadrate-Sch�atzer:

� = �y � ��x; � =sxys2x

=

nPi=1

(xi � �x)(yi � �y)

nPi=1

(xi � �x)2=

nPi=1

xiyi � n�x�y

nPi=1

x2i � n�x2

Quadratsummenzerlegung:

nXi=1

(yi � �y)2

| {z }=

nXi=1

(yi � �y)2

| {z }+

nXi=1

(yi � yi)2

| {z }SQT = SQE + SQR

SQT : Gesamtabweichungsquadratsumme in y-RichtungSQE: Durch die Regression erkl�arter Teil von SQTSQR: Trotz der Regression unerkl�art bleibender Teil von SQT

Bestimmtheitsma�:

R2 =SQE

SQT= 1� SQR

SQT; Berechnung: R2 =

nPi=1

(yi � �y)2

nPi=1

(yi � �y)2=

nPi=1

y2i � n�y2

nPi=1

y2i � n�y2

3 Elementare Wahrscheinlichkeitsrechnung

3.1 Rechenregeln f�ur Wahrscheinlichkeiten

Axiome von Kolmogoro�:

� P (A) � 0 f�ur jedes Ereignis A

� P () = 1

� P (A1 [ A2 [ A3 [ : : :) = P (A1) + P (A2) + P (A3) + : : :f�ur endlich oder abz�ahlbar unendlich viele paarweise disjunkte Ereignisse, d.h. Ereignisse mitAi \ Aj = ; f�ur alle i 6= j

Folgerungen:

� P (A) � 1

� P (;) = 0

� Aus A � B folgt P (A) � P (B)

� P ( �A) = 1� P (A)

Page 5: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

3 ELEMENTARE WAHRSCHEINLICHKEITSRECHNUNG 9

Allgemeiner Additionssatz (f�ur n = 2):

P (A1 [ A2) = P (A1) + P (A2)� P (A1 \ A2)

3.2 Bedingte Wahrscheinlichkeiten

De�nition:

P (AjB) = P (A \B)P (B)

; falls P (B) > 0

Folgerungen:

� P (A \B) = P (AjB)P (B); falls P (B) > 0

� P (B \ A) = P (BjA)P (A); falls P (A) > 0

� P (A1\ : : :\Am) = P (A1)P (A2jA1) � : : : �P (AmjA1\ : : :\Am�1), falls P (A1\ : : :\Am�1) > 0.

3.3 Satz von der totalen Wahrscheinlichkeit

Sei A1; : : : ; Ak eine disjunkte Zerlegung von , dann gilt f�ur jedes Ereignis B �

P (B) =kXi=1

P (BjAi)P (Ai):

3.4 Formel von Bayes

Sei A1; : : : ; Ak eine disjunkte Zerlegung von , wobei f�ur mindestens ein i; i = 1; : : : ; k, P (Ai) > 0und P (BjAi) > 0 erf�ullt ist, dann gilt

P (AjjB) = P (BjAj)P (Aj)kXi=1

P (BjAi)P (Ai)

=P (BjAj)P (Aj)

P (B)f�ur jedes j = 1; : : : ; k:

3.5 Unabh�angigkeit zweier Ereignisse

Zwei Ereignisse A und B hei�en (stochastisch) unabh�angig, wenn gilt

P (A \B) = P (A) � P (B)

bzw. P (AjB) = P (A); falls P (B) > 0 bzw. P (BjA) = P (B); falls P (A) > 0.

4 EINDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 10

4 Eindimensionale Zufallsvariablen und ihre Verteilungen

4.1 De�nition von diskreten und stetigen Zufallsvariablen und Dichten

Diskrete Zufallsvariable:

Eine ZV X hei�t diskret, falls der Wertebereich von X nur endlich oder abz�ahlbar unendlichviele Werte x1; x2; : : : ; xk; : : : annehmen kann.

Wahrscheinlichkeitsfunktion (Dichte):

f(x) =

(P (X = xi) = pi f�ur x = xi 2 fx1; x2; : : : ; xk; : : :g

0 sonst

Stetige Zufallsvariable:

Eine ZV X hei�t stetig, wenn es eine Funktion f(x) � 0 gibt, so da� f�ur jedes Intervall [a; b]gilt:

P (a � X � b) =

bZa

f(x)dx

� Die Funktion f(x) hei�t Dichte von X

� Es gilt: P (X = x) = 0 f�ur alle x 2 IR.

4.2 Die Verteilungsfunktion einer Zufallsvariablen

Verteilungsfunktion einer Zufallsvariablen:

F (x) = P (X � x); x 2 IR

Rechenregeln:

� P (X = x) = F (x)� P (X < x)

� P (X > x) = 1� F (x)

� P (a < X � b) = F (b)� F (a), falls a < b

� P (a � X � b) = F (b)� F (a) + P (X = a)speziell: P (a � X � b) = F (b)� F (a) f�ur stetige Verteilungen

� P (a < X < b) = F (b)� F (a)� P (X = b)

� P (a � X < b) = F (b)� F (a) + P (X = a)� P (X = b)

Page 6: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

4 EINDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 11

4.3 Zusammenh�ange zwischen Dichten und Verteilungsfunktionen

Im diskreten Fall:

F (x) =Xxi�x

f(xi) =Xxi�x

P (X = xi)

P (a � X � b) =X

a�xi�b

f(xi) =X

a�xi�b

P (X = xi)

f(xi) = P (X = xi) = F (xi)� F (xi�1)

Im stetigen Fall:

F (x) =

xZ�1

f(t)dt

P (a � X � b) =

bZa

f(t)dt

f(x) = F 0(x) =dF (x)

dx; falls F (x) an der Stelle x di�erenzierbar ist.

4.4 Modus, Median und Quantile

Modus:

xmod: Jeder Wert x, an dem f(x) maximal ist.

Quantile:

� Jeder Wert xp mit 0 < p < 1, f�ur den

P (X � xp) � 1� p und P (X � xp) � p

gilt, hei�t p-Quantil einer diskreten Verteilung.

� Jeder Wert xp mit F (xp) = p hei�t p-Quantil einer stetigen Verteilung.

Median:

Jedes 50%-Quantil hei�t Median (p = 0.5).

4.5 Erwartungswert, Varianz und Standardabweichung

Erwartungswert:

� = E(X) =

8>>>>>><>>>>>>:

Xx

xf(x); falls X diskret

+1Z�1

xf(x)dx; falls X stetig

4 EINDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 12

Varianz:

�2 = Var(X) =

8>>>>>><>>>>>>:

Xx

(x� E(X))2f(x); falls X diskret

+1Z�1

(x� E(X))2f(x)dx; falls X stetig

Standardabweichung:

� = +p�2 = +

qVar(X)

4.6 Rechenregeln und Eigenschaften von Erwartungswerten

Transformation:

� Die Zufallsvariable Y = g(X) besitzt den Erwartungswert

E(Y ) =

8>>>>>><>>>>>>:

Xx

g(x)f(x); falls X diskret

+1Z�1

g(x)f(x)dx; falls X stetig

� Spezialfall: lineare Transformation

E(aX + b) = aE(X) + b f�ur alle a; b 2 IR

Var(aX + b) = a2Var(X)

Verschiebungssatz:Var(X) = E(X2)� [E(X)]2

4.7 Spezielle diskrete Verteilungen

Verteilung Wahrscheinlichkeitsfunktion E(X) Var(X)

X � B(n; �)Binomialverteilung

f(x) =

8<:�nx

��x(1� �)n�x f�ur x = 0; 1; : : : ; n

0; sonstn� n�(1� �)

X � Po(�)Poissonverteilung

f(x) =

8<:

�x

x!e�� f�ur x = 0; 1; 2; : : :

0; sonst(� > 0) � �

X � G(�)Geometrische Verteilung

f(x) = (1� �)x�1� f�ur x = 1; 2; : : :1

1� �

�2

Page 7: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

4 EINDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 13

4.8 Spezielle stetige Verteilungen

Verteilung Dichte E(X) Var(X)

X � U [a; b]Gleichverteilung

f(x) =

8<:

1b�a

; f�ur a � x � b

0; sonst

a+ b

2

(b� a)2

12

X � Ex(�)Exponentialverteilung

f(x) =

8<: �e��x f�ur x � 0

0 sonst(� > 0)

1

1

�2

X � N(�; �2)Normalverteilung

f(x) =1p2��

exp

�(x� �)2

2�2

!f�ur x 2 IR � �2

Formeln zur Normalverteilung

Seien X � N(�; �2), Z � N(0; 1), und xp bzw. zp die p-Quantile von X bzw. Z. Ferner sei�(z) = P (Z � z) die Verteilungsfunktion von Z. Es gilt:

� z1�p = �zp� xp = �+ � � zp� �(�z) = 1� �(z)

� X���

� N(0; 1) (Standardisieren einer Zufallsvariable)

� P (a � X � b) = ��b���

�� �

�a���

�Seien X1 � N(�1; �

21) und X2 � N(�2; �

22) unabh�angig. Dann gilt:

� X + Y � N(�1 + �2; �21 + �2

2)

� X � Y � N(�1 � �2; �21 + �2

2)

4 EINDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 14

4.9 Approximationsm�oglichkeiten von Verteilungen

4.10 Die Chi-Quadrat-, Student- und Fisher-Verteilung

Chi-Quadrat-(�2-)Verteilung:

Z =nXi=1

X2i � �2(n) d.h. �2-verteilt mit n Freiheitsgraden

falls X1; : : : ; Xn unabh�angige, standardnormalverteilte Zufallsvariablen sind

Student-(t-)Verteilung:

T =XqZ=n

� t(n) d.h. t-verteilt mit n Freiheitsgraden

falls X standardnormalverteilt, Z �2(n)-verteilt und X und Z unabh�angig sind

Fisher-(F -)Verteilung:

Z =X=m

Y=n� F (m;n) d.h. F -verteilt mit m und n Freiheitsgraden

falls X �2(m)- und Y �2(n)-verteilt und unabh�angig sind.

Page 8: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

5 ZWEIDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 15

5 Zweidimensionale Zufallsvariablen und ihre Verteilungen

5.1 De�nition zweidimensionaler Zufallsvariablen

Zweidimensionale diskrete Zufallsvariable:

Seien X und Y zwei diskrete ZV, wobei X die Werte x1; x2; : : : und Y die Werte y1; y2; : : :annehmen kann, so ist (X; Y ) eine zweidimensionale diskrete Zufallsvariable mit Werten(xi; yj); i = 1; 2; : : : ; j = 1; 2; : : :.

Gemeinsame Wahrscheinlichkeitsfunktion:

f(x; y) =

(P (X = x; Y = y) f�ur (x; y) 2 f(x1; y1); (x1; y2); : : :g0 sonst

Randverteilungen:

fX(x) = P (X = x) =Xj

f(x; yj) und fY (y) = P (Y = y) =Xi

f(xi; y)

Zweidimensionale stetige Zufallsvariable:

Die ZufallsvariablenX und Y sind gemeinsam stetig verteilt, wenn es eine zweidimensionaleDichtefunktion f(x; y) � 0 gibt, so da� gilt

P (a � X � b; c � Y � d) =

bZa

dZc

f(x; y)dydx:

Randdichten:

fX(x) =

1Z�1

f(x; y)dy und fY (y) =

1Z�1

f(x; y)dx

Bedingte Wahrscheinlichkeitsfunktionen/Dichten:

fX(xjy) = f(x; y)

fY (y)und fY (yjx) = f(x; y)

fX(x)

Gemeinsame Verteilungsfunktion:

F (x; y) = P (X � x; Y � y) =

8>>>>><>>>>>:

Xxi�x

Xyj�y

f(xi; yj) (diskret)

xZ�1

yZ�1

f(u; v)dvdu (stetig)

5 ZWEIDIMENSIONALE ZUFALLSVARIABLEN UND IHRE VERTEILUNGEN 16

5.2 Unabh�angigkeit, Kovarianz und Korrelation

Unabh�angigkeit von zwei Zufallsvariablen:

Zwei Zufallsvariablen X und Y hei�en unabh�angig, wenn f�ur alle x und y gilt

f(x; y) = fX(x)fY (y)

Kovarianz:

Cov(X; Y ) =

8>>>>><>>>>>:

Xi

Xj

f(xi; yj)(xi � E(X))(yj � E(Y )) (diskret)

1Z�1

1Z�1

f(x; y)(x� E(X))(y � E(Y ))dxdy (stetig)

Verschiebungssatz:Cov(X; Y ) = E(X � Y )� E(X) � E(Y )

mit E(X � Y ) =

8>>>>><>>>>>:

Xi

Xj

f(xi; yj)xiyj (diskret)

1Z�1

1Z�1

xyf(x; y)dydx (stetig)

Lineare Transformation:

F�ur die Zufallsvariablen ~X = aXX + bX und ~Y = aY Y + bY gilt

Cov( ~X; ~Y ) = aXaYCov(X; Y )

Korrelationskoe�zient:

� = �(X; Y ) =Cov(X; Y )q

Var(X)qVar(Y )

=Cov(X; Y )

�X�Y

Unkorreliertheit:

Die Zufallsvariablen X und Y hei�en unkorreliert, wenn gilt

�(X; Y ) = 0 bzw. Cov(X; Y ) = 0

Varianz der Summe zweier Zufallsvariablen:

Var(X + Y ) = Var(X) + Var(Y ) + 2Cov(X; Y )

Page 9: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

6 TESTEN UND SCH�ATZEN 17

6 Testen und Sch�atzen

Bezeichnungen:

� Merkmal X: metrisch oder dichotom (Bernoulliverteilt)

� Unbekannter Parameter der Verteilung von X: �

� Stichprobenvariablen: X1; X2; : : : ; Xn

� Annahme: X1; : : : ; Xn unabh�angig und identisch verteilt wie X

� Stichprobenmittelwert: �X =1

n

nXi=1

Xi (entspricht der relativen H�au�gkeit, fallsX dichotom)

� Stichprobenvarianz: S2 =1

n� 1

nXi=1

(Xi � �X)2

� Realisationen: x1; x2; : : : ; xn

� Sch�atzfunktion/Sch�atzstatistik/Teststatistik: T = g(X1; : : : ; Xn)

� Sch�atzwert: � = g(x1; : : : ; xn)

Abk�urzungen der Quantile:

zp : : : p-Quantil der Standardnormalverteilung (siehe S. 29)tp(k) : : : p-Quantil der t-Verteilung mit k Freiheitsgraden (siehe S. 30)�2p(k) : : : p-Quantil der �2-Verteilung mit k Freiheitsgraden (siehe S. 31)

6.1 Punktsch�atzung

Erwartungstreue:

Eine Sch�atzstatistik T hei�t erwartungstreu f�ur �, wenn gilt

E�(T ) = �

Bias:

Eine nicht erwartungstreue Sch�atzstatistik hei�t verzerrt. Die St�arke der Verzerrung wirddurch den Bias angegeben

Bias�(T ) = E�(T )� �

MSE (mittlere quadratische Abweichung):

MSE = E([T � �]2) = Var(T ) + Bias(T )2

6 TESTEN UND SCH�ATZEN 18

Maximum-Likelihood-Prinzip:

Der Maximum-Likelihood-Sch�atzwert � ist die L�osung der Gleichung

L(�) = max�

L(�)

6.2 Intervallsch�atzung

(1� �)-Kon�denzintervall:

Die beiden Sch�atzstatistiken

Gu = gu(X1; : : : ; Xn) und Go = go(X1; : : : ; Xn)

bilden ein (1� �)-Kon�denzintervall f�ur �, falls gilt

P (Gu � Go) = 1 und P (Gu � � � Go) = 1� �

Das Kon�denzintervall besitzt dann die Gestalt

KI = [gu(x1; : : : ; xn); go(x1; : : : ; xn)]

Einseitige (1� �)-Kon�denzintervalle:

F�ur Gu = �1 bzw. Go =1 ergibt sich

P (� � Go) = 1� � bzw. P (Gu � �) = 1� �

und man erh�alt die Kon�denzintervalle

KI = (�1; go(x1; : : : ; xn)] bzw. KI = [gu(x1; : : : ; xn);1)

6.3 Spezielle Sch�atzprobleme

Verteilung � � (1� �)-Kon�denzintervall

X � N(�; �2),�2 bekannt

� �X

"�X � z1��

2

�pn; �X + z1��

2

�pn

#

X � N(�; �2),�2 unbekannt

� �X

"�X � t1��

2(n� 1)

Spn; �X + t1��

2(n� 1)

Spn

#

X � N(�; �2),� beliebig

�2 S2

24(n� 1)S2 1

�21��

2(n� 1)

; (n� 1)S2 1

�2�2(n� 1)

35

Page 10: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

6 TESTEN UND SCH�ATZEN 19

Verteilung � � approximatives (1� �)-Kon�denzintervall

X beliebig verteilt, n � 30,E(X) = �, Var(X) = �2 bekannt

� �X

"�X � z1��

2

�pn; �X + z1��

2

�pn

#

X beliebig verteilt, n � 30,E(X) = �, Var(X) = �2 unbekannt

� �X

"�X � z1��

2

Spn; �X + z1��

2

Spn

#

X dichotom ,nXi=1

Xi � B(n; �); n � 30 � �X

24 � � z1��

2

s�(1� �)

n; � + z1��

2

s�(1� �)

n

35

6.4 Testen von Hypothesen

Statistisches Testproblem:

Nullhypothese H0 und Alternative H1 tre�en Aussagen �uber �

H0 : � 2 �0 vs. H1 : � 2 �1

Die Entscheidung f�ur oder gegen H0 wird anhand einer Pr�ufgr�o�e (Teststatistik) getro�en.

Fehlentscheidung:

� Fehler 1.Art: H0 wird verworfen, obwohl H0 zutri�t

� Fehler 2.Art: H0 wird beibehalten, obwohl H1 zutri�t

Signi�kanztest:

Falls giltP (H0 verwerfenjH0 tri�t zu) � � (d.h. P (Fehler 1.Art) � �);

dann hei�t der Test Signi�kanztest, oder Test zum Signi�kanzniveau �

p-Wert:

Der p-Wert ist de�niert als die Wahrscheinlichkeit, unterH0 den beobachteten Pr�ufgr�o�enwertoder einen in Richtung der Alternative extremeren Wert zu erhalten. Ist der p-Wert kleinerals ein vorgegebenes Signi�kanzniveau �, so wird H0 verworfen.

G�utefunktion:g(�) = P (H0 wird abgelehntj� liegt zugrunde)

6 TESTEN UND SCH�ATZEN 20

6.5 Spezielle Testprobleme

6.5.1 Einstichproben-Testprobleme

Formulierung der Hypothesen:

� Zweiseitiges Testproblem:

(a) H0 : � = �0 vs. H1 : � 6= �0

� Einseitige Testprobleme:

(b) H0 : � � �0 vs. H1 : � < �0

(c) H0 : � � �0 vs. H1 : � > �0

Verteilung � Teststatistik Ablehnbereiche

X � N(�; �2),�2 bekannt

� Z =�X � �0

pn

(a) jZj > z1��2

(b) Z < �z1��(c) Z > z1��

X � N(�; �2),�2 unbekannt

� T =�X � �0

S

pn

(a) jT j > t1��2(n� 1)

(b) T < �t1��(n� 1)(c) T > t1��(n� 1)

X beliebig verteilt, n � 30,E(X) = �, Var(X) = �2 bekannt

� Z =�X � �0

pn

(a) jZj > z1��2

(b) Z < �z1��(c) Z > z1��

X beliebig verteilt, n � 30,E(X) = �, Var(X) = �2 unbekannt

� T =�X � �0

S

pn

(a) jT j > z1��2

(b) T < �z1��(c) T > z1��

X dichotom ,nXi=1

Xi � B(n; �) � Z =� � �0q�0(1� �0)

pn

(a) jZj > z1��2

(b) Z < �z1��(c) Z > z1��

6.5.2 Zweistichproben-Mittelwertsvergleiche

Bezeichnungen:

� Metrische Merkmale X und Y

� Unbekannte Parameter: E(X) = �X und E(Y ) = �Y

� Stichprobenvariablen: X1; X2; : : : ; Xn und Y1; Y2; : : : ; Ym

� Annahmen: X1; : : : ; Xn unabh�angig und identisch verteilt wie XY1; : : : ; Ym unabh�angig und identisch verteilt wie YX1; : : : ; Xn; Y1; : : : ; Ym unabh�angig

Page 11: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

6 TESTEN UND SCH�ATZEN 21

Formulierung der Hypothesen:

� Zweiseitiges Testproblem:

(a) H0 : �X � �Y = �0 vs. H1 : �X � �Y 6= �0

� Einseitige Testprobleme:

(b) H0 : �X � �Y � �0 vs. H1 : �X � �Y < �0

(c) H0 : �X � �Y � �0 vs. H1 : �X � �Y > �0

Verteilung Teststatistik Ablehnbereiche

X � N(�X ; �2X); Y � N(�Y ; �

2Y )

�2X ; �

2Y bekannt

Z =�X � �Y � �0r

�2X

n+

�2Y

m

(a) jZj > z1��2

(b) Z < �z1��(c) Z > z1��

X � N(�X ; �2X); Y � N(�Y ; �

2Y )

�2X = �2

Y unbekanntT =

�X � �Y � �0r�1n+ 1

m

�(n�1)S2

X+(m�1)S2

Y

n+m�2

(a) jT j > t1��2(n+m� 2)

(b) T < �t1��(n+m� 2)(c) T > t1��(n+m� 2)

X; Y beliebig verteilt�2X ; �

2Y unbekannt, n;m > 30

T =�X � �Y � �0r

S2X

n+

S2Y

m

(a) jT j > z1��2

(b) T < �z1��(c) T > z1��

6.5.3 Nichtparametrische Tests

Wilcoxon-Vorzeichen-Rang-Test:

� Annahmen: X1; : : : ; Xn unabh�angig und identisch verteilt wie X, X metrisch skaliert,Verteilungsfunktion stetig und symmetrisch.

� Hypothesen:(a) H0 : xmed = �0 H1 : xmed 6= �0(b) H0 : xmed � �0 H1 : xmed < �0(c) H0 : xmed � �0 H1 : xmed > �0

� Teststatistik: W+ =Pn

i=1 rgjDijZi mit Di = Xi � �0, Zi =

(1 Di > 00 Di � 0

F�ur n > 20 ist W+ approximativ verteilt nach N�n(n+1)

4; n(n+1)(2n+1)

24

�.

� Ablehnungsbereich:

(a) W+ < w+�=2(n) oder W+ > w+

1��=2(n)

(b) W+ < w+� (n)

(c) W+ > w+1��(n)

wobei w+� (n) das tabellierte �-Quantil der Verteilung von W+ ist.

6 TESTEN UND SCH�ATZEN 22

6.5.4 Weitere Testprobleme

Korrelationstest:

� Annahmen: Unabh�angige gemeinsam normalverteilte Stichprobenvariablen(Xi; Yi); i = 1; : : : ; n

� Hypothesen:(a) H0 : �XY = 0 vs. H1 : �XY 6= 0(b) H0 : �XY � 0 vs. H1 : �XY < 0(c) H0 : �XY � 0 vs. H1 : �XY > 0

� Teststatistik:T =

rXYq1� r2XY

pn� 2

� Ablehnungsbereiche:(a) jT j > t1��

2(n� 2)

(b) T < �t1��(n� 2)(c) T > t1��(n� 2)

�2-Unabh�angigkeitstest:

� Annahmen: Unabh�angige Stichprobenvariablen (Xi; Yi); i = 1; : : : ; n

� Hypothesen:

H0 : P (X = i; Y = j) = P (X = i) � P (Y = j) f�ur alle i; jH1 : P (X = i; Y = j) 6= P (X = i) � P (Y = j) f�ur mindestens ein Paar (i; j)

Y1 : : : m

1 h11 : : : h1m h1�

X...

......

...

k hk1 : : : hkm hk�

h�1 : : : h�m n

unter H0�!

Y1 : : : m

1 h1�h�1n

: : : h1�h�mn

h1�

X...

......

...

k hk�h�1n

: : : hk�h�mn

hk�

h�1 : : : h�m n

� Teststatistik:

�2 =kXi=1

mXj=1

(hij � ~hij)2

~hijmit ~hij =

hi�h�jn

� Ablehnungsbereich:�2 > �2

1��((k � 1) � (m� 1))

Page 12: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

6 TESTEN UND SCH�ATZEN 23

�2-Homogenit�atstest:

� Annahmen: Unabh�angige Stichproben aus k Populationen mit denStichprobenumf�angen n1; : : : ; nk

� Hypothesen:

H0 : P (X1 = j) = : : : = P (Xk = j) f�ur j = 1 : : : ;mH1 : P (Xi1 = j) 6= P (Xi2 = j) f�ur mindestens ein Tupel (i1; i2; j)

X1 : : : m

1 h11 : : : h1m n1

......

......

k hk1 : : : hkm nk

h�1 : : : h�m n

unter H0�!

X1 : : : m

1 n1h�1n

: : : n1h�mn

n1

......

......

k nkh�1n

: : : nkh�mn

nk

h�1 : : : h�m n

� Teststatistik:

�2 =kXi=1

mXj=1

(hij � hij)2

hijmit hij =

nih�jn

� Ablehnungsbereich:�2 > �2

1��((k � 1) � (m� 1))

�2-Anpassungstest:

� Annahmen: X1; : : : ; Xn unabh�angig und identisch verteilt wie X 2 f1; : : : ; kg.� Hypothesen:

H0 : P (X = i) = �i; i = 1; : : : ; kH1 : P (X = i) 6= �i f�ur mindestens ein i

� Teststatistik: �2 =kXi=1

(hi � n�i)2

n�i

� Verteilung unter H0: approximativ �2(k � 1). Approximation anwendbar, falls n�i � 1 f�uralle i, n�i � 5 f�ur mindestens 80% der Zellen.

� Ablehnungsbereich: �2 > �21��(k � 1)

7 REGRESSIONSANALYSE 24

7 Regressionsanalyse

7.1 Lineare Einfachregression

Regressionsansatz:Yi = � + �xi + �i ; i = 1; : : : ; n:

Normalverteilungsannahme:

�i � N(0; �2) , Yi � N(� + �xi ; �2); i = 1; : : : ; n:

Kleinste-Quadrate-Sch�atzer:

� = �Y � ��x ; � =

nPi=1

(xi � �x)(Yi � �Y )

nPi=1

(xi � �x)2

Residuen:�i = Yi � �� �xi ; i = 1; : : : ; n:

Sch�atzer f�ur die Varianz �2:

�2 =1

n� 2

nXi=1

�2i

Verteilung der gesch�atzten Regressionskoe�zienten:

� � N(�; �2�) mit Var(�) = �2

� = �2

Px2i

nP(xi � �x)2

= �2

Px2i

n(Px2i � n�x2)

� � N(�; �2�) mit Var(�) = �2

�=

�2P(xi � �x)2

=�2P

x2i � n�x2

Verteilung der standardisierten Sch�atzfunktionen:

�� �

��� t(n� 2) mit �� = �

qPx2iq

nP(xi � �x)2

= �

qPx2iq

n(Px2i � n�x2)

� � �

��� t(n� 2) mit �� =

�qP(xi � �x)2

=�qP

x2i � n�x2

(1� �)-Kon�denzintervalle f�ur � und �:

f�ur �:h�� ��t1��

2(n� 2); � + ��t1��

2(n� 2)

if�ur �:

h� � ��t1��

2(n� 2); � + ��t1��

2(n� 2)

i

Page 13: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

7 REGRESSIONSANALYSE 25

Teststatistiken:

T�0 =�� �0

��und T�0 =

� � �0��

Hypothesen und Ablehnbereiche:

Hypothesen Ablehnbereich

H0 : � = �0 vs. H1 : � 6= �0 jT�0j > t1��2(n� 2)

H0 : � = �0 vs. H1 : � 6= �0 jT�0j > t1��2(n� 2)

H0 : � � �0 vs. H1 : � < �0 T�0 < �t1��(n� 2)H0 : � � �0 vs. H1 : � < �0 T�0 < �t1��(n� 2)H0 : � � �0 vs. H1 : � > �0 T�0 > t1��(n� 2)H0 : � � �0 vs. H1 : � > �0 T�0 > t1��(n� 2)

Prognose:Y0 = � + �x0

Kon�denzintervall f�ur Y0:24 Y0 � t1��

2(n� 2)�

vuut1 +1

n+

(x0 � �x)2Px2i � n�x2

; Y0 + t1��2(n� 2)�

vuut1 +1

n+

(x0 � �x)2Px2i � n�x2

35

7.2 Multiple lineare Regression

Regressionsansatz:

Yi = �0 + �1xi1 + �2xi2 + : : :+ �pxip + �i ; i = 1; : : : ; n:

Normalverteilungsannahme:

�i � N(0; �2) , Yi � N(�0 + �1xi1 + : : :+ �pxip ; �2); i = 1; : : : ; n:

Ge�ttete Werte:Yi = �0 + �1xi1 + �2xi2 + : : :+ �pxip

Residuen:�i = Yi � Yi ; i = 1; : : : ; n:

Sch�atzer f�ur die Varianz �2:

�2 =1

n� p� 1

nXi=1

�2i =1

n� p� 1

nXi=1

(Yi � Yi)2

7 REGRESSIONSANALYSE 26

Verteilung der standardisierten Sch�atzfunktionen:

�j � �j�j

� t(n� p� 1) ; j = 0; : : : ; p

(1� �)-Kon�denzintervalle f�ur �j:h�j � �jt1��

2(n� p� 1); �j + �jt1��

2(n� p� 1)

iTeststatistiken:

Tj =�j � �0j

�j; j = 0; : : : ; p

Hypothesen und Ablehnbereiche:

Hypothesen Ablehnbereich

H0 : �j = �0j vs. H1 : �j 6= �0j jTjj > t1��2(n� p� 1)

H0 : �j � �0j vs. H1 : �j < �0j Tj < �t1��(n� p� 1)H0 : �j � �0j vs. H1 : �j > �0j Tj > t1��(n� p� 1)

Koe�zienten Tabelle einer multiplen Regression (R & Rcmdr):

Estimate Std. Error t value Pr(>|t|)

(Intercept) �0 �0 T0 P (T � T0)

X1 �1 �1 T1 P (T � T1)

X2 �2 �2 T2 P (T � T2)...

......

......

Xp �p �p Tp P (T � Tp)

Testprobleme:

� t ist der Wert der t-Statistik f�ur

H0 : �j = 0 vs. H1 : �j 6= 0 ;

d.h. Tj =�j�j; j = 0; : : : ; p

� Pr(>|t|) ist der zugeh�orige p-Wert

Page 14: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

8 VARIANZANALYSE 27

8 Varianzanalyse

8.1 Einfaktorielle Varianzanalyse

Modell(I):Yij = �i + �ij i = 1; : : : ; I; j = 1; : : : ; J

�ij � N(0; �2)

Modell(II):Yij = �+ �i + �ij; i = 1; : : : ; I; j = 1; : : : ; J

�ij � N(0; �2);IXi=1

ni�i = 0

Die Sch�atzer f�ur � und �i im Modell(II) sind gegeben als:

� =1

n

IXi=1

niXj=1

Yij = �Y��

�i = �Yi� � �Y�� mit �Yi� =1

ni

niXj=1

Yij

Die Pr�ufgr�osse f�ur das Testproblem:

H0 : �1 = � � � = �I = 0 gegen H1 : mindestens zwei�i 6= 0

ist gegeben als

F =MQE

MQR=

PIi=1 ni � ( �Yi� � �Y��)

2=(I � 1)PIi=1

Pnij=1(Yij � �Yi�)2=(n� I)

;

wobei H0 zu verwerfen ist, falls

F > F1��(I � 1; n� I):

8 VARIANZANALYSE 28

Varianzanalyse Tabelle (R & Rcmdr):

Analysis of Variance Table:

DF Sum Sq Mean Sq F value Pr(>F)

var p SQE MQE=SQEp FE = MQE

MQRP (F � FE)

Residuals n� p� 1 SQR MQR= SQRn�p�1

mit den Werten:

SQE =IXi=1

niXj=1

( �Yi� � �Y��)2

SQR =IXi=1

niXj=1

(Yij � �Yi�)2

p = I � 1

und Pr(>F) als zugeh�origem p-Wert.

Page 15: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

9 VERTEILUNGSTABELLEN 29

9 Verteilungstabellen

9.1 Standardnormalverteilung

Tabelliert sind die Werte der Verteilungsfunktion �(z) = P (Z � z) f�ur z � 0.Ablesebeispiel: �(1:75) = 0:9599Funktionswerte f�ur negative Argumente: �(�z) = 1� �(z)Die z-Quantile ergeben sich genau umgekehrt.Beispielsweise ist z(0:9599) = 1:75 und z(0:9750) = 1:96.

0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.090.0 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.53590.1 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.57530.2 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.61410.3 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.65170.4 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.68790.5 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.72240.6 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.75490.7 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.78520.8 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.81330.9 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.83891.0 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.86211.1 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.88301.2 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.90151.3 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.91771.4 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.93191.5 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.94411.6 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.95451.7 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.96331.8 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.97061.9 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.97672.0 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.98172.1 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.98572.2 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.98902.3 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.99162.4 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.99362.5 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.99522.6 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.99642.7 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.99742.8 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.99812.9 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.99863.0 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.99903.1 0.9990 0.9991 0.9991 0.9991 0.9992 0.9992 0.9992 0.9992 0.9993 0.99933.2 0.9993 0.9993 0.9994 0.9994 0.9994 0.9994 0.9994 0.9995 0.9995 0.99953.3 0.9995 0.9995 0.9995 0.9996 0.9996 0.9996 0.9996 0.9996 0.9996 0.99973.4 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.9997 0.99983.5 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998 0.9998

9 VERTEILUNGSTABELLEN 30

9.2 Students t-Verteilung

Tabelliert sind die Quantile f�ur n Freiheitsgrade.F�ur das Quantil t1��(n) gilt F (t1��(n)) = 1� �.Links vom Quantil t1��(n) liegt die Wahrscheinlichkeitsmasse 1� �.Ablesebeispiel: t0:99(20) = 2:528Die Quantile f�ur 0 < 1� � < 0:5 erh�alt man aus t�(n) = �t1��(n)Approximation f�ur n > 30:

t�(n) � z� (z� ist das (�)-Quantil der Standardnormalverteilung)

n 0.6 0.8 0.9 0.95 0.975 0.99 0.995 0.999 0.99951 0.3249 1.3764 3.0777 6.3138 12.706 31.821 63.657 318.31 636.622 0.2887 1.0607 1.8856 2.9200 4.3027 6.9646 9.9248 22.327 31.5993 0.2767 0.9785 1.6377 2.3534 3.1824 4.5407 5.8409 10.215 12.9244 0.2707 0.9410 1.5332 2.1318 2.7764 3.7469 4.6041 7.1732 8.61035 0.2672 0.9195 1.4759 2.0150 2.5706 3.3649 4.0321 5.8934 6.86886 0.2648 0.9057 1.4398 1.9432 2.4469 3.1427 3.7074 5.2076 5.95887 0.2632 0.8960 1.4149 1.8946 2.3646 2.9980 3.4995 4.7853 5.40798 0.2619 0.8889 1.3968 1.8595 2.3060 2.8965 3.3554 4.5008 5.04139 0.2610 0.8834 1.3830 1.8331 2.2622 2.8214 3.2498 4.2968 4.780910 0.2602 0.8791 1.3722 1.8125 2.2281 2.7638 3.1693 4.1437 4.586911 0.2596 0.8755 1.3634 1.7959 2.2010 2.7181 3.1058 4.0247 4.437012 0.2590 0.8726 1.3562 1.7823 2.1788 2.6810 3.0545 3.9296 4.317813 0.2586 0.8702 1.3502 1.7709 2.1604 2.6503 3.0123 3.8520 4.220814 0.2582 0.8681 1.3450 1.7613 2.1448 2.6245 2.9768 3.7874 4.140515 0.2579 0.8662 1.3406 1.7531 2.1314 2.6025 2.9467 3.7328 4.072816 0.2576 0.8647 1.3368 1.7459 2.1199 2.5835 2.9208 3.6862 4.015017 0.2573 0.8633 1.3334 1.7396 2.1098 2.5669 2.8982 3.6458 3.965118 0.2571 0.8620 1.3304 1.7341 2.1009 2.5524 2.8784 3.6105 3.921619 0.2569 0.8610 1.3277 1.7291 2.0930 2.5395 2.8609 3.5794 3.883420 0.2567 0.8600 1.3253 1.7247 2.0860 2.5280 2.8453 3.5518 3.849521 0.2566 0.8591 1.3232 1.7207 2.0796 2.5176 2.8314 3.5272 3.819322 0.2564 0.8583 1.3212 1.7171 2.0739 2.5083 2.8188 3.5050 3.792123 0.2563 0.8575 1.3195 1.7139 2.0687 2.4999 2.8073 3.4850 3.767624 0.2562 0.8569 1.3178 1.7109 2.0639 2.4922 2.7969 3.4668 3.745425 0.2561 0.8562 1.3163 1.7081 2.0595 2.4851 2.7874 3.4502 3.725126 0.2560 0.8557 1.3150 1.7056 2.0555 2.4786 2.7787 3.4350 3.706627 0.2559 0.8551 1.3137 1.7033 2.0518 2.4727 2.7707 3.4210 3.689628 0.2558 0.8546 1.3125 1.7011 2.0484 2.4671 2.7633 3.4082 3.673929 0.2557 0.8542 1.3114 1.6991 2.0452 2.4620 2.7564 3.3962 3.659430 0.2556 0.8538 1.3104 1.6973 2.0423 2.4573 2.7500 3.3852 3.6460

1 0.2533 0.8416 1.2816 1.6449 1.9600 2.3263 2.5758 3.0903 3.2906

Page 16: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

9 VERTEILUNGSTABELLEN 31

9.3 �2-Verteilung

Tabelliert sind die Quantile f�ur n Freiheitsgrade.F�ur das Quantil �2

1��(n) gilt F (�21��(n)) = 1� � :

Links vom Quantil �21��(n) liegt die Wahrscheinlichkeitsmasse 1� �.

Ablesebeispiel: �20:95(10) = 18:307

Approximation f�ur n > 30:

�2�(n) �

1

2(z� +

p2n� 1)2 (z� ist das �-Quantil der Standardnormalverteilung)

n 0.01 0.025 0.05 0.1 0.5 0.9 0.95 0.975 0.991 0.0002 0.0010 0.0039 0.0158 0.4549 2.7055 3.8415 5.0239 6.63492 0.0201 0.0506 0.1026 0.2107 1.3863 4.6052 5.9915 7.3778 9.21033 0.1148 0.2158 0.3518 0.5844 2.3660 6.2514 7.8147 9.3484 11.3454 0.2971 0.4844 0.7107 1.0636 3.3567 7.7794 9.4877 11.143 13.2775 0.5543 0.8312 1.1455 1.6103 4.3515 9.2364 11.070 12.833 15.0866 0.8721 1.2373 1.6354 2.2041 5.3481 10.645 12.592 14.449 16.8127 1.2390 1.6899 2.1674 2.8331 6.3458 12.017 14.067 16.013 18.4758 1.6465 2.1797 2.7326 3.4895 7.3441 13.362 15.507 17.535 20.0909 2.0879 2.7004 3.3251 4.1682 8.3428 14.684 16.919 19.023 21.66610 2.5582 3.2470 3.9403 4.8652 9.3418 15.987 18.307 20.483 23.20911 3.0535 3.8157 4.5748 5.5778 10.341 17.275 19.675 21.920 24.72512 3.5706 4.4038 5.2260 6.3038 11.340 18.549 21.026 23.337 26.21713 4.1069 5.0088 5.8919 7.0415 12.340 19.812 22.362 24.736 27.68814 4.6604 5.6287 6.5706 7.7895 13.339 21.064 23.685 26.119 29.14115 5.2293 6.2621 7.2609 8.5468 14.339 22.307 24.996 27.488 30.57816 5.8122 6.9077 7.9616 9.3122 15.338 23.542 26.296 28.845 32.00017 6.4078 7.5642 8.6718 10.085 16.338 24.769 27.587 30.191 33.40918 7.0149 8.2307 9.3905 10.865 17.338 25.989 28.869 31.526 34.80519 7.6327 8.9065 10.117 11.651 18.338 27.204 30.144 32.852 36.19120 8.2604 9.5908 10.851 12.443 19.337 28.412 31.410 34.170 37.56621 8.8972 10.283 11.591 13.240 20.337 29.615 32.671 35.479 38.93222 9.5425 10.982 12.338 14.041 21.337 30.813 33.924 36.781 40.28923 10.196 11.689 13.091 14.848 22.337 32.007 35.172 38.076 41.63824 10.856 12.401 13.848 15.659 23.337 33.196 36.415 39.364 42.98025 11.524 13.120 14.611 16.473 24.337 34.382 37.652 40.646 44.31426 12.198 13.844 15.379 17.292 25.336 35.563 38.885 41.923 45.64227 12.879 14.573 16.151 18.114 26.336 36.741 40.113 43.195 46.96328 13.565 15.308 16.928 18.939 27.336 37.916 41.337 44.461 48.27829 14.256 16.047 17.708 19.768 28.336 39.087 42.557 45.722 49.58830 14.953 16.791 18.493 20.599 29.336 40.256 43.773 46.979 50.892

9 VERTEILUNGSTABELLEN 32

9.4 Wilcoxon-Vorzeichen-Rang-Test

Kritische Werte w+n; des Vorzeichen-Rang-Tests von Wilcoxon

n w+n;0:01 w

+n;0:025 w

+n;0:05 w

+n;0:10 w

+n;0:90 w

+n;0:95 w

+n;0:975 w

+n;0:99

4 0 0 0 1 8 9 10 105 0 0 1 3 11 13 14 146 0 1 3 4 16 17 19 207 1 3 4 6 21 23 24 268 2 4 6 9 26 29 31 339 4 6 9 11 33 35 38 4010 6 9 11 15 39 43 45 5711 8 11 14 18 47 51 54 5712 10 14 18 22 55 59 62 6613 13 18 22 27 63 68 72 7714 16 22 26 32 72 78 82 8815 20 26 31 37 82 88 93 9916 24 30 36 43 92 99 105 11117 28 35 42 49 103 110 117 12418 33 41 48 56 114 122 129 13719 38 47 54 63 126 135 142 15120 44 53 61 70 139 148 156 165

Page 17: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

10 R & RCMDR AUSGABEN 33

10 R & Rcmdr Ausgaben

10.1 Kennzahlen

Allgemeine Zusammenfassung mit einer numerischen Variable A und einer kategorialen (mit k Aus-pr�agungen) Variable B:

> summary(daten)

A B

Min. : 'Minimum' a1:'Anzahl der Auspraegung 1'

1st Qu.:'1. Quantil' a2:'Anzahl der Auspraegung 1'

Median : 'Median' ...

Mean :'Mittelwert' ak:'Anzahl der Auspraegung k'

3rd Qu.:'3. Quantil'

Max : 'Maximum'

Zusammenfassung numerischer Variablen:

> numSummary(daten, statistics=c("mean", "sd", "quantiles")

mean sd 0%

'Mittelwert' 'Standardabweichung' '0%-Quantil (Minimum)'

25% 50% 75% 100%

'25%-Quantil' '50%-Quantil' '75%-Quantil' '100%-Quantil (Maximum)'

n

'Anzahl der Beobachtungen'

Einzelne Kennzahlen:

> mean(daten)

[1] 'Mittelwert'

> sd(daten)

[1] 'Standardabweichung'

> var(daten)

[1] 'Varianz'

> median(daten)

[1] 'Median'

> IQR(daten)

[1] 'Interquartilsabstand'

> skewness(daten)

[1] 'Schiefe'

> kurtosis(daten)

[1] 'Woelbung'

10 R & RCMDR AUSGABEN 34

Lorenzkurve:

> Lc(daten)

$p

[1] 'Anteile der Merkmalstraeger u'

$L

[1] 'kumulierten relativen Merkmalssummen v'

$L.general

[1] 'Werte fuer die generalisierte Lorenzkurve'

attr(,'class')

[1] 'Lc'

Konzentrationsma�e:

> Gini(daten)

[1] 'Ginikoeffizient'

> Herfindahl(daten)

[1] 'Herfindahlindex'

10.2 Korrelation

> cor(var1, var2, method='pearson')

[1] 'Pearson-Korrelationskoeffizient'

> cor(var1, var2, method='spearman')

[1] 'Spearmans Korrelationskoeffizient'

Page 18: Formelsammlung zur Vorlesung Statistik f ur ...thulke-statistics.de/ba-mg09/data/formeln1.pdfInstitut f ur Statistik SS 08 und WS 08/09 Friedrich Leisch Formelsammlung zur Vorlesung

10 R & RCMDR AUSGABEN 35

10.3 Regression

> reg <- lm(abh. Variable ~ var1 + var2 + ... + varP, data=daten)

> summary(reg)

Call:

lm(formula = abh. Variable ~ var1 + var2 + ... + varP, data = daten)

Residuals:

Min 1Q Median 3Q Max

'Minimum' '1. Quantil' 'Median' '3. Quantil' 'Maximum'

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) �0 �0 T0 P (T � T0)

var1 �1 �1 T1 P (T � T1)

var2 �2 �2 T2 P (T � T2)...

......

......

varP �p �p Tp P (T � Tp)

---

Signif. codes: 0 ***0.001 ** 0.01 * 0.05 . 0.1 1

Residual standard error: 'RSE' on 'DF' degrees of freedom

Multiple R-squared: 'Bestimmtheitsmass R^2', Adjusted R-squared: 'Angepasstes R^2'

F-statistic: 'F' on 'DF1' and 'DF2' DF, p-value: 'P-Wert'

10.4 Varianzanalyse

Analysis of Variance Table:

DF Sum Sq Mean Sq F value Pr(>F)

var p SQE MQE=SQEp FE = MQE

MQRP (F � FE)

Residuals n� p� 1 SQR MQR= SQRn�p�1

mit den Werten:

SQE =IXi=1

niXj=1

( �Yi� � �Y��)2

SQR =IXi=1

niXj=1

(Yij � �Yi�)2

p = I � 1

und Pr(>F) als zugeh�origem p-Wert.

10 R & RCMDR AUSGABEN 36

10.5 Tests

Tests in R befolgen in den meisten F�allen folgendes Ausgabeschema:

Name des Tests

data: Datensatz

Teststatistik = T, ... weitere Informationen ..., p-value = P

alternative hypothesis: Beschreibung der Alternativhypothese

Ja nach Test kommen zu dieser Minimalausgabe noch weitere n�utzliche Informationen hinzu.

Als Beispiel daf�ur die Ausgabe eines gepaarten zweiseitigen t-Tests mit der Berechnung des 95%-Kon�denzintervalls:

> t.test(data$x, data$y, alternative='two.sided',

+ conf.level=.95, paired=TRUE)

Paired t-test

data: data$x and data$y

t = T, df = DF, p-value = P

alternative hypothesis: true difference in means is not equal to 0

95 percent confidence interval:

'untere Grenze' 'obere Grenze'

sample estimates:

mean of the differences

'MD'

mit der t-Statistik T, der Anzahl der Freiheitsgraden DF und dem p-Wert P. Die Alternativhypotheseist die, dass die Di�erenz der Mittelwerte ungleich 0 ist. Zus�atzlich werden noch die Grenzen des 95%-Kon�denzintervalls und der Mittelwert der paarweisen Di�erenzen MD berechnet.