hans walser statistik für naturwissenschaftler€¦ · hans walser statistik für...
TRANSCRIPT
Hans Walser
Statistik für Naturwissenschaftler
AG
AIAR
BE
BL
BS
FR
GE
GL
GR
JU
LU
NE
NW
OWSG
SH
SO
SZ
TG
TI
UR
VD
VS
ZG
ZH
5 10 15 20 25 30 35
3000
2500
2000
1500
1000
KVG-Leistungenpro versichertePerson Durchschnitt Schweiz
Anzahl Ärztepro 10000Einwohner
2 Regressionsgerade und Korrelation Lernumgebung
Hans Walser: 2 Regressionsgerade und Korrelation ii
Inhalt
1 Messwertpaare ........................................................................................................ 1
2 Vertauschte Koordinaten......................................................................................... 2
3 Vertauschte Koordinaten......................................................................................... 5
4 Korrelationskoeffizient ........................................................................................... 8
5 Indirekte Proportionalität ........................................................................................ 9
6 Messwertpaare ...................................................................................................... 10
7 Messwertpaare ...................................................................................................... 11
8 Messwertpaare ...................................................................................................... 12
9 Abkühlung ............................................................................................................ 13
10 Die Fibonacci-Folge............................................................................................ 14
11 Erdbebenschäden ................................................................................................ 17
12 Korrelieren Deutsch und Mathe?......................................................................... 18
13 Eliteschule .......................................................................................................... 20
14 Großvaters Lexikon............................................................................................. 21
15 Random und Spearman ....................................................................................... 21
last modified: 25. Juli 2011
Hans Walser: 2 Regressionsgerade und Korrelation 1
1 Messwertpaare Wir bearbeiten die Messwertpaare:
i 1 2 3 4
xi 4 6 3 7
yi 1 0 4 3
Gegenüber dem vorangehenden Beispiel ist nur die Reihenfolge der Zahlen yi verän-dert worden.
Ergebnis
x
y
1 2 3 4 5 6 7 8 9 10
1
2
3
4
5
6
7
8
9
10
Messwertpaare als Punkte. Regressionsgerade
Die Punkte sind nicht mehr die Ecken eines Quadrates. Mittelwerte: x = 5, y = 2 (dieselben Werte wie oben)
Empirische Kovarianz: cx,y = 1
Empirische Varianzen: sx2
=103, sy2
=103
Hans Walser: 2 Regressionsgerade und Korrelation 2
Steigung der Regressionsgeraden: a = 0.3
Regressionsgerade: y = 0.3x + 3.5
Korrelationskoeffizient: rx,y =3
10 10= 0.3. Negative Korrelation.
2 Vertauschte Koordinaten a) Wir zeichnen die Datenpunkte und die Regressionsgerade zum folgenden Datensatz in das Koordinatensystem. Welche Gleichung hat die Regressionsgerade? Wie groß ist der Korrelationskoeffizient?
i xi yi
1 6 1
2 8 2
3 4 3
1
1
x
y
Koordinatensystem
b) Im folgenden Datensatz sind die Rollen von x und y gegenüber dem Datensatz von a) vertauscht. Wir zeichnen nun die Datenpunkte und die Regressionsgerade zu diesem
Hans Walser: 2 Regressionsgerade und Korrelation 3
Datensatz in das Koordinatensystem. Wie liegen die Datenpunkte im Vergleich zu a)? Was ist für die Regressionsgerade zu erwarten? Welche Gleichung hat die Regressions-gerade tatsächlich? Kommentar? Wie groß ins in b) der Korrelationskoeffizient?
i xi yi
1 1 6
2 2 8
3 3 4
1
1
x
y
Koordinatensystem
Hans Walser: 2 Regressionsgerade und Korrelation 4
Ergebnis a) Gleichung der Regressionsgeraden: y = 0.25x + 3.5
Korrelationskoeffizient: rxy = 0.5
1
1
x
y
Datenpunkte und Regressionsgerade
b) Die Datenpunkte von b) liegen spiegelbildlich (bei Spiegelung an der Geraden y = x ) zu den Datenpunkten von a). Die beiden Regressionsgeraden sind aber nicht spiegel-bildlich. Lediglich die Schwerpunkte sind spiegelbildlich.
Die Regressionsgerade von b) hat die Gleichung: y = x + 8 . Der Korrelationskoeffi-zient ist auch hier: rxy = 0.5
Hans Walser: 2 Regressionsgerade und Korrelation 5
1
1
x
y
Beispiel b)
Beispiel a)
Beide Beispiele im selben Koordinatensystem
Kommentar: Die Regressionsgerade ist asymmetrisch bezüglich x und y definiert. Der Korrelationskoeffizient ist aber symmetrisch definiert.
3 Vertauschte Koordinaten a) Wir zeichnen die Datenpunkte und die Regressionsgerade zum folgenden Datensatz in das Koordinatensystem. Welche Gleichung hat die Regressionsgerade? Wie groß ist der Korrelationskoeffizient?
i xi yi
1 4 2
2 6 3
3 5 4
Hans Walser: 2 Regressionsgerade und Korrelation 6
1
1
x
y
Koordinatensystem
b) Im folgenden Datensatz sind die Rollen von x und y gegenüber dem Datensatz von a) vertauscht. Wir zeichnen nun die Datenpunkte und die Regressionsgerade zu diesem Datensatz in das Koordinatensystem. Wie liegen die Datenpunkte im Vergleich zu a)? Was ist für die Regressionsgerade zu erwarten? Welche Gleichung hat die Regressions-gerade tatsächlich? Kommentar? Wie groß ins in b) der Korrelationskoeffizient?
i xi yi
1 2 4
2 3 6
3 4 5
Hans Walser: 2 Regressionsgerade und Korrelation 7
1
1
x
y
Koordinatensystem
Ergebnis a) Gleichung der Regressionsgeraden: y = 0.5x + 0.5
Korrelationskoeffizient: rxy = 0.5
1
1
x
Datenpunkte und Regressionsgerade
Hans Walser: 2 Regressionsgerade und Korrelation 8
b) Die Datenpunkte von b) liegen spiegelbildlich (bei Spiegelung an der Geraden y = x ) zu den Datenpunkten von a). Die beiden Regressionsgeraden sind aber nicht spiegel-bildlich. Lediglich die Schwerpunkte sind spiegelbildlich.
Die Regressionsgerade von b) hat die Gleichung: y = 0.5x + 3.5 . Der Korrelationskoef-fizient ist auch hier: rxy = 0.5
1
1
x
Beispiel a)
Beispiel b)
Beide Beispiele im selben Koordinatensystem
Kommentar: Die Regressionsgerade ist asymmetrisch bezüglich x und y definiert. Der Korrelationskoeffizient ist aber symmetrisch definiert.
4 Korrelationskoeffizient Wählen Sie einige Werte für xi und berechnen Sie yi mit einer selbst gewählten linea-ren Funktion yi = axi + b . Berechnen Sie anschließend den Korrelationskoeffizienten rx,y .
Ergebnis
rx,y =+1 falls a > 0
1 falls a < 0
Der Wert von b spielt keine Rolle.
Hans Walser: 2 Regressionsgerade und Korrelation 9
Beispiele Beispiel: yi = 1.2xi + 0.5
x[i] y[i]
1 1.7
2 2.9
4 5.3
6 7.7
3 4.1
Korrelationskoeffizient 1
Beispiel: yi = 1.2xi + 0.5
x[i] y[i]
1 -0.7
2 -1.9
4 -4.3
6 -6.7
3 -3.1
Korrelationskoeffizient -1
5 Indirekte Proportionalität Wählen Sie einige Werte für xi und berechnen Sie yi mit einer selbst gewählten gebro-
chen linearen Funktion von der Form yi =axi
. Berechnen Sie anschließend den Korrela-
tionskoeffizienten rx,y .
Ergebnis
rx,y 1, 1] [
Die Extremwerte ±1 werden nicht angenommen.
Beispiel
yi =1.2xi
x[i] y[i]
1 1.2
2 0.6
4 0.3
6 0.2
3 0.4
Korrelationskoeffizient -0.863206158
Wir erhalten nicht den Korrelationskoeffizienten 1.
Hans Walser: 2 Regressionsgerade und Korrelation 10
6 Messwertpaare Wir bearbeiten die Messwertpaare:
i 1 2
xi 1 5
yi 1 3
Wir haben nur noch zwei Punkte. Was heißt das?
Ergebnis
x
y
1 2 3 4 5 6 7 8 9 10
1
2
3
4
5
6
7
8
9
10
Messwertpaare als Punkte. Regressionsgerade
Die Regressionsgerade geht exakt durch die beiden Punkte. Der Schwerpunkt ist der Mittelpunkt. Mittelwerte: x = 3, y = 2
Empirische Kovarianz: cx,y = 4
Empirische Varianzen: sx2
= 8, sy2
= 2
Hans Walser: 2 Regressionsgerade und Korrelation 11
Steigung der Regressionsgeraden: a =12
Regressionsgerade: y =12x +
12
Korrelationskoeffizient: rx,y =48 2
= +1. Maximale positive Korrelation.
7 Messwertpaare Wir bearbeiten die Messwertpaare:
i 1 2
xi a c
yi b d
Wir haben nur noch zwei Punkte. Was heißt das?
Ergebnis Die Regressionsgerade geht exakt durch die beiden Punkte. Der Schwerpunkt ist der Mittelpunkt.
Mittelwerte: x =a+c2, y =
b+d2
Empirische Kovarianz: cx,y = 12ab ad bc + cd( ) = 1
2a c( ) b d( )
Empirische Varianzen: sx2
= 12a c( )
2, sy2
= 12b d( )
2.
Damit ist: sx =12a c , sy =
12b d . Warum die Betragsstriche?
Steigung der Regressionsgeraden: a =b da c
Regressionsgerade: y =b da c
x +ad bca c
Korrelationskoeffizient: rx,y =12a c( ) b d( )
12a c 1
2b d
=a c( ) b d( )a c b d
= sgn
Vor-zeichen
a c( ) b d( )( ) = ±1.
Maximale positive oder maximale negative Korrelation.
Hans Walser: 2 Regressionsgerade und Korrelation 12
8 Messwertpaare Wir bearbeiten die Messwertpaare:
x[i] y[i]
1 2
2 1
2 3
3 2
3 4
4 3
4 5
5 4
Zeichnung? Regressionsgerade?
Ergebnis
y = 0.6667x + 1
0
1
2
3
4
5
6
0 1 2 3 4 5 6
Reihe1
Schwerpunkt
Linear (Reihe1)
Regressionsgerade
Auffallend ist folgendes: Die Punktwolke ist schön symmetrisch, die Symmetrieachse
hat die Gleichung y = x . Die Regressionsgerade mit der Gleichung y = 23x +1 ist nicht
die Symmetrieachse. Dies hängt damit zusammen, dass bei der Berechnung der Regres-sionsgeraden die beiden Werte x und y unterschiedlich behandelt werden.
Hans Walser: 2 Regressionsgerade und Korrelation 13
9 Abkühlung Bei einem Abkühlungsprozess zeigt das Thermometer zur Zeit x [in sec] die Temperatur y [in °C] an:
Zeit x 10 20 30 60 90 120 180 240 300
Temperatur y 27.9 25.8 24.3 19.5 15.9 12.8 8.5 5.6 3.6
Zwischen x und y wird ein Zusammenhang der Form y = aebx vermutet.
Angenommen, wir haben lediglich ein Programm für die lineare Regression vom Typ y = mx + q zur Verfügung. Wie kann das Problem trotzdem gelöst werden?
Bearbeitung
Aus y = aebx folgt ln y( ) = ln a( ) + bx ; dies ist eine Geradengleichung. Wir können
also die y-Werte durch ln y( ) ersetzen und dann mit der linearen Regression arbeiten.
Zeit x 10 20 30 60 90 120 180 240 300 Temperatur y 27.9 25.8 24.3 19.5 15.9 12.8 8.5 5.6 3.6
ln(y) 3.329 3.250 3.190 2.970 2.766 2.549 2.140 1.723 1.281
Das gibt dann folgende Situation (die Punkte liegen fast zu genau auf einer Geraden):
Lineare Regression
Hans Walser: 2 Regressionsgerade und Korrelation 14
Somit ist b = 0.00702 und ln a( ) = 3.39645 , also a = 29.85792 . Wir erhalten die
Funktion:
y = 29.85792e 0.00702x
Mit Excel kann man das auch direkt machen (Option: exponentielle Trendlinie):
Exponentielle Trendlinie
10 Die Fibonacci-Folge Die Fibonacci-Folge ist durch die Startwerte f1 =1, f2 =1 und die Rekursion
fi+2 = fi+1 + fi
definiert.
a) Welches sind die ersten zehn Glieder der Fibonacci-Folge?
b) Diagramm i und fi für die ersten zehn Glieder
c) Wie korrelieren i und fi für die ersten zehn Glieder?
d) Diagramm i und ln fi( ) für die ersten zehn Glieder
e) Wie korrelieren i und ln fi( ) für die ersten zehn Glieder
f) Wie groß ist der Spearmansche Rangkorrelationskoeffizient für i und fi?
Hans Walser: 2 Regressionsgerade und Korrelation 15
Bearbeitung a)
i fi ln fi( )
1 1 0 2 1 0 3 2 0.69314718 4 3 1.09861229 5 5 1.60943791 6 8 2.07944154 7 13 2.56494936 8 21 3.04452244 9 34 3.52636052
10 55 4.00733319
b)
0
10
20
30
40
50
60
0 2 4 6 8 10
Nummer i
Fibo
nacc
izah
l fi
Die ersten zehn Fibonacci-Zahlen
c) ri, fi = 0.8713
Hans Walser: 2 Regressionsgerade und Korrelation 16
d)
0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
0 2 4 6 8 10
Nummer i
ln(f
i)
Die Logarithmen der ersten zehn Fibonacci-Zahlen
e) ri,ln fi( ) = 0.9968
f) Der Spearmansche Rangkorrelationskoeffizient für i und fi ist 1, da i und fi dieselbe Rangreihenfolge haben. Die Rechnung nach Rezept gibt allerdings etwas weniger, weil wegen f1 =1 und f2 =1 hier die Ränge gemittelt werden müssen. Es ergibt sich dann:
rSpearman = 16
n3 ndi2
i=1
n=30293030
0.9997
Hans Walser: 2 Regressionsgerade und Korrelation 17
11 Erdbebenschäden Fiktives Beispiel
In einem stark erdbebengefährdeten Gebiet fanden im vergangenen Jahr 8 Erdbeben statt:
Nr Stärke
(Richter-
skala)
Schäden in Mio $
1 3.8 42
2 2.4 33
3 2.6 20
4 3.7 40
5 5.4 49
6 6.2 45
7 3.8 33
Korrelieren Stärke und Schadensumme?
Bearbeitung Da die Richterskala eine Ordinalskala ist, müssen wir den Rangkorrelationskoeffizien-ten gemäß Spearman anwenden.
Erdbeben
Nr Stärke
(Richter-
skala)
Schäden
in Mio $
Rang
Richter-
skala
Rang
Schaden
Rang-
differenz Differenz^2
1 3.8 42 4.5 5 -0.5 0.25
2 2.4 33 1 2.5 -1.5 2.25
3 2.6 20 2 1 1 1
4 3.7 40 3 4 -1 1
5 5.4 49 6 7 -1 1
6 6.2 45 7 6 1 1
7 3.8 33 4.5 2.5 2 4
Summe 10.5
Korrelationskoeffizient nach Spearman 0.8125
Hans Walser: 2 Regressionsgerade und Korrelation 18
12 Korrelieren Deutsch und Mathe? Verbale Leistungsbewertung einer Schulklasse in den Fächern Deutsch und Mathema-tik. Korrelieren die beiden Schulfächer?
Nr Deutsch Mathe
1 gut sehr gut
2 sehr gut genügend
3 genügend sehr gut
4 gut genügend
5 gut gut
6 sehr gut gut
7 ungenügend genügend
8 gut sehr gut
9 ungenügend genügend
10 gut genügend
11 gut gut
12 gut gut
13 ungenügend gut
14 ungenügend ungenügend
15 sehr gut sehr gut
16 ungenügend genügend
17 gut sehr gut
18 ungenügend genügend
19 ungenügend ungenügend
20 sehr gut genügend
Hans Walser: 2 Regressionsgerade und Korrelation 19
Ergebnis Die Bewertung erfolgt auf einer Ordinalskala. Wir müssen den Rangkorrelationskoeffi-zienten gemäß Spearman anwenden.
Nr Deutsch Mathe Rang
Deutsch
Rang
Mathe Diff Diff^2
1 gut sehr gut 8.5 3 5.5 30.25
2 sehr gut genügend 2.5 14.5 -12 144
3 genügend sehr gut 13 3 10 100
4 gut genügend 8.5 14.5 -6 36
5 gut gut 8.5 8 0.5 0.25
6 sehr gut gut 2.5 8 -5.5 30.25
7 ungenügend genügend 17 14.5 2.5 6.25
8 gut sehr gut 8.5 3 5.5 30.25
9 ungenügend genügend 17 14.5 2.5 6.25
10 gut genügend 8.5 14.5 -6 36
11 gut gut 8.5 8 0.5 0.25
12 gut gut 8.5 8 0.5 0.25
13 ungenügend gut 17 8 9 81
14 ungenügend ungenügend 17 19.5 -2.5 6.25
15 sehr gut sehr gut 2.5 3 -0.5 0.25
16 ungenügend genügend 17 14.5 2.5 6.25
17 gut sehr gut 8.5 3 5.5 30.25
18 ungenügend genügend 17 14.5 2.5 6.25
19 ungenügend ungenügend 17 19.5 -2.5 6.25
20 sehr gut genügend 2.5 14.5 -12 144
Summe 210 210 0 700.5
Korrelationskoeffizient nach Spearman 0.473308271
Die offenbar einseitig begabten SchülerInnen Nr 2 und Nr 20 tragen sehr viel zur Sum-me der Quadrate der Rangdifferenzen bei und drücken damit den Korrelationskoeffi-zienten.
Hans Walser: 2 Regressionsgerade und Korrelation 20
13 Eliteschule An einem englischen Elite-College werden für eine Gruppe von 7 Zöglingen die Leis-tungen in Sport und Musik auf einer Ordinalskala von A bis E wie folgt bewertet:
Nr Sport Musik
1 A A
2 E D
3 B D
4 A B
5 B C
6 D A
7 C B
Wie korrelieren die Daten?
Bearbeitung Die Bewertung erfolgt auf einer Ordinalskala. Wir müssen den Rangkorrelationskoeffi-zienten gemäß Spearman anwenden. Für den Korrelationskoeffizienten ist es unwesent-lich, ob A die beste und E die schlechteste Zensur ist oder umgekehrt.
Nr Sport Musik Rang Sport
Rang Musik
Differenz Differenz^2
1 A A 1.5 1.5 0 0
2 E D 7 6.5 0.5 0.25
3 B D 3.5 6.5 -3 9
4 A B 1.5 3.5 -2 4
5 B C 3.5 5 -1.5 2.25
6 D A 6 1.5 4.5 20.25
7 C B 5 3.5 1.5 2.25
Summe 28 28 0 38
Korrelationskoeffizient nach Spearman 0.321428571
Hans Walser: 2 Regressionsgerade und Korrelation 21
14 Großvaters Lexikon Großvater hat ein Lexikon in drei Bänden. Leider stehen sie nicht immer in der richti-gen Reihenfolge auf dem Buchgestell. Was ist die „richtige“ Reihenfolge? Was ist die falscheste Reihenfolge? Wie groß ist bei einer falschen Reihenfolge der Spearmansche Rangkorrelationskoeffizient, verglichen mit der Reihenfolge 1, 2, 3?
Bearbeitung Für zum Beispiel die Reihenfolge 3, 1, 2 erhalten wir:
Richtige Reihenfolge Falsche Reihenfolge Rangdifferenz Quadrat davon
1 3 -2 4
2 1 1 1
3 2 1 1
Summe 6
Korrelationskoeffizient nach Spearman -0.5
Für die totale Übersicht ergibt sich:
Es gibt 3!= 6 Rangreihenfolgen. Die Korrelationskoeffizienten variieren zwischen +1 („richtige“ Reihenfolge) und -1 (total verkehrte Reihenfolge).
Reihenfolge Rangkorrelationskoeffizient
1 2 3 1
1 3 2 0.5
2 1 3 0.5
2 3 1 -0.5
3 1 2 -0.5
3 2 1 -1
15 Random und Spearman Generieren sie mit dem Zufallsgenerator zwei Zahlenreihen und berechen den Rangkor-relationskoeffizienten nach Spearman.
Exemplarische Bearbeitung Wir arbeiten mit Excel und generieren 20 Zufallszahlen:
Nummer Zufallszahl
1 0.737222627
2 0.042284164
3 0.10591082
4 0.739902873
5 0.440035135
6 0.365101717
7 0.508150351
8 0.786673248
9 0.632485553
Hans Walser: 2 Regressionsgerade und Korrelation 22
10 0.420535952
11 0.150226457
12 0.885548039
13 0.728975984
14 0.944533758
15 0.248093557
16 0.4707944
17 0.618761844
18 0.322472481
19 0.298813171
20 0.792710042
Dann ordnen wir die Zahlen mitsamt ihrer Nummerierung der Größe nach und numme-rieren neu:
Nun berechnen wir den Spearman’schen Korrelationskoeffizienten zwischen der alten und der neuen Nummerierung.
Neue Nummer Alte Nummer Differenz Quadrat
1 19 -18 324
2 4 -2 4
3 9 -6 36
4 7 -3 9
5 12 -7 49
6 6 0 0
7 3 4 16
8 13 -5 25
9 5 4 16
10 20 -10 100
11 8 3 9
12 10 2 4
13 11 2 4
14 18 -4 16
15 17 -2 4
16 2 14 196
17 1 16 256
18 14 4 16
19 15 4 16
20 16 4 16
Summe 0 1116
Für den Spearman’schen Korrelationskoeffizienten erhalten wir:
rSpearman = 16
n3 nd j2
j=1
20= 0.160902256
Hans Walser: 2 Regressionsgerade und Korrelation 23
Die Punktwolke ist wild verteilt:
Punktwolke