hans walser statistik für naturwissenschaftler€¦ · hans walser statistik für...

25
Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG ZH 5 10 15 20 25 30 35 3000 2500 2000 1500 1000 KVG-Leistungen pro versicherte Person Durchschnitt Schweiz Anzahl Ärzte pro 10000 Einwohner 2 Regressionsgerade und Korrelation Lernumgebung

Upload: others

Post on 02-Oct-2020

7 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser

Statistik für Naturwissenschaftler

AG

AIAR

BE

BL

BS

FR

GE

GL

GR

JU

LU

NE

NW

OWSG

SH

SO

SZ

TG

TI

UR

VD

VS

ZG

ZH

5 10 15 20 25 30 35

3000

2500

2000

1500

1000

KVG-Leistungenpro versichertePerson Durchschnitt Schweiz

Anzahl Ärztepro 10000Einwohner

2 Regressionsgerade und Korrelation Lernumgebung

Page 2: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation ii

Inhalt

1 Messwertpaare ........................................................................................................ 1

2 Vertauschte Koordinaten......................................................................................... 2

3 Vertauschte Koordinaten......................................................................................... 5

4 Korrelationskoeffizient ........................................................................................... 8

5 Indirekte Proportionalität ........................................................................................ 9

6 Messwertpaare ...................................................................................................... 10

7 Messwertpaare ...................................................................................................... 11

8 Messwertpaare ...................................................................................................... 12

9 Abkühlung ............................................................................................................ 13

10 Die Fibonacci-Folge............................................................................................ 14

11 Erdbebenschäden ................................................................................................ 17

12 Korrelieren Deutsch und Mathe?......................................................................... 18

13 Eliteschule .......................................................................................................... 20

14 Großvaters Lexikon............................................................................................. 21

15 Random und Spearman ....................................................................................... 21

last modified: 25. Juli 2011

Page 3: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 1

1 Messwertpaare Wir bearbeiten die Messwertpaare:

i 1 2 3 4

xi 4 6 3 7

yi 1 0 4 3

Gegenüber dem vorangehenden Beispiel ist nur die Reihenfolge der Zahlen yi verän-dert worden.

Ergebnis

x

y

1 2 3 4 5 6 7 8 9 10

1

2

3

4

5

6

7

8

9

10

Messwertpaare als Punkte. Regressionsgerade

Die Punkte sind nicht mehr die Ecken eines Quadrates. Mittelwerte: x = 5, y = 2 (dieselben Werte wie oben)

Empirische Kovarianz: cx,y = 1

Empirische Varianzen: sx2

=103, sy2

=103

Page 4: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 2

Steigung der Regressionsgeraden: a = 0.3

Regressionsgerade: y = 0.3x + 3.5

Korrelationskoeffizient: rx,y =3

10 10= 0.3. Negative Korrelation.

2 Vertauschte Koordinaten a) Wir zeichnen die Datenpunkte und die Regressionsgerade zum folgenden Datensatz in das Koordinatensystem. Welche Gleichung hat die Regressionsgerade? Wie groß ist der Korrelationskoeffizient?

i xi yi

1 6 1

2 8 2

3 4 3

1

1

x

y

Koordinatensystem

b) Im folgenden Datensatz sind die Rollen von x und y gegenüber dem Datensatz von a) vertauscht. Wir zeichnen nun die Datenpunkte und die Regressionsgerade zu diesem

Page 5: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 3

Datensatz in das Koordinatensystem. Wie liegen die Datenpunkte im Vergleich zu a)? Was ist für die Regressionsgerade zu erwarten? Welche Gleichung hat die Regressions-gerade tatsächlich? Kommentar? Wie groß ins in b) der Korrelationskoeffizient?

i xi yi

1 1 6

2 2 8

3 3 4

1

1

x

y

Koordinatensystem

Page 6: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 4

Ergebnis a) Gleichung der Regressionsgeraden: y = 0.25x + 3.5

Korrelationskoeffizient: rxy = 0.5

1

1

x

y

Datenpunkte und Regressionsgerade

b) Die Datenpunkte von b) liegen spiegelbildlich (bei Spiegelung an der Geraden y = x ) zu den Datenpunkten von a). Die beiden Regressionsgeraden sind aber nicht spiegel-bildlich. Lediglich die Schwerpunkte sind spiegelbildlich.

Die Regressionsgerade von b) hat die Gleichung: y = x + 8 . Der Korrelationskoeffi-zient ist auch hier: rxy = 0.5

Page 7: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 5

1

1

x

y

Beispiel b)

Beispiel a)

Beide Beispiele im selben Koordinatensystem

Kommentar: Die Regressionsgerade ist asymmetrisch bezüglich x und y definiert. Der Korrelationskoeffizient ist aber symmetrisch definiert.

3 Vertauschte Koordinaten a) Wir zeichnen die Datenpunkte und die Regressionsgerade zum folgenden Datensatz in das Koordinatensystem. Welche Gleichung hat die Regressionsgerade? Wie groß ist der Korrelationskoeffizient?

i xi yi

1 4 2

2 6 3

3 5 4

Page 8: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 6

1

1

x

y

Koordinatensystem

b) Im folgenden Datensatz sind die Rollen von x und y gegenüber dem Datensatz von a) vertauscht. Wir zeichnen nun die Datenpunkte und die Regressionsgerade zu diesem Datensatz in das Koordinatensystem. Wie liegen die Datenpunkte im Vergleich zu a)? Was ist für die Regressionsgerade zu erwarten? Welche Gleichung hat die Regressions-gerade tatsächlich? Kommentar? Wie groß ins in b) der Korrelationskoeffizient?

i xi yi

1 2 4

2 3 6

3 4 5

Page 9: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 7

1

1

x

y

Koordinatensystem

Ergebnis a) Gleichung der Regressionsgeraden: y = 0.5x + 0.5

Korrelationskoeffizient: rxy = 0.5

1

1

x

Datenpunkte und Regressionsgerade

Page 10: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 8

b) Die Datenpunkte von b) liegen spiegelbildlich (bei Spiegelung an der Geraden y = x ) zu den Datenpunkten von a). Die beiden Regressionsgeraden sind aber nicht spiegel-bildlich. Lediglich die Schwerpunkte sind spiegelbildlich.

Die Regressionsgerade von b) hat die Gleichung: y = 0.5x + 3.5 . Der Korrelationskoef-fizient ist auch hier: rxy = 0.5

1

1

x

Beispiel a)

Beispiel b)

Beide Beispiele im selben Koordinatensystem

Kommentar: Die Regressionsgerade ist asymmetrisch bezüglich x und y definiert. Der Korrelationskoeffizient ist aber symmetrisch definiert.

4 Korrelationskoeffizient Wählen Sie einige Werte für xi und berechnen Sie yi mit einer selbst gewählten linea-ren Funktion yi = axi + b . Berechnen Sie anschließend den Korrelationskoeffizienten rx,y .

Ergebnis

rx,y =+1 falls a > 0

1 falls a < 0

Der Wert von b spielt keine Rolle.

Page 11: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 9

Beispiele Beispiel: yi = 1.2xi + 0.5

x[i] y[i]

1 1.7

2 2.9

4 5.3

6 7.7

3 4.1

Korrelationskoeffizient 1

Beispiel: yi = 1.2xi + 0.5

x[i] y[i]

1 -0.7

2 -1.9

4 -4.3

6 -6.7

3 -3.1

Korrelationskoeffizient -1

5 Indirekte Proportionalität Wählen Sie einige Werte für xi und berechnen Sie yi mit einer selbst gewählten gebro-

chen linearen Funktion von der Form yi =axi

. Berechnen Sie anschließend den Korrela-

tionskoeffizienten rx,y .

Ergebnis

rx,y 1, 1] [

Die Extremwerte ±1 werden nicht angenommen.

Beispiel

yi =1.2xi

x[i] y[i]

1 1.2

2 0.6

4 0.3

6 0.2

3 0.4

Korrelationskoeffizient -0.863206158

Wir erhalten nicht den Korrelationskoeffizienten 1.

Page 12: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 10

6 Messwertpaare Wir bearbeiten die Messwertpaare:

i 1 2

xi 1 5

yi 1 3

Wir haben nur noch zwei Punkte. Was heißt das?

Ergebnis

x

y

1 2 3 4 5 6 7 8 9 10

1

2

3

4

5

6

7

8

9

10

Messwertpaare als Punkte. Regressionsgerade

Die Regressionsgerade geht exakt durch die beiden Punkte. Der Schwerpunkt ist der Mittelpunkt. Mittelwerte: x = 3, y = 2

Empirische Kovarianz: cx,y = 4

Empirische Varianzen: sx2

= 8, sy2

= 2

Page 13: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 11

Steigung der Regressionsgeraden: a =12

Regressionsgerade: y =12x +

12

Korrelationskoeffizient: rx,y =48 2

= +1. Maximale positive Korrelation.

7 Messwertpaare Wir bearbeiten die Messwertpaare:

i 1 2

xi a c

yi b d

Wir haben nur noch zwei Punkte. Was heißt das?

Ergebnis Die Regressionsgerade geht exakt durch die beiden Punkte. Der Schwerpunkt ist der Mittelpunkt.

Mittelwerte: x =a+c2, y =

b+d2

Empirische Kovarianz: cx,y = 12ab ad bc + cd( ) = 1

2a c( ) b d( )

Empirische Varianzen: sx2

= 12a c( )

2, sy2

= 12b d( )

2.

Damit ist: sx =12a c , sy =

12b d . Warum die Betragsstriche?

Steigung der Regressionsgeraden: a =b da c

Regressionsgerade: y =b da c

x +ad bca c

Korrelationskoeffizient: rx,y =12a c( ) b d( )

12a c 1

2b d

=a c( ) b d( )a c b d

= sgn

Vor-zeichen

a c( ) b d( )( ) = ±1.

Maximale positive oder maximale negative Korrelation.

Page 14: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 12

8 Messwertpaare Wir bearbeiten die Messwertpaare:

x[i] y[i]

1 2

2 1

2 3

3 2

3 4

4 3

4 5

5 4

Zeichnung? Regressionsgerade?

Ergebnis

y = 0.6667x + 1

0

1

2

3

4

5

6

0 1 2 3 4 5 6

Reihe1

Schwerpunkt

Linear (Reihe1)

Regressionsgerade

Auffallend ist folgendes: Die Punktwolke ist schön symmetrisch, die Symmetrieachse

hat die Gleichung y = x . Die Regressionsgerade mit der Gleichung y = 23x +1 ist nicht

die Symmetrieachse. Dies hängt damit zusammen, dass bei der Berechnung der Regres-sionsgeraden die beiden Werte x und y unterschiedlich behandelt werden.

Page 15: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 13

9 Abkühlung Bei einem Abkühlungsprozess zeigt das Thermometer zur Zeit x [in sec] die Temperatur y [in °C] an:

Zeit x 10 20 30 60 90 120 180 240 300

Temperatur y 27.9 25.8 24.3 19.5 15.9 12.8 8.5 5.6 3.6

Zwischen x und y wird ein Zusammenhang der Form y = aebx vermutet.

Angenommen, wir haben lediglich ein Programm für die lineare Regression vom Typ y = mx + q zur Verfügung. Wie kann das Problem trotzdem gelöst werden?

Bearbeitung

Aus y = aebx folgt ln y( ) = ln a( ) + bx ; dies ist eine Geradengleichung. Wir können

also die y-Werte durch ln y( ) ersetzen und dann mit der linearen Regression arbeiten.

Zeit x 10 20 30 60 90 120 180 240 300 Temperatur y 27.9 25.8 24.3 19.5 15.9 12.8 8.5 5.6 3.6

ln(y) 3.329 3.250 3.190 2.970 2.766 2.549 2.140 1.723 1.281

Das gibt dann folgende Situation (die Punkte liegen fast zu genau auf einer Geraden):

Lineare Regression

Page 16: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 14

Somit ist b = 0.00702 und ln a( ) = 3.39645 , also a = 29.85792 . Wir erhalten die

Funktion:

y = 29.85792e 0.00702x

Mit Excel kann man das auch direkt machen (Option: exponentielle Trendlinie):

Exponentielle Trendlinie

10 Die Fibonacci-Folge Die Fibonacci-Folge ist durch die Startwerte f1 =1, f2 =1 und die Rekursion

fi+2 = fi+1 + fi

definiert.

a) Welches sind die ersten zehn Glieder der Fibonacci-Folge?

b) Diagramm i und fi für die ersten zehn Glieder

c) Wie korrelieren i und fi für die ersten zehn Glieder?

d) Diagramm i und ln fi( ) für die ersten zehn Glieder

e) Wie korrelieren i und ln fi( ) für die ersten zehn Glieder

f) Wie groß ist der Spearmansche Rangkorrelationskoeffizient für i und fi?

Page 17: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 15

Bearbeitung a)

i fi ln fi( )

1 1 0 2 1 0 3 2 0.69314718 4 3 1.09861229 5 5 1.60943791 6 8 2.07944154 7 13 2.56494936 8 21 3.04452244 9 34 3.52636052

10 55 4.00733319

b)

0

10

20

30

40

50

60

0 2 4 6 8 10

Nummer i

Fibo

nacc

izah

l fi

Die ersten zehn Fibonacci-Zahlen

c) ri, fi = 0.8713

Page 18: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 16

d)

0

0.5

1

1.5

2

2.5

3

3.5

4

4.5

0 2 4 6 8 10

Nummer i

ln(f

i)

Die Logarithmen der ersten zehn Fibonacci-Zahlen

e) ri,ln fi( ) = 0.9968

f) Der Spearmansche Rangkorrelationskoeffizient für i und fi ist 1, da i und fi dieselbe Rangreihenfolge haben. Die Rechnung nach Rezept gibt allerdings etwas weniger, weil wegen f1 =1 und f2 =1 hier die Ränge gemittelt werden müssen. Es ergibt sich dann:

rSpearman = 16

n3 ndi2

i=1

n=30293030

0.9997

Page 19: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 17

11 Erdbebenschäden Fiktives Beispiel

In einem stark erdbebengefährdeten Gebiet fanden im vergangenen Jahr 8 Erdbeben statt:

Nr Stärke

(Richter-

skala)

Schäden in Mio $

1 3.8 42

2 2.4 33

3 2.6 20

4 3.7 40

5 5.4 49

6 6.2 45

7 3.8 33

Korrelieren Stärke und Schadensumme?

Bearbeitung Da die Richterskala eine Ordinalskala ist, müssen wir den Rangkorrelationskoeffizien-ten gemäß Spearman anwenden.

Erdbeben

Nr Stärke

(Richter-

skala)

Schäden

in Mio $

Rang

Richter-

skala

Rang

Schaden

Rang-

differenz Differenz^2

1 3.8 42 4.5 5 -0.5 0.25

2 2.4 33 1 2.5 -1.5 2.25

3 2.6 20 2 1 1 1

4 3.7 40 3 4 -1 1

5 5.4 49 6 7 -1 1

6 6.2 45 7 6 1 1

7 3.8 33 4.5 2.5 2 4

Summe 10.5

Korrelationskoeffizient nach Spearman 0.8125

Page 20: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 18

12 Korrelieren Deutsch und Mathe? Verbale Leistungsbewertung einer Schulklasse in den Fächern Deutsch und Mathema-tik. Korrelieren die beiden Schulfächer?

Nr Deutsch Mathe

1 gut sehr gut

2 sehr gut genügend

3 genügend sehr gut

4 gut genügend

5 gut gut

6 sehr gut gut

7 ungenügend genügend

8 gut sehr gut

9 ungenügend genügend

10 gut genügend

11 gut gut

12 gut gut

13 ungenügend gut

14 ungenügend ungenügend

15 sehr gut sehr gut

16 ungenügend genügend

17 gut sehr gut

18 ungenügend genügend

19 ungenügend ungenügend

20 sehr gut genügend

Page 21: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 19

Ergebnis Die Bewertung erfolgt auf einer Ordinalskala. Wir müssen den Rangkorrelationskoeffi-zienten gemäß Spearman anwenden.

Nr Deutsch Mathe Rang

Deutsch

Rang

Mathe Diff Diff^2

1 gut sehr gut 8.5 3 5.5 30.25

2 sehr gut genügend 2.5 14.5 -12 144

3 genügend sehr gut 13 3 10 100

4 gut genügend 8.5 14.5 -6 36

5 gut gut 8.5 8 0.5 0.25

6 sehr gut gut 2.5 8 -5.5 30.25

7 ungenügend genügend 17 14.5 2.5 6.25

8 gut sehr gut 8.5 3 5.5 30.25

9 ungenügend genügend 17 14.5 2.5 6.25

10 gut genügend 8.5 14.5 -6 36

11 gut gut 8.5 8 0.5 0.25

12 gut gut 8.5 8 0.5 0.25

13 ungenügend gut 17 8 9 81

14 ungenügend ungenügend 17 19.5 -2.5 6.25

15 sehr gut sehr gut 2.5 3 -0.5 0.25

16 ungenügend genügend 17 14.5 2.5 6.25

17 gut sehr gut 8.5 3 5.5 30.25

18 ungenügend genügend 17 14.5 2.5 6.25

19 ungenügend ungenügend 17 19.5 -2.5 6.25

20 sehr gut genügend 2.5 14.5 -12 144

Summe 210 210 0 700.5

Korrelationskoeffizient nach Spearman 0.473308271

Die offenbar einseitig begabten SchülerInnen Nr 2 und Nr 20 tragen sehr viel zur Sum-me der Quadrate der Rangdifferenzen bei und drücken damit den Korrelationskoeffi-zienten.

Page 22: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 20

13 Eliteschule An einem englischen Elite-College werden für eine Gruppe von 7 Zöglingen die Leis-tungen in Sport und Musik auf einer Ordinalskala von A bis E wie folgt bewertet:

Nr Sport Musik

1 A A

2 E D

3 B D

4 A B

5 B C

6 D A

7 C B

Wie korrelieren die Daten?

Bearbeitung Die Bewertung erfolgt auf einer Ordinalskala. Wir müssen den Rangkorrelationskoeffi-zienten gemäß Spearman anwenden. Für den Korrelationskoeffizienten ist es unwesent-lich, ob A die beste und E die schlechteste Zensur ist oder umgekehrt.

Nr Sport Musik Rang Sport

Rang Musik

Differenz Differenz^2

1 A A 1.5 1.5 0 0

2 E D 7 6.5 0.5 0.25

3 B D 3.5 6.5 -3 9

4 A B 1.5 3.5 -2 4

5 B C 3.5 5 -1.5 2.25

6 D A 6 1.5 4.5 20.25

7 C B 5 3.5 1.5 2.25

Summe 28 28 0 38

Korrelationskoeffizient nach Spearman 0.321428571

Page 23: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 21

14 Großvaters Lexikon Großvater hat ein Lexikon in drei Bänden. Leider stehen sie nicht immer in der richti-gen Reihenfolge auf dem Buchgestell. Was ist die „richtige“ Reihenfolge? Was ist die falscheste Reihenfolge? Wie groß ist bei einer falschen Reihenfolge der Spearmansche Rangkorrelationskoeffizient, verglichen mit der Reihenfolge 1, 2, 3?

Bearbeitung Für zum Beispiel die Reihenfolge 3, 1, 2 erhalten wir:

Richtige Reihenfolge Falsche Reihenfolge Rangdifferenz Quadrat davon

1 3 -2 4

2 1 1 1

3 2 1 1

Summe 6

Korrelationskoeffizient nach Spearman -0.5

Für die totale Übersicht ergibt sich:

Es gibt 3!= 6 Rangreihenfolgen. Die Korrelationskoeffizienten variieren zwischen +1 („richtige“ Reihenfolge) und -1 (total verkehrte Reihenfolge).

Reihenfolge Rangkorrelationskoeffizient

1 2 3 1

1 3 2 0.5

2 1 3 0.5

2 3 1 -0.5

3 1 2 -0.5

3 2 1 -1

15 Random und Spearman Generieren sie mit dem Zufallsgenerator zwei Zahlenreihen und berechen den Rangkor-relationskoeffizienten nach Spearman.

Exemplarische Bearbeitung Wir arbeiten mit Excel und generieren 20 Zufallszahlen:

Nummer Zufallszahl

1 0.737222627

2 0.042284164

3 0.10591082

4 0.739902873

5 0.440035135

6 0.365101717

7 0.508150351

8 0.786673248

9 0.632485553

Page 24: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 22

10 0.420535952

11 0.150226457

12 0.885548039

13 0.728975984

14 0.944533758

15 0.248093557

16 0.4707944

17 0.618761844

18 0.322472481

19 0.298813171

20 0.792710042

Dann ordnen wir die Zahlen mitsamt ihrer Nummerierung der Größe nach und numme-rieren neu:

Nun berechnen wir den Spearman’schen Korrelationskoeffizienten zwischen der alten und der neuen Nummerierung.

Neue Nummer Alte Nummer Differenz Quadrat

1 19 -18 324

2 4 -2 4

3 9 -6 36

4 7 -3 9

5 12 -7 49

6 6 0 0

7 3 4 16

8 13 -5 25

9 5 4 16

10 20 -10 100

11 8 3 9

12 10 2 4

13 11 2 4

14 18 -4 16

15 17 -2 4

16 2 14 196

17 1 16 256

18 14 4 16

19 15 4 16

20 16 4 16

Summe 0 1116

Für den Spearman’schen Korrelationskoeffizienten erhalten wir:

rSpearman = 16

n3 nd j2

j=1

20= 0.160902256

Page 25: Hans Walser Statistik für Naturwissenschaftler€¦ · Hans Walser Statistik für Naturwissenschaftler AG AI AR BE BL BS FR GE GL GR JU LU NE NW OW SG SH SO SZ TG TI UR VD VS ZG

Hans Walser: 2 Regressionsgerade und Korrelation 23

Die Punktwolke ist wild verteilt:

Punktwolke