forschungsstatistik i prof. dr. g. meinhardt ws 2004/2005 fachbereich sozialwissenschaften,...
TRANSCRIPT
Forschungsstatistik IProf. Dr. G. Meinhardt
WS 2004/2005
Fachbereich Sozialwissenschaften, Psychologisches Institut
Johannes Gutenberg Universität Mainz
Stunde 04.01.05
Themen der Woche
• Korrelation bei Binärdaten: Phi-Korrelation• Korrelation von Binärdaten und
intervallskalierten Daten: biseriale und punktbiseriale Korrelation
• Partialkorrelation• Multiple Korrelation und Regression
Binärdaten: Dichotome Variablen
Binäre Kodierungen können natürlich sein oder künstlich erzeugt durch Definition einer Schranke auf den beiden metrischen Ausgangsvariablen.
Der Phi-Koeffizient
Der Phi- Koeffizient gibt eine Korrelation von dichotomen Variablen an, die der Produkt-Moment Korrelation über die zugrundeliegenden Binärdaten entspricht.
B C A D
rA C B D A B C D
Der Phi-Koeffizient
Der Phi- Koeffizient muss an der maximal möglichen Korrelation korrigiert werden, wenn schiefe Randverteilungen vorliegen. pt ist die größte auftretende Randfeldproportion, ps die dazu korrespondierende im Feld der anderen Variable mit gleichem Vorzeichen.
maxcorr
rr
r max , mit s t
t ss t
p qr p p
q p
[Tafelbetrachtung+Rechenbeispiele+Zusammenhang mit CHI-Quadrat]
B C A D
rA C B D A B C D
Phi-Koeffizient aus Chi-Quadrat
Erwartete Häufigkeit, wenn beide Merkmale unabhängig sind:
NSP+SP-Z-e(+-)e(--)-Z+e(++)e(+-)++-Item j
Item k
beobachtet
erwartet
ij
Zeilensumme i Spaltensumme je
N
NSP+SP-Z-DC-Z+BA+
+-Item jItem k
Phi-Koeffizient aus Chi-Quadrat
Ferner gilt:
2
rN
Die Abweichung von der Unabhängigkeitserwartung drückt ein Chi-Quadrat Maß aus:
2
2
1 1
k lij ij
i j ij
h e
e
Die Phi-Korrelation erhält man aus dem Chi-Quadrat, gerechnet nach der Annahme der Unabhängigkeit der Merkmale
[Tafelbeispiel]
Kontingenz von AttributenZwei Merkmale können mehrfach gestuft sein. Die Abweichung von der Unabhängigkeitserwartung drückt wieder ein Chi-Quadrat Maß aus:
beobachtet
erwartet
50013822510712328554019-2111530503516-1814050702013-1512230801210-12
PflanzeTierMenschAlterDeutungsart
50013822510712333.9462.7326.3219-2111531.7458.6524.6116-1814038.6471.429.9613-1512233.6762.2226.1110-12
PflanzeTierMenschAlterDeutungsart
ij
Zeilensumme i Spaltensumme je
N
Kontingenz von Attributen
Cramer‘s Index:
Ist besser geeignet als der Kontingenzkoeffizient:
2
1CI
N V
min ,V k l
2
2C
N
[Tafelrechnung des Beispiels]
da dieser stets beschränkt ist durch
max
1VC
V
Die punkt-biseriale-Korrelation
Die Korrelation einer metrischen Variable und einer dichotomen wird bestimmt durch den Mittelwertsunterschied, den die Gruppen mit den den Merkmalen X=0 und X=1 in der Variable Y haben.
[Tafelbetrachtung]
Die (punkt)-biseriale-Korrelation
Hierin ist p der Anteil der Personen für die X=1 gilt. ist der Ordinatenabschnitt der Standardnormalverteilung für die Stelle der Dichotomisierung. Die biseriale Korrelation gilt bei begründeter Vermutung, dass die dichotome Variable latent normalverteilt ist.
1 0pbis
y
y yr pq
s
[Rechenbeispiel aus Script]
1pbis
y
y y pr
s q
oder
(Gesamtmittelformeln)
Punkt-biserial: biserial:
1 0bis
y
y y p qr
s
1bis
y
y y pr
s
Die (punkt)-biseriale-Korrelation
15.57 12.83 .462 .538
3.098 .397.553
bisr
Korrelation wird durch Gültigkeit der Normalverteilung aufgewertet!
-3 -2 -1 1 2 3z
0.1
0.2
0.3
0.4
-3 -2 -1 1 2 3z
0.1
0.2
0.3
f(z)
z0 = -0.0954
p = 0.538q = 0.462
w = 0.397
X = 1X = 0
Deutungsmöglichkeiten der bivariaten Korrelation
1. Kausalität: X1 X2
2. Latente Drittvariable:
3. Direkte und indirekte Kausalität:
x1
x2
x1
x2
PartialkorrelationDie Korrelation zweier Variablen, die vom Effekt anderer (spezifizierter) Variablen bereinigt wurden.
Prüfung einer Kausalvermutung: rxy komme dadurch zustande, daß z ursächlich auf x und y einwirkt:
z
x y
rzyrzx
rxy
G G
PartialkorrelationPrüfung1. Sage x aus z voraus und berechne Residuen ex
2. Sage y aus z voraus und berechne Residuen ey
3. Berechne die Korrelation rexey
x y
rexey
z z
rxy
Ist Partialkorrelation (Korrelation rexey) Null, so
beruht die Korrelation rxy tatsächlich nur auf der Einwirkung von z.
PartialkorrelationY aus Z X aus Z
ex und ey korrelieren:
[Tafelbeispiele]
Datenbeispiel
90 100 110 120Rechentest
95
100
105
110
115
120Sprachtest
7.5 10 12.5 15 17.5 20 22.5Förderdauer
95
100
105
110
115
120
125
130Rechentest
7.5 10 12.5 15 17.5 20 22.5Förderdauer
95
100
105
110
115
120Sprachtest
X: RechnenY: SpracheZ: Förderdauer
ryz=.73
Korreliert Rechen und Sprache nur, weil die Kinder Frühförderung erhalten haben?
rxz=.72
rxy=.56
Datenbeispiel: Korr. der Residuen
X: RechnenY: SpracheZ: Förderdauer
Ja: Ohne die Frühförderung sind Rechen- und Sprachleistung unabhängig!
-1.5 -1 -0.5 0.5ERechnen
-2
-1.5
-1
-0.5
0.5
1
1.5
2ESprache
rxy.z=.07
ˆ
ˆx z xz xz
y z yz yz
e x x x a z b
e y y y a z b
Residuen: Korrelation der Residuen:
.2 2
,
1 1
x y
x y
e e
x y
xy xz yzxy z
xz yz
Cov e er
s e s e
r r rr
r r
[Tafelbetrachtung]
Multiple Korrelation & Regression
Variable X, Y, Z: Sage Z aus X und Y vorher !
0ˆ x yz x y
Die ß- Koeffizienten müssen nach dem Kleinstquadratkriterium bestimmt werden!
Multiple Korrelation & Regression
Kleinstquadratkriterium:
2ˆ minz z
[Tafelrechnung]
Für den 3 Variablenfall bequem nach Standardisierung über Normalgleichungen zu lösen!
ˆz x x y yz b z b z
führt auf:
21xz xy yz
xxy
r r rb
r
21yz xy xz
yxy
r r rb
r
Multiple Korrelation & Regression
Multipler Korrelationskoeffizient
.z xy x xz y yzR b r b r
Ist die Korrelation der vorhergesagten Werte mit den beobachteten Werten Z
Ist immer größer oder gleich die größte Einzelkorrelation
1)
2)
Sein Quadrat gibt wieder den Anteil der Vorhersagevarianzan der Gesamtvarianz an:3)
Z
2.
Erklärte Varianz Fehlervarianz1
Gesamtvarianz Gesamtvarianzz xyR
Multiple Korrelation & Regression
Interpretation
Sind die Prädiktoren unabhängig, so sind die ß-Gewichte gleich den Kriteriumskorrelationen und die aufgeklärteVarianz ist die Summe der Quadrate der ß-Gewichte
1)
Sind die Prädiktoren abhängig (interkorreliert), so unterscheiden wir 3 Fälle:2)
1. Der Pädiktor enthält Information, die schon der andere Prädiktor enthält: er ist redundant
2. Der Prädiktor unterdrückt irrelevante Varianzanteile in dem anderenPrädiktor: er ist ein Suppressor
3. Der Prädiktor besitzt Kriteriumsvarianz, die der andere Prädiktor nichtbesitzt und unterdrückt irrelevante Varianz des anderen Prädiktors:er ist valide und nützlich.
[Tafelbeispiele]
Multiple Korrelation & Regression
Redundanz
Die Variable y ist redundant zur Vorhersage von z, wenn:
[Tafelbeispiele]
.
2 2
z xyy xzU R r
Gilt
Nützlichkeit der Variable y zur Vorhersage von z:
2y yzU r
so existieren Suppressionseffekte.
2y yz yzb r r
Multiple Korrelation & Regression
Suppression
[Tafelbeispiele]
2y yz yzb r r
rxy
ZYX
ryz=0
rxz
Y „bindet“ irrelevante Kriteriumsinformation
Partialkorrelation rxz.y ist erheblich größer als rxz