raziskovalna metodologija v psihologiji psihologija (iii.st .) – 1. letnik 2011/12

28
Raziskovalna metodologija v psihologiji psihologija (III.st.) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli

Upload: viveka

Post on 06-Feb-2016

96 views

Category:

Documents


1 download

DESCRIPTION

Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli. Kaj so multivariatne metode (MVM)? “Statistične metode za analizo več (odvisnih) spremenljivk hkrati.” - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Raziskovalna metodologija v psihologiji

psihologija (III.st.) – 1. letnik

2011/12

Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli

Page 2: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Kaj so multivariatne metode (MVM)?

“Statistične metode za analizo več (odvisnih) spremenljivk hkrati.”

Nekatera tipična MV raziskovalna vprašanja:»Kako na podlagi več napovednih spremenljivk čim bolje napovedati vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija)»Kako večje število spremenljivk nadomestiti z majhnim številom novih spremenljivk?« (analiza glavnih komponent)»S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med večjim številom opazovanih spremenljivk?« (faktorska analiza)»Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?« (clusterska analiza)»Ali se predpostavljeni model odnosov med spremenljivkami prilega podatkom?« (strukturno modeliranje)»Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih spremenljivk?« (multivariatna analiza variance – MANOVA)

Page 3: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

MVM nujne pri proučevanju:• kompleksnih modelov napovedovanja / razvrščanja,• interakcije in moderacije,• mediacije,• latentnih spremenljivk,• strukture pojavov…

Delitev MVM:

1. glede na cilj: napovedovanje - strukturiranje

2. opisne, eksploratorne – “modelske”, konfirmatorne

3. glede na raziskovalni načrt: (kvazi)eksperiment - korelacijsko raziskovanje

Page 4: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12
Page 5: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Statistični modeli

Model = formaliziran oz. abstrakten poenostavljen opis realnosti.

Značilnosti statističnih modelov:• formalna (matematična) struktura• poenostavljenost & posplošljivost (abstraktna načela)

• »preizkusljivost«• Model vs. tavtologija. (=logična trditev, pri kateri je sklep

enak premisi oz. obrazec in predlaganem izračunu, ki je vedno pravilen)

• Model in ciljna funkcija (c.f. je bistven del metode!)

Page 6: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Kaj običajno srečamo: • teoretične porazdelitve• (naključno) vzorčenje• bivariatna regresijska analiza• ANOVA

Splošni linearni model: iij

n

jji eXbaY

1b…uteži – določene glede na namen analizei…indeks osebeX…(neodvisna) spremenljivkaj…indeks (neodvisne) spremenljivkea…konstanta

e…ostanek/rezidual/napaka

Page 7: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Preverjanje modela:

1. dihotomno (model drži ali ne): problem potrjevanje H0

2. stopnja odstopanja od modela – goodness of fit (problem kriterijev; marsikje slabo razvito!)

Prileganje modelu ni isto kot velikost učinka!

Napake v modeliranju:

1. sistematične (v modelu)

2. naključne (merjenje / vzorčenje)

Page 8: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12
Page 9: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Anscombe's quartet…

… comprises four datasets that have identical simple statistical properties, yet appear very different when graphed. Each dataset consists of eleven (x,y) points. They were constructed in 1973 by the statistician F.J. Anscombe to demonstrate both the importance of graphing data before analysing it and the effect of outliers on statistical properties.

…to emphasize the importance of looking at one's data before analyzing it!!!

Page 10: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Anscombe's Quartet

I II III IV

x y x y x y x y

10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58

8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76

13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71

9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84

11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47

14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04

6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25

4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50

12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56

7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91

5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89

Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21.

Lastnost Vrednost

Povprečje vsake x spremenljivke 9,0

Varianca vsake x spremenljivke 10,0

Povprečje vsake y spremenljivke 7,5

Varianca vsake y spremenljivke 3,75

Korelacija med vsakim parom x in y 0,816

Regresijska premica y = 3 + 0,5x

Page 11: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

seems to be distributed normally, and corresponds to what one would expect when considering two variables correlated and following the assumption of normality

not distributed normally; while an obvious relationship between the two variables can be observed, it is not linear, and the Pearson correlation coefficient is not relevant

the distribution is linear, but with a different regression line, which is offset by the one outlier which exerts enough influence to alter the regression line and lower the correlation coefficient from 1 to 0.81

one outlier is enough to produce a high correlation coefficient, even though the relationship between the two variables is not linear

…vsa odstopanja so naključne napake…

…vsa odstopanja so sistematične napake (kvadratna funkcija)…

Page 12: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Šifra Moški Starost Izobrazba IQ

A01 1 25 7 125

A02 1 25 6 111

A03 0 36 6 104

A04 1 23 4 95

A05 0 48 5 109

B01 0 -9999 5 98

B02 0 31 3 92

B03 1 27 4 94

B04 1 41 4 88

Urejanje podatkov

Podatkovna matrika:• osebe v vrsticah,

spremenljivke v stolpcih• načelo “1 enota (oseba) – 1

vrstica” (par obravnavamo kot eno enoto)

• najprej identifikacijska spremenljivka, nato splošne demografske spremenljivke, za tem vse ostalo• numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da)

• jasna imena (zapišimo si natančen opis vsake spremenljivke!)

• kode za manjkajoče vrednosti (potrebno sporočiti programu!)• vhodni podatki za MV analizo so lahko tudi druge matrike (npr.

kovariančna matrika, matrika razdalj…)

Page 13: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Manjkajoče vrednosti (missing data)

Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke.

Preprečevati v procesu zbiranja podatkov.

Ni preprostih dobrih rešitev – več o tem ob koncu semestra…

Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.

Page 14: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Nezaželene odvisnosti

A. odvisnost oseb:• Navadno posledica stopenjskega vzorčenja.• Ignoriranje ima lahko zelo resne posledice (neveljavnost

stat. testov)!• Rešitev: večnivojski modeli.

B. odvisnost spremenljivk:Nastane zaradi: 1. medsebojne pogojenosti odgovorov;2. ipsativnega vrednotenja (npr. pri prisilni izbiri);3. možnosti izbiranja nalog;4. hkratne uporabe X, Y in aX+bY ipd.,5. hkratne uporabe (skoraj) identičnih spremenljivk.

Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).

Page 15: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Pomen natančnega pregleda podatkov pri MV analizi:

- odkrivanje napak in motenj (težko razvidne iz rezultatov!)

- preverjanje predpostavk (normalnost, linearnost, homoscedastičnost)

Osnovni pregled:

M, SD / AD, min, max

histogram / tabela frekvenčne porazdelitve

okvir z ročaji (boxplot)

razsevni diagrami (scatter-plot)

Page 16: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Npr.:

Dihotomno (1/0) točkovana postavka:Descriptive Statistics

N Minimum Maximum Mean Std. Deviation

VAR00001 107 ,00 11,00 ,6729 1,12246

Valid N (listwise) 107

Postavka “Likertovega tipa” (1-5)

V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)!

Frequency Percent Valid PercentCumulative

Percent

Valid ,00 45 42,1 42,1 42,1

1,00 61 57,0 57,0 99,1

11,00 1 ,9 ,9 100,0

Total 107 100,0 100,0

Page 17: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

r = 0,250...na prvi pogled v redu, toda…

Če pravilno določimo kodo za manjkajočo vrednost:r = 0,048

Page 18: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Vpliv omejene variabilnosti na korelacijo:

r = 0,80

20

30

40

50

60

70

80

20 30 40 50 60 70 80

r = 0,60 (selekcija)

20

30

40

50

60

70

80

20 30 40 50 60 70 80

r = 0,88 (ekstremne skupine)

20

30

40

50

60

70

80

20 30 40 50 60 70 80

Mimogrede:sprememba merskelestvice ne vpliva na r!

Page 19: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Osamelci (ekstremne vrednosti, outliers)

Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo)

Problematični, ker lahko nesorazmerno vplivajo naM, SD oz. Var, r in b (ter ostale izpeljane statistike!)

vplivne točke (influential observations)

Univariatni in multivariatni osamelciMultivariatni: neobičajen vzorec povezanosti.Vsak uni- je tudi multi-, ne velja pa obratno!

Diagnostika:• slike (zaboj z ročaji za univar., razsevni diagram za bivar.)• “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni)

• Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 …

(pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)

Page 20: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Primer: osamelci v bivariatnem primeru

0

23

1

Page 21: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

0 1 2 3

z(X) / 4 2 4

z(Y) / 3,6 -2 -2

r 0,90 0,91 0,83 0,75

regr. enačba

Y' = 51,9+0,98X

Y' = 51,9+0,98X

Y' = 55,4+0,90X

Y' = 61,6+0,77X

M(D) 1,98 1,98 1,98 1,98

max(D) 6,26 13,66 44,35 64,10

(v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne)

D = Mahalanobisova razdaljaz(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk

𝐷𝑖2=(𝒙 𝑖− 𝒙 )′𝑺−1 (𝒙𝑖− 𝒙 )

Page 22: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Razlogi za nastanek osamelcev:1. napake pri zbiranju podatkov

2. napake pri vnosu/manipulaciji podatkov

3. kodiranje manjkajočih vrednosti (tipična koda: -9999)

4. oseba ne pripada ciljni populaciji

5. oblika porazdelitve

Ukrepi:• popravek (2,3), • brisanje (1,4 potrebna utemeljitev!)• pretvorbe podatkov (5)• (bolj) robustne metode (5)• analiza z in brez osamelcev (5, 5?)

preveriti, ali je osamelec tudi vplivna točka!

Page 23: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Normalnost porazdelitve

Ni nujen pogoj pri vsaki analizi!Običajno najbolj problematična visoka sploščenost.

Preverjanje univariatne normalnosti:• P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije• testi normalnosti (npr. Shapiro-Wilk)

Multivariatna normalnost (MVN):• vse obtežene vsote spremenljivk so normalno

porazdeljene• vse pogojne porazdelitve so normalne• univariatna n. je nujen, vendar ne zadosten pogoj za MVN

Preverjanje:slabo razvito! Test MV sploščenosti in asimetrije.

Page 24: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Linearnost povezav

• implicira vsaj intervalno merjenje• pomembna pri analizah, ki temeljijo na r ali Cov• vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve

• diagnostika: pregled razsevnih diagramov in rezidualnih grafov

Homoscedastičnost (ant. heteroscedastičnost)

• enaka variabilnost napak pri vsaki vrednosti X• enaka natančnost (napovedi) pri vsakem X• preverjamo z grafičnimi preizkusi (rezidualni graf)

Page 25: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

100806040200

90

80

70

60

50

40

30

20

10

100806040200

90

80

70

60

50

40

30

20

10

“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin

r = 0 r = 0,71

Page 26: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Linearnost, homoscedastičnost in normalnost so lahko povezane:

NORMAL

908070605040302010

SK

EW

3.2

3.0

2.8

2.6

2.4

2.2

2.0

1.8

1.6

Page 27: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

KOREN

9.008.50

8.007.50

7.006.50

6.005.50

5.004.50

4.00

200

100

0

Std. Dev = .73

Mean = 7.03

N = 1000.00

LN

4.314.19

4.063.94

3.813.69

3.563.44

3.313.19

3.062.94

2.81

160

140

120

100

80

60

40

20

0

Std. Dev = .22

Mean = 3.89

N = 1000.00

As=-0,43Spl=0,40

As=-0,82Spl=1,36

Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!

Pretvorbe:

ploščinska normalizacija;

nelinearne funkcije, npr. koren, logaritem ali inverz.

Page 28: Raziskovalna metodologija v psihologiji psihologija  (III.st .) –  1.  letnik 2011/12

Kaj moramo torej preveriti, preden poženemo multivariatno analizo?

1. So podatki ustrezno vneseni?

2. Nepristne odvisnosti spremenljivk ali oseb?

3. Manjkajoči podatki?

4. Pregled univariatnih opisnih statistik in slik.

5. Multivariatni osamelci (outliers) in vplivne točke?

kjer vrsta analize to zahteva, pa še:

6. Oblika porazdelitve: normalnost, homoscedastičnost?

7. Linearni odnosi?

8. Je variabilnost vzorca primerljiva s populacijsko?