raziskovalna metodologija v psihologiji psihologija (iii.st .) – 1. letnik 2011/12
DESCRIPTION
Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12 Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli. Kaj so multivariatne metode (MVM)? “Statistične metode za analizo več (odvisnih) spremenljivk hkrati.” - PowerPoint PPT PresentationTRANSCRIPT
![Page 1: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/1.jpg)
Raziskovalna metodologija v psihologiji
psihologija (III.st.) – 1. letnik
2011/12
Vnos, urejanje in pregled podatkov pred multivariatno analizo in statistični modeli
![Page 2: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/2.jpg)
Kaj so multivariatne metode (MVM)?
“Statistične metode za analizo več (odvisnih) spremenljivk hkrati.”
Nekatera tipična MV raziskovalna vprašanja:»Kako na podlagi več napovednih spremenljivk čim bolje napovedati vrednosti odvisne spremenljivke?« (multipla regresija/logistična regresija)»Kako večje število spremenljivk nadomestiti z majhnim številom novih spremenljivk?« (analiza glavnih komponent)»S katerimi hipotetičnimi spremenljivkami lahko pojasnimo korelacije med večjim številom opazovanih spremenljivk?« (faktorska analiza)»Ali lahko določimo skupine podobnih oseb/objektov/spremenljivk?« (clusterska analiza)»Ali se predpostavljeni model odnosov med spremenljivkami prilega podatkom?« (strukturno modeliranje)»Ali eksperimentalni pogoj vpliva na povprečja dveh ali več odvisnih spremenljivk?« (multivariatna analiza variance – MANOVA)
![Page 3: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/3.jpg)
MVM nujne pri proučevanju:• kompleksnih modelov napovedovanja / razvrščanja,• interakcije in moderacije,• mediacije,• latentnih spremenljivk,• strukture pojavov…
Delitev MVM:
1. glede na cilj: napovedovanje - strukturiranje
2. opisne, eksploratorne – “modelske”, konfirmatorne
3. glede na raziskovalni načrt: (kvazi)eksperiment - korelacijsko raziskovanje
![Page 4: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/4.jpg)
![Page 5: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/5.jpg)
Statistični modeli
Model = formaliziran oz. abstrakten poenostavljen opis realnosti.
Značilnosti statističnih modelov:• formalna (matematična) struktura• poenostavljenost & posplošljivost (abstraktna načela)
• »preizkusljivost«• Model vs. tavtologija. (=logična trditev, pri kateri je sklep
enak premisi oz. obrazec in predlaganem izračunu, ki je vedno pravilen)
• Model in ciljna funkcija (c.f. je bistven del metode!)
![Page 6: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/6.jpg)
Kaj običajno srečamo: • teoretične porazdelitve• (naključno) vzorčenje• bivariatna regresijska analiza• ANOVA
Splošni linearni model: iij
n
jji eXbaY
1b…uteži – določene glede na namen analizei…indeks osebeX…(neodvisna) spremenljivkaj…indeks (neodvisne) spremenljivkea…konstanta
e…ostanek/rezidual/napaka
![Page 7: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/7.jpg)
Preverjanje modela:
1. dihotomno (model drži ali ne): problem potrjevanje H0
2. stopnja odstopanja od modela – goodness of fit (problem kriterijev; marsikje slabo razvito!)
Prileganje modelu ni isto kot velikost učinka!
Napake v modeliranju:
1. sistematične (v modelu)
2. naključne (merjenje / vzorčenje)
![Page 8: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/8.jpg)
![Page 9: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/9.jpg)
Anscombe's quartet…
… comprises four datasets that have identical simple statistical properties, yet appear very different when graphed. Each dataset consists of eleven (x,y) points. They were constructed in 1973 by the statistician F.J. Anscombe to demonstrate both the importance of graphing data before analysing it and the effect of outliers on statistical properties.
…to emphasize the importance of looking at one's data before analyzing it!!!
![Page 10: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/10.jpg)
Anscombe's Quartet
I II III IV
x y x y x y x y
10.0 8.04 10.0 9.14 10.0 7.46 8.0 6.58
8.0 6.95 8.0 8.14 8.0 6.77 8.0 5.76
13.0 7.58 13.0 8.74 13.0 12.74 8.0 7.71
9.0 8.81 9.0 8.77 9.0 7.11 8.0 8.84
11.0 8.33 11.0 9.26 11.0 7.81 8.0 8.47
14.0 9.96 14.0 8.10 14.0 8.84 8.0 7.04
6.0 7.24 6.0 6.13 6.0 6.08 8.0 5.25
4.0 4.26 4.0 3.10 4.0 5.39 19.0 12.50
12.0 10.84 12.0 9.13 12.0 8.15 8.0 5.56
7.0 4.82 7.0 7.26 7.0 6.42 8.0 7.91
5.0 5.68 5.0 4.74 5.0 5.73 8.0 6.89
Anscombe, Francis J. (1973) Graphs in statistical analysis. American Statistician, 27, 17–21.
Lastnost Vrednost
Povprečje vsake x spremenljivke 9,0
Varianca vsake x spremenljivke 10,0
Povprečje vsake y spremenljivke 7,5
Varianca vsake y spremenljivke 3,75
Korelacija med vsakim parom x in y 0,816
Regresijska premica y = 3 + 0,5x
![Page 11: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/11.jpg)
seems to be distributed normally, and corresponds to what one would expect when considering two variables correlated and following the assumption of normality
not distributed normally; while an obvious relationship between the two variables can be observed, it is not linear, and the Pearson correlation coefficient is not relevant
the distribution is linear, but with a different regression line, which is offset by the one outlier which exerts enough influence to alter the regression line and lower the correlation coefficient from 1 to 0.81
one outlier is enough to produce a high correlation coefficient, even though the relationship between the two variables is not linear
…vsa odstopanja so naključne napake…
…vsa odstopanja so sistematične napake (kvadratna funkcija)…
![Page 12: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/12.jpg)
Šifra Moški Starost Izobrazba IQ
A01 1 25 7 125
A02 1 25 6 111
A03 0 36 6 104
A04 1 23 4 95
A05 0 48 5 109
B01 0 -9999 5 98
B02 0 31 3 92
B03 1 27 4 94
B04 1 41 4 88
Urejanje podatkov
Podatkovna matrika:• osebe v vrsticah,
spremenljivke v stolpcih• načelo “1 enota (oseba) – 1
vrstica” (par obravnavamo kot eno enoto)
• najprej identifikacijska spremenljivka, nato splošne demografske spremenljivke, za tem vse ostalo• numerično kodiranje kvalitativnih spremenljivk (1/0 pri dihotomnih; 1=da)
• jasna imena (zapišimo si natančen opis vsake spremenljivke!)
• kode za manjkajoče vrednosti (potrebno sporočiti programu!)• vhodni podatki za MV analizo so lahko tudi druge matrike (npr.
kovariančna matrika, matrika razdalj…)
![Page 13: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/13.jpg)
Manjkajoče vrednosti (missing data)
Zelo velik problem! Večina multivariatnih analiz zahteva popolne podatke.
Preprečevati v procesu zbiranja podatkov.
Ni preprostih dobrih rešitev – več o tem ob koncu semestra…
Privzeto v SPSS: brisanje vseh oseb z manjkajočimi vrednostmi.
![Page 14: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/14.jpg)
Nezaželene odvisnosti
A. odvisnost oseb:• Navadno posledica stopenjskega vzorčenja.• Ignoriranje ima lahko zelo resne posledice (neveljavnost
stat. testov)!• Rešitev: večnivojski modeli.
B. odvisnost spremenljivk:Nastane zaradi: 1. medsebojne pogojenosti odgovorov;2. ipsativnega vrednotenja (npr. pri prisilni izbiri);3. možnosti izbiranja nalog;4. hkratne uporabe X, Y in aX+bY ipd.,5. hkratne uporabe (skoraj) identičnih spremenljivk.
Preprečiti v procesu zbiranja podatkov (1-3) oz. analize (4-5).
![Page 15: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/15.jpg)
Pomen natančnega pregleda podatkov pri MV analizi:
- odkrivanje napak in motenj (težko razvidne iz rezultatov!)
- preverjanje predpostavk (normalnost, linearnost, homoscedastičnost)
Osnovni pregled:
M, SD / AD, min, max
histogram / tabela frekvenčne porazdelitve
okvir z ročaji (boxplot)
razsevni diagrami (scatter-plot)
![Page 16: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/16.jpg)
Npr.:
Dihotomno (1/0) točkovana postavka:Descriptive Statistics
N Minimum Maximum Mean Std. Deviation
VAR00001 107 ,00 11,00 ,6729 1,12246
Valid N (listwise) 107
Postavka “Likertovega tipa” (1-5)
V obeh primerih ima M “nevpadljivo” vrednost (0,67 oz. 3,30)!
Frequency Percent Valid PercentCumulative
Percent
Valid ,00 45 42,1 42,1 42,1
1,00 61 57,0 57,0 99,1
11,00 1 ,9 ,9 100,0
Total 107 100,0 100,0
![Page 17: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/17.jpg)
r = 0,250...na prvi pogled v redu, toda…
Če pravilno določimo kodo za manjkajočo vrednost:r = 0,048
![Page 18: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/18.jpg)
Vpliv omejene variabilnosti na korelacijo:
r = 0,80
20
30
40
50
60
70
80
20 30 40 50 60 70 80
r = 0,60 (selekcija)
20
30
40
50
60
70
80
20 30 40 50 60 70 80
r = 0,88 (ekstremne skupine)
20
30
40
50
60
70
80
20 30 40 50 60 70 80
Mimogrede:sprememba merskelestvice ne vpliva na r!
![Page 19: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/19.jpg)
Osamelci (ekstremne vrednosti, outliers)
Neobičajno visoke / nizke vrednosti (odklon od povprečja je velik v primerjavi z variabilnostjo)
Problematični, ker lahko nesorazmerno vplivajo naM, SD oz. Var, r in b (ter ostale izpeljane statistike!)
vplivne točke (influential observations)
Univariatni in multivariatni osamelciMultivariatni: neobičajen vzorec povezanosti.Vsak uni- je tudi multi-, ne velja pa obratno!
Diagnostika:• slike (zaboj z ročaji za univar., razsevni diagram za bivar.)• “z > 3”, “X-Me >1,5(Q3-Q1)” ipd. (univariatni)
• Mahalanobisova razdalja D (multivar.): posplošitev z2 na več spremenljivk, upošteva variabilnost in korelacijo; pribl. po 2 …
(pove, kako daleč je enota od centroida vseh enot na prediktorski spremenljivki – velika razdalja pove, da je vrednost osamelec za prediktorje)
![Page 20: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/20.jpg)
Primer: osamelci v bivariatnem primeru
0
23
1
![Page 21: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/21.jpg)
0 1 2 3
z(X) / 4 2 4
z(Y) / 3,6 -2 -2
r 0,90 0,91 0,83 0,75
regr. enačba
Y' = 51,9+0,98X
Y' = 51,9+0,98X
Y' = 55,4+0,90X
Y' = 61,6+0,77X
M(D) 1,98 1,98 1,98 1,98
max(D) 6,26 13,66 44,35 64,10
(v vseh primerih se povečata SD in spremenita M, vendar so razlike majhne)
D = Mahalanobisova razdaljaz(X), z(Y) = z vrednost osamelca na vsaki od spremenljivk
𝐷𝑖2=(𝒙 𝑖− 𝒙 )′𝑺−1 (𝒙𝑖− 𝒙 )
![Page 22: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/22.jpg)
Razlogi za nastanek osamelcev:1. napake pri zbiranju podatkov
2. napake pri vnosu/manipulaciji podatkov
3. kodiranje manjkajočih vrednosti (tipična koda: -9999)
4. oseba ne pripada ciljni populaciji
5. oblika porazdelitve
Ukrepi:• popravek (2,3), • brisanje (1,4 potrebna utemeljitev!)• pretvorbe podatkov (5)• (bolj) robustne metode (5)• analiza z in brez osamelcev (5, 5?)
preveriti, ali je osamelec tudi vplivna točka!
![Page 23: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/23.jpg)
Normalnost porazdelitve
Ni nujen pogoj pri vsaki analizi!Običajno najbolj problematična visoka sploščenost.
Preverjanje univariatne normalnosti:• P-P in Q-Q grafi, • koeficienta sploščenosti in asimetrije• testi normalnosti (npr. Shapiro-Wilk)
Multivariatna normalnost (MVN):• vse obtežene vsote spremenljivk so normalno
porazdeljene• vse pogojne porazdelitve so normalne• univariatna n. je nujen, vendar ne zadosten pogoj za MVN
Preverjanje:slabo razvito! Test MV sploščenosti in asimetrije.
![Page 24: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/24.jpg)
Linearnost povezav
• implicira vsaj intervalno merjenje• pomembna pri analizah, ki temeljijo na r ali Cov• vzroki nelinearnosti: intrinzična nelinearnost ali oblika porazdelitve
• diagnostika: pregled razsevnih diagramov in rezidualnih grafov
Homoscedastičnost (ant. heteroscedastičnost)
• enaka variabilnost napak pri vsaki vrednosti X• enaka natančnost (napovedi) pri vsakem X• preverjamo z grafičnimi preizkusi (rezidualni graf)
![Page 25: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/25.jpg)
100806040200
90
80
70
60
50
40
30
20
10
100806040200
90
80
70
60
50
40
30
20
10
“Metuljasta heteroscedastičnost” zaradi združevanja različnih skupin
r = 0 r = 0,71
![Page 26: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/26.jpg)
Linearnost, homoscedastičnost in normalnost so lahko povezane:
NORMAL
908070605040302010
SK
EW
3.2
3.0
2.8
2.6
2.4
2.2
2.0
1.8
1.6
![Page 27: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/27.jpg)
KOREN
9.008.50
8.007.50
7.006.50
6.005.50
5.004.50
4.00
200
100
0
Std. Dev = .73
Mean = 7.03
N = 1000.00
LN
4.314.19
4.063.94
3.813.69
3.563.44
3.313.19
3.062.94
2.81
160
140
120
100
80
60
40
20
0
Std. Dev = .22
Mean = 3.89
N = 1000.00
As=-0,43Spl=0,40
As=-0,82Spl=1,36
Nelinearne pretvorbe lahko ublažijo odstopanja od linearnosti, homoscedastičnosti in normalnosti, vendar navadno otežijo interpretacijo spremenljivk. X in f (X) ne moreta biti hkrati intervalni!
Pretvorbe:
ploščinska normalizacija;
nelinearne funkcije, npr. koren, logaritem ali inverz.
![Page 28: Raziskovalna metodologija v psihologiji psihologija (III.st .) – 1. letnik 2011/12](https://reader030.vdocuments.net/reader030/viewer/2022033016/56815aad550346895dc8517e/html5/thumbnails/28.jpg)
Kaj moramo torej preveriti, preden poženemo multivariatno analizo?
1. So podatki ustrezno vneseni?
2. Nepristne odvisnosti spremenljivk ali oseb?
3. Manjkajoči podatki?
4. Pregled univariatnih opisnih statistik in slik.
5. Multivariatni osamelci (outliers) in vplivne točke?
kjer vrsta analize to zahteva, pa še:
6. Oblika porazdelitve: normalnost, homoscedastičnost?
7. Linearni odnosi?
8. Je variabilnost vzorca primerljiva s populacijsko?