luento 4: regressioanalyysi

74
Luento 4: Regressioanalyysi Petri Nokelainen Kasvatustieteiden yksikkö Tampereen yliopisto [email protected] http://www.uta.fi/~petri.nokelainen

Upload: gazit

Post on 14-Jan-2016

52 views

Category:

Documents


0 download

DESCRIPTION

Luento 4: Regressioanalyysi. Petri Nokelainen. [email protected] http://www.uta.fi/~petri.nokelainen. Kasvatustieteiden yksikkö Tampereen yliopisto. Sisältö. 1. General Linear Model (GLM) 1.1 Korrelaatio 2. Regressioanalyysi 2.1 Regressioanalyysin historia - PowerPoint PPT Presentation

TRANSCRIPT

Page 1: Luento 4: Regressioanalyysi

Luento 4: Regressioanalyysi

Petri Nokelainen

Kasvatustieteiden yksikköTampereen yliopisto

[email protected]://www.uta.fi/~petri.nokelainen

Page 2: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 3: Luento 4: Regressioanalyysi

1. General Linear Model (GLM)

ezz xy (3.2)

k

ixiy ezzi

1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

Page 4: Luento 4: Regressioanalyysi

(Nokelainen, 2008.)

Page 5: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 6: Luento 4: Regressioanalyysi

1.1 Korrelaatio

IV 1 DV

ezz xy (3.2)

Page 7: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 8: Luento 4: Regressioanalyysi

2. Regressioanalyysi

ezz xy (3.2)

k

ixiy ezzi

1

(3.3)

k

ixim

p

iyjm ezz

imjm11

(3.4)

Pearsonin tulomomenttikorrelaatiokerroin (r) 1, jatkuva 1, jatkuva

X (IV) Y (DV)

Monimuuttujaregressioanalyysi (Multivariate RA) n, jatkuva n, jatkuvaMonimuuttujavarianssianalyysi (MANOVA) n, epäjatkuva n, jatkuvaErotteluanalyysi (LDA) n, jatkuva n, epäjatkuvaFaktorianalyysi (EFA) n, latentti n, jatkuvaPääkomponenttianalyysi (PCA) n, latentti n, jatkuva

Regressioanalyysi (Multiple RA) n, jatkuva 1, jatkuvaVarianssianalyysi (n-way ANOVA) n, epäjatkuva 1, jatkuvaKahden ryhmän erotteluanalyysi (Two-group LDA) n, jatkuva 1, dikotominen

Page 9: Luento 4: Regressioanalyysi

(Nokelainen, 2008.)

Page 10: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 11: Luento 4: Regressioanalyysi

2. Regressioanalyysi

IV 1

IV 2

IV 3

IV 4

DVr

k

ixiy ezzi

1

(3.3)

Page 12: Luento 4: Regressioanalyysi

2. Regressioanalyysi

”…regression analysis is a method of analyzing the variability of a dependent variable by resorting to information available on one or more independent variables.”

(Pedhazur, 1982, 5)

Page 13: Luento 4: Regressioanalyysi

2. Regressioanalyysi

• Tarkastelee muuttujien välistä lineaarista yhteyttä, ts. ilmoittaa korrelaatiokertoimen tavoin kahden muuttujan välisen vaikutussuhteen voimakkuuden (-1, …, 1).

• Mahdollistaa lisäksi DV -muuttujan arvojen ennustamisen IV –muuttujan (tai muuttujien) arvojen perusteella.

Page 14: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 15: Luento 4: Regressioanalyysi

2.1 Regressioanalyysin historia

• Perustuu Galtonin (1885) havaintoihin: – Pitkien isien pojista ei keskimäärin

tullutkaan yhtä pitkiä kuin isistään, lyhyiden isien pojista tulikin keskimäärin pidempiä kuin isistään.

– Poikien keskipituus lähestyi keskipituutta.

Sir Francis Galton1822-1911

Page 16: Luento 4: Regressioanalyysi

2.1 Regressioanalyysin historia

• Regressioanalyysi on yksi kasvatustieteiden käytetyimmistä menetelmistä, mutta usein unohdetaan että sen tulisi perustua vahvalle teoreettiselle pohjalle.

Page 17: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 18: Luento 4: Regressioanalyysi

2.2 Regressioanalyysin lajit

• Yhden tai useamman ennustemuuttujan (IV) regressioanalyysi

• Monimuuttujaregressioanalyysi (Multivariate regression analysis)(ks. lisää esim. Nummenmaa et al., 1997, 307-326; Kerlinger, 1986, 527-561).

• Hierarkkinen regressioanalyysi– Hierarchical/sequential multiple regression

(Pedhazur, 1982; Tabachnick & Fidell, 2007)

Page 19: Luento 4: Regressioanalyysi

• Askeltava regressioanalyysi– Stepwise multiple regression (Pedhazur, 1982;

Tabachnick & Fidell, 2007)

• Kanoninen korrelaatio– Canonical correlation (Kerlinger, 1986, 561-568)

• Logistinen regressioanalyysi– Logistic regression analysis– Poistaa lineaarisen regressioanalyysin vaatimuksen

selitettävän muuttujan jatkuvuudesta, ks. esimerkki dokumentista ”6.1 Logistinen regressio” (FSD)

– Multiway frequency analysis (Nummenmaa et al., 1997, 127-147)

2.2 Regressioanalyysin lajit

Page 20: Luento 4: Regressioanalyysi

A

B

C

A Standardi RB Hierarkkinen RC Askeltava R

IV1

IV2

IV3

Page 21: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 22: Luento 4: Regressioanalyysi

• Käyttötapoja:– Selittävien (IV) muuttujien etsiminen

• Opiskelumenestyksen selittäminen motivaation ja oppimisstrategioiden avulla.

– Selittävien (IV) muuttujien selitysosuuden tutkiminen

• Kuinka suuri vaikutus varhaisessa vaiheessa tapahtuneella erityisluokalle siirrolla on erityisoppilaan koulumenestykseen.

– Selittävien (IV) muuttujien keskinäisen selitysosuuden vertailu eli mitkä muuttujat ovat toisia parempia tietyn Ilmiön selittäjinä.

– Selitettävän (DV) muuttujan ennustaminen.

2.3 Regressioanalyysin käyttötapoja

Page 23: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 24: Luento 4: Regressioanalyysi

• Yleisiä rajoituksia– Regressioanalyysin avulla löydetyt

vaikutussuhteet eivät välttämättä ole kausaalisia. • Kausaalisuuden määrittely on looginen ja

koeasetelmallinen ongelma (Pearl, 2000).

– Analyysiin mukaan otettujen DV ja IV muuttujien valinnan tulee olla teoreettisesti, loogisesti tms. perusteltavissa.

2.4 Regressioanalyysin rajoituksia

Page 25: Luento 4: Regressioanalyysi

• Teknisiä rajoituksia– Otoskoko (esim. viisi IV muuttujaa)

• Greenin (1991) mukaan – N > 50+8m (useita IV muuttujia), esim. N = 50+8*5 = 90– N > 104 + m (yksi IV), esim. N = 104 + 5 = 109

• Stevensin (1996) mukaan – N = 15m (kaikissa tapauksissa), esim. 15*5 = 75

– IV muuttujien väliset suhteet• Multikollineaarisuutta (korkeita r = +/- .9 korrelaatioita)

ei saa esiintyä.• Singulaarisuutta (muuttuja on toisen/toisten

kombinaatio, esim. kolmen testin yksittäiset pistemäärät ja niiden summamuuttuja) ei saa esiintyä.

2.4 Regressioanalyysin rajoituksia

Page 26: Luento 4: Regressioanalyysi

• Teknisiä rajoituksia– Poikkeavat arvot (outlier) tulisi poistaa, korvata

uudella arvolla (rescore) tai muuntaa (transform).• X Y –muuttujien kuvaajien tarkastelu!

– Regressioanalyysiohjelmissa (SAS, BMDP, SPSS) poikkeavien arvojen vaikutusta tutkitaan seuraavilla mittaluvuilla:

• Leverage (l) arvioi poikkeavia arvoja IV muuttujien joukossa

– Korkeat arvot ovat “kaukana” toisista• Discrepancy (d) arvioi sitä kuinka tapaus on linjassa

muiden kanssa.• Influency (l) = l * d.

2.4 Regressioanalyysin rajoituksia

Page 27: Luento 4: Regressioanalyysi

2.4 Regressioanalyysin rajoituksia

Korkea lMatala dKohtuullinen i

Korkea lKorkea dKorkea i

Matala lKorkea dKohtuullinen i

(Tabachnik & Fidell, 1996, 135.)

Page 28: Luento 4: Regressioanalyysi

• Residuaalien (havaitun ja ennustetun DV arvon välinen erotus, regressioyhtälön virhetermi tai jäännöstermi, ) – Normaalisuus

• Residuaalien (ennustevirheiden) tulisi olla normaalisti jakautuneita

– Lineaarisuus• Residuaalien ja ennustettujen DV arvojen välillä tulisi olla

lineaarinen suhde

– Homoskedastisuus• DV muuttujien residuaalien varianssien tulisi olla yhtä

suuria.

– Riippumattomuus• Residuaalien tulisi olla toisistaan riippumattomia.

2.4 Regressioanalyysin rajoituksia

Page 29: Luento 4: Regressioanalyysi

– A) Normaalisuus ei toteudu

– B) Lineaarisuus ei toteudu

– C) Homoskedastisuus ei toteudu

2.4 Regressioanalyysin rajoituksia

0 0

0 0

A

CB

Page 30: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 31: Luento 4: Regressioanalyysi

• Regressioanalyysin vaiheet:– Muuttujien valinta (DV, IV)

• Paitsi jos käytetään “Enter” -menetelmää

– Analyysi– Mallille tehtävät diagnostiset tarkastelut

2.5 Regressioanalyysin vaiheet

Page 32: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 33: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 34: Luento 4: Regressioanalyysi

• Kahden muuttujan regressioanalyysi– Määritellään kahden, riippuvan (DV) ja

riippumattoman (IV) muuttujan välinen yhtälö. • Esim. ennustetaan akateemista tuottavuutta (DV)

kognitiivisten oppimistuotosten, esim. GPA, avulla (IV).

– Jokaiselle yhtälössä olevalle riippumattomalle muuttujalle annetaan painokerroin (), jotka yhdessä muodostavat ns. Beta –vektorin (B).

– Selitettävän muuttujan arvo saadaan kun selittävät muuttujat lasketaan yhteen painokertoimilla painotettuna ja summaan lisätään vakio.

• Mallissa on aina mukana virhettä, jota kuvataan

jäännöstermin, residuaalin, () avulla.

3. Kahden muuttujan regressioanalyysi

Page 35: Luento 4: Regressioanalyysi

• Yksinkertaisessa kahden muuttujan välisessä regressiossa määritetään lineaarinen yhtälö joka kuvaa riippuvan (Y) ja riippumattoman (X) muuttujan välistä suhdetta:y = 0 + x + y = riippuva muuttuja0 = leikkauskohta (intercept, constant)

= regressioparametri (slope), kuvaa Y –muuttujan ennustettua arvon muutosta kun X –muuttujan arvo kasvaa yhden yksikön

x = riippumaton muuttuja = jäännöstermi

3. Kahden muuttujan regressioanalyysi

Page 36: Luento 4: Regressioanalyysi

y

x

yi = 0 + xi + ei

yi

yj,

3. Kahden muuttujan regressioanalyysi

Page 37: Luento 4: Regressioanalyysi

• Mallin (regressioyhtälö) ”hyvyyden” mittana käytetään selitettävän (DV, Y) ja selittävien (IV, X) muuttujien välistä korrelaatiota R.

• H0 = DV ja IV muuttujien välillä ei ole korrelaatiota (yksikin regressiokerroin saa arvon 0).– Suurella otoskoolla nollahypoteesi tulee siis

lähes varmasti hylätyksi.

3. Kahden muuttujan regressioanalyysi

Page 38: Luento 4: Regressioanalyysi

3. Kahden muuttujan regressioanalyysi

Page 39: Luento 4: Regressioanalyysi

• R2 on mallin selitysaste– Kuinka monta prosenttia malli (siis

ennustemuuttuja eli IV) pystyy selittämään riippuvan muuttujan (DV) vaihtelusta.

– SPSS laskee kaksi selitysastetta, joista tieteellisissä raporteissa käytetään konservatiivisempaa (”Adjusted R2”).

– Selitysasteen (R2) perusteella voidaan tehdä päätelmiä efektikoosta:

3. Kahden muuttujan regressioanalyysi

Page 40: Luento 4: Regressioanalyysi

3. Kahden muuttujan regressioanalyysi

Page 41: Luento 4: Regressioanalyysi

3. Kahden muuttujan regressioanalyysi

Page 42: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 43: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 44: Luento 4: Regressioanalyysi

• Määritellään yhden riippuvan (DV) ja usean riippumattoman (IV) muuttujan välisiä yhtälöitä.– Esim. ennustetaan työssä koettua stressiä (DV)

esimiehen johtamisominaisuuksien (IV1) ja ryhmän toimintakyvyn perusteella (IV2).

• Kaikki riippumattomat muuttujat analysoidaan (“Enter” –menetelmä), niitä ei valita tai aseteta järjestykseen.

4. Useamman muuttujan regressioanalyysi

Page 45: Luento 4: Regressioanalyysi

• Usean muuttujan lineaarisessa regressiossa määritetään lineaarinen yhtälö joka kuvaa yhden riippuvan ja usean riippumattoman muuttujan välistä suhdetta:y = 0 + 1x1 + 2x2 + ... + nxn + y = riippuva muuttuja

0 = vakio (constant)

1…n = regressioparametreja

x1…n = riippumattomia muuttujia

= virhetermi

4. Useamman muuttujan regressioanalyysi

Page 46: Luento 4: Regressioanalyysi

y

x

yi = 0 + 1ix1i + 2ix2i + ... + nixni +

ei

yi

yj,

4. Useamman muuttujan regressioanalyysi

Page 47: Luento 4: Regressioanalyysi

Knowledge

Value

Satisfaction

Performance

(Warren, White, & Fuller, 1974.)

4. Useamman muuttujan regressioanalyysi

Page 48: Luento 4: Regressioanalyysi

WorldSkills kilpailumenestys

WorldSkills kilpailumenestys

4. Useamman muuttujan regressioanalyysi

Yläasteen opintomenestysYläasteen opintomenestys

Ammatillisten opintojen menestys

Ammatillisten opintojen menestys

KontrolliuskomuksetKontrolliuskomukset

Näyttötilanteiden jännittäminen

Näyttötilanteiden jännittäminen

Tekemällä oppiminenTekemällä oppiminen

Ulkoinen tavoiteorientaatioUlkoinen tavoiteorientaatio

N=64

Page 49: Luento 4: Regressioanalyysi

4. Useamman muuttujan regressioanalyysi

• Regressioanalyysin suorittaminen PASW/SPSS -ohjelmassa– Analyze – Regression - Linear

• Dependent: kilpailumenestys (alle 23-vuotiaiden menestyminen WSC –kilpailuissa, luokiteltu 3 luokkaan: 1 = heikko, 2 = keskitasoinen, 3 = paras).

• Independent(s): str_3 (Learning by Doing, asteikko 1 = täysin eri mieltä .. 5 = täysin samaa mieltä), mot_2 (Extrinsic Goal Orientation), mot_4 (Control Beliefs), mot_6 (Test Anxiety), ammatopmenestys (menestyminen ammatillisissa opinnoissa), ya_ka (yläasteen päästötodistuksen keskiarvo).

• Statistics: Estimates, Confidence intervals (95%), Model fit, Collinearity diagnostics, Durbin-Watson.

• Plots: Y: *ZRESID (standardoidut residuaalit) ja X: *ZPRED (standardoidut ennustetut arvot)

Page 50: Luento 4: Regressioanalyysi

4. Useamman muuttujan regressioanalyysi

• Ensin tarkastellaan tulosteen lopusta ”Charts” –osasta täyttävätkö residuaalit niille asetetut vaatimukset normaaliuden ja lineaarisuuden osalta:

Residuaalit ovat jakautuneet normaalisti ja lineaarisesti.

Page 51: Luento 4: Regressioanalyysi

4. Useamman muuttujan regressioanalyysi

• Seuraavaksi tarkastellaan Model Summary –taulukon Durbin-Watson –sarakkeesta täyttävätkö residuaalit niille asetetut vaatimukset myös riippumattomuuden osalta:

Durbin-Watson saa arvoja väliltä 0 – 4, arvon 2 osoittaessa korreloimattomia residuaaleja (D-W < 2 = positiivinen korrelaatio, D-W > 2 = negatiivinen korrelaatio). Hyväksyttävät arvot vaihtelevat 1.0 – 3.0 välillä (2.0 = optimi).

Tässä aineistossa residuaalien voidaan todeta olevan normaaleja, lineaarisia ja riippumattomia, jolloin voidaan edetä varsinaisen regressioanalyysin tulosten tulkintaan.

Page 52: Luento 4: Regressioanalyysi

Kuvaa mallin yleistettävyyttä populaatioon, ts. pitäisi olla lähellä R2 –

arvoa. Jos malli olisi laskettu populaatiosta, eikä tästä 64 nuoren otoksesta, se selittäisi noin 11% vähemmän kilpailumenestyksestä (.442 - .331= .111).

4. Useamman muuttujan regressioanalyysi

Malli selittää tilastollisesti merkitsevästi kilpailumenestystä.

Page 53: Luento 4: Regressioanalyysi

Luottamusväli joko osoittaa (tai sitten ei) otoksesta lasketun painokertoimen (B) kuvaavan populaation mielipidettä. Esim. B=.644 kuvaa ”tekemällä oppimisen” positiivista yhteyttä kilpailumenestykseen (p=.021), ja samaa viestiä tarjoaa luottamusvälikin (B:n arvo vaihtelee populaatiossa 95% todennäköisyydellä välillä .104 - 1.185). Heikon selittäjän, esim. ”ulkoinen tavoiteorientaatio” (B=.242 , p=.368), osalta luottamusväli ilmaisee että populaatiossa on todennäköisesti myös henkilöitä joilla ulkoisen tavoiteorientaation vaikutus kilpailumenestykseen on negatiivinen (-.299).

4. Useamman muuttujan regressioanalyysiMultikollineaarisuus-tarkastelu suoritetaan vertaamalla Tolerance -sarakkeen arvoja lukuun .67 (1-R2=1-.33). Suuret korrelaatiot eivät ole ongelma, koska arvot vaihtelevat välillä .730-.893 eli ovat arvoa .67 suurempia. Huom. Tolerance = 1 / VIF.

Standardoimattomat kertoimet kuvaavat IV –muuttujan (prediktori) yhden yksikön kasvun vaikutusta DV –muuttujassa. Esim. kun ammatillinen opintomenestys kasvaa yhdellä arvosanalla, kilpailumenestyksen odotetaan paranevan .66 sijoituksen verran.

Page 54: Luento 4: Regressioanalyysi

WorldSkills kilpailumenestys

4. Useamman muuttujan regressioanalyysi

Yläasteen opintomenestys

Ammatillisten opintojen menestys

Kontrolliuskomukset

Näyttötilanteiden jännittäminen

Tekemällä oppiminen

Ulkoinen tavoiteorientaatio .644(.341).242(.138)

-.426(-.362)

.247(.166)

.644(.417)

-.141(.139)

R2=33%

Page 55: Luento 4: Regressioanalyysi

4. Useamman muuttujan regressioanalyysi

Ammattitaidon maailmanmestaruuskilpailuissa menestymistä selittäviä tekijöitä tarkasteltiin regressioanalyysilla kuuden ennustemuuttujan avulla. Parhaat ennustajat olivat aiempi ammattiopintomenestys (=.417, p=.001), tekemällä oppiminen (=.361, p=.021) ja näyttötilanteiden jännittäminen (=-.362, p=.018). Malli sopi aineistoon (p=.005) ja tuloksen efektikoko oli Cohenin (1988) mukaan suuri, =.331. 2

aR

Page 56: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 57: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 58: Luento 4: Regressioanalyysi

4.1 Hierarkkinen regressioanalyysi

• Hierarchical/sequential multiple regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

• Rajoitukset ovat samat kuin perinteisessä regressioanalyysissa.

• Analyysin suorittamiseen tarvitaan yksi jatkuva DV ja kaksi tai useampia jatkuva tai ei-jatkuva IV muuttuja.

• Analyysin avulla voi selvittää kunkin IV muuttujan suhteellisen selitysosuuden DV muuttujan varianssista.

Page 59: Luento 4: Regressioanalyysi

4.1 Hierarkkinen regressioanalyysi

• Riippumattomat muuttujat sijoitetaan regressioyhtälöön tutkijan määrittämässä järjestyksessä.

• Yleensä sijoittelun taustalla on teoreettinen, kausaalinen tms. oletus.– Tutkittaessa koettua stressiä (DV) sisäisten

prosessien (IV) ja ulkoisten tapahtumien hallinnan (IV) toimiessa selittävinä muuttujina, on varmasti hyvä ottaa malliin mukaan työkokemus (IV) ja minäkäsitys (IV).

Page 60: Luento 4: Regressioanalyysi

4.1 Hierarkkinen regressioanalyysi

• Pääselittäjien ”voimaa” voi myös tutkia sijoittamalla yhtälöön ensin vähempiarvoisia selittäjiä (=kontrolloimalla niitä).– Henkilön lukunopeutta (DV) voi tutkia

intensiivikurssin sisällön (IV) ja keston (IV) kannalta sijoittamalla yksilölliset erot lukunopeudessa (IV) yhtälöön ensimmäiseksi.

Page 61: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 62: Luento 4: Regressioanalyysi

4.2 Askeltava regressioanalyysi• Stepwise multiple regression, statistical

regression (Pedhazur, 1982; Tabachnick & Fidell, 2007)

• Menetelmää kutsutaan ”tilastolliseksi” regressioanalyysiksi, koska selittävien muuttujien valinta perustuu puhtaasti tilastollisiin kriteereihin (esim. korrelaation voimakkuus DV muuttujan kanssa).

• Muuttujien valinta tapahtuu yleisimmin kolmen menetelmän avulla: (1) forward selection, (2) backward selection, ja (3) stepwise selection.

Page 63: Luento 4: Regressioanalyysi

4.2 Askeltava regressioanalyysi• Forward selection (lisäävä menettely)

– Tyhjään yhtälöön lisätään tilastollisen kriteerin täyttävä IV yksi kerrallaan. Kukin lisätty IV jää yhtälöön.

• Backward selection (poistava menettely)– Kaikki IV muuttujat ovat alussa yhtälössä.

Tilastollisen kriteerin ulkopuolelle jäävät IV:t poistetaan yhtälöstä yksi kerrallaan.

• Stepwise selection (askeltava menettely)– Yhdistelmä edellisistä. Yhtälö on aluksi tyhjä, ja

siihen lisätään IV muuttujia yksi kerrallaan. Yhtälöstä voidaan myös poistaa IV muuttujia kun uusia, paremmin selittäviä tulee tilalle.

Page 64: Luento 4: Regressioanalyysi

4.2 Askeltava regressioanalyysi

• Perinteisessä regressioanalyysissa (A) voimakkaasti selitettävän muuttujan (DV) kanssa korreloiva selittävä muuttuja (IV1) voi jäädä statistin rooliin.

A

Page 65: Luento 4: Regressioanalyysi

4.2 Askeltava regressioanalyysi

• Askeltavassa mallinnuksessa (C) selitettävät muuttujat saavat ”krediitit” riippuvan muuttujan selittämisestä korrelaation voimakkuuden perusteella.

C

Page 66: Luento 4: Regressioanalyysi

4.2 Askeltava regressioanalyysi

• Ylisovitus (overfitting) on askeltavien menetelmien riski, erityisesti tehtäessä tulkintoja yhden näytteen perusteella.

• Ristiinvalidointi (cross validation) esim. toisen näytteen avulla (tai suuren datatiedoston puolitus) on suositeltavaa käytettäessä tilastollisia regressiomenetelmiä.– Ajetaan sama regressioanalyysi kaksi kertaa

eri aineistoilla, esim. jaetaan yksi riittävän suuri aineisto kahteen satunnaisesti muodostettuun aliotokseen.

Page 67: Luento 4: Regressioanalyysi

Sisältö1. General Linear Model (GLM)

1.1 Korrelaatio

2. Regressioanalyysi 2.1 Regressioanalyysin historia 2.2 Regressioanalyysin lajit 2.3 Regressioanalyysin käyttötapoja 2.4 Regressioanalyysin rajoituksia 2.5 Regressioanalyysin vaiheet

3. Kahden muuttujan regressioanalyysi4. Useamman muuttujan regressioanalyysi

4.1 Hierarkkinen regressioanalyysi4.2 Askeltava regressioanalyysi

5. Kanoninen korrelaatioLähteet

Page 68: Luento 4: Regressioanalyysi

1 jatkuva

n jatkuvaa

Joitakin Seq. Multiple R

1 jatkuva

DV IV Kovariaatit Analyysi

Ei Multiple R

Bivariate r

Ei yhtään n-way Freq. Anal.n diskr.

n jatkuvaa Canonical Rn jatkuvaa

1 diskr. Multilevel modelingn jatkuvaatai diskr.

Muuttujienvälisten

riippuvuuksienvoimakkuus

Muuttujienvälisten

riippuvuuksienvoimakkuus

Page 69: Luento 4: Regressioanalyysi

5. Kanoninen korrelaatio

• Canonical correlation– (Kerlinger, 1986, 561-568)

• Yleismenetelmä, jonka erikoistapauksia ovat mm. regressioanalyysi, erotteluanalyysi ja MANOVA.

• Käytetään tutkimuskirjallisuudessa enemmän kuvailuun kuin hypoteesintestaukseen.– ”Tulokset ovat usein matemaattisesti

elegantteja, mutta vaikeasti tulkittavissa” (Tabachnik & Fidell, 2007, 570).

Page 70: Luento 4: Regressioanalyysi

5. Kanoninen korrelaatio

• Menetelmän avulla tutkitaan kahden muuttujaryhmän välisiä vaikutussuhteita.– Toinen ryhmä voi koostua DV (esim.

ympäristötietoisuus) ja toinen IV (esim. sukupuoli, koulutustaso, poliittinen kanta) muuttujista.

– Tutkijan kannalta muuttujien valinta ja erityisesti tulosten mielekäs tulkinta on haasteellista.

Page 71: Luento 4: Regressioanalyysi

Lähteet

Berk, R. A. (2004). Regression Analysis: A Constructive Critique. Thousand Oaks: Sage.

Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, NJ: Erlbaum.

Cronbach, L. J. (1951). Coefficient alpha and the internal structure of tests. Psychometrika, 16, 297-334.

Galton, F. (1885). Regression towards mediocrity in hereditary stature. Journal of the Anthropological Institute, 15, 246-63.

Green, S. B. (1991). How many subjects does it take to do a regression analysis? Multivariate Behavioral Research, 26, 499-510.

Gulliksen, H. (1950). Theory of Mental Tests. New York: John Wiley & Sons.

Page 72: Luento 4: Regressioanalyysi

Lähteet

Howell, D. (1997). Statistical Methods for Psychology. Belmont, CA: Wadsworth Publishing Company.

Kerlinger, F. (1986). Foundations of Behavioral Research. Third Edition. New York: CBS College Publishing.

Kuder, G. F., & Richardson, M. W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151-160.

Metsämuuronen, J. (2003). Tutkimuksen tekemisen perusteet ihmistieteissä. Helsinki: International Methelp Ky.

Nummenmaa, L. (2009). Käyttäytymistieteiden tilastolliset menetelmät. Ensimmäinen painos, uudistettu laitos. Helsinki: Tammi.

Nummenmaa, T., Konttinen, R., Kuusinen, J., & Leskinen, E. (1997). Tutkimusaineiston analyysi. Porvoo: WSOY.

Page 73: Luento 4: Regressioanalyysi

Lähteet

Pierce, C. A., Block, R., & Aguinis, H. (2004). Cautionary note on reporting Eta-squared values from multifactor ANOVA designs. Educational and Psychological Measurement, 64(6), 916-924.

Pearl, J. (2000). Causality. New York: Cambridge University Press.Pedhazur, E. (1982). Multiple Regression Analysis in Behavioral

Research. New York: Holt, Rinehart and Winston.

Stevens, J. (1996). Applied Multivariate Statistics for the Social Sciences. Third edition. Mahwah, NJ: Lawrence Erlbaum.

Tabachnick, B. G., & Fidell, L. S. (1996). Using Multivariate Statistics. Third Edition. New York: Harper Collins.

Page 74: Luento 4: Regressioanalyysi

Lähteet

Tabachnick, B. G., & Fidell, L. S. (2007). Using Multivariate Statistics. Fifth Edition. Boston: Pearson.

Warren, R. D., White, J. K., & Fuller, W. A. (1974). An errors-in-variables analysis of managerial role performance. Journal of American Statistical Association, 69, 886-893.

Vehkalahti, K. (2007). Kyselytutkimuksen mittarit ja menetelmät. http://www.helsinki.fi/%7ekvehkala/mmm/moniste.pdf