professional statistics - webropol · 2 1. miten pÄÄset alkuun 1.1. systeemivaatimukset...

Webropol Oy

Professional Statistics Pikaopas

2013-11-29

1

SISÄLTÖ

1. Miten pääset alkuun .................................................................................................................... 2

1.1. Systeemivaatimukset.......................................................................................................... 2

1.2. Professional Statistics avaaminen ...................................................................................... 2

2. Perustoiminnot ............................................................................................................................ 4

3. Mitä pitäisi ottaa huomioon ennen analyysejä ............................................................................ 9

3.1. Pitkien muuttujanimien lyhentäminen ................................................................................. 9

3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit ....................................................... 10

3.3. Uusien muuttujien laskeminen ......................................................................................... 11

3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En osaa sanoa’ vastausten

poistaminen ................................................................................................................................... 13

3.5. Aineiston filterointi / ehtojen tekeminen ............................................................................ 13

3.6. Jakauman normaalisuuden tutkiminen ............................................................................. 14

4. Mikä analyysi pitäisi valita? ....................................................................................................... 16

4.1. Varianssien yhtäsuuruusoletuksen testaaminen .............................................................. 17

4.2. Kaksi jatkuvaluonteista muuttujaa .................................................................................... 18

4.3. Kaksi luokiteltua muuttujaa ............................................................................................... 19

4.4. Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi ryhmämuuttuja ............................ 21

4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja ..................................................................... 21

4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja ................................................ 23

4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä ..................................... 24

4.6. Reliabiliteetin laskeminen eli Cronbachin alpha ............................................................... 25

4.7. Faktorianalyysi .................................................................................................................. 26

4.8. Regressio ......................................................................................................................... 28

4.9. Klusterointi ........................................................................................................................ 29

4.9.1. Manuaalinen klusterointi ........................................................................................... 29

4.9.2. Hierarkkinen klusterianalyysi .................................................................................... 30

2

1. MITEN PÄÄSET ALKUUN

1.1. Systeemivaatimukset

Professional Statistics (PS) on Java-pohjainen kuten monet muutkin Internet sovellukset. Tämä

tarkoittaa sitä, että PS käyttää tietokoneen omaa laskentatehoa suorittaakseen analyysit. Jotkut

analyysit ovat hieman raskaampia ja tulosten laskenta saattaa viedä enemmän aikaa. Joka

tapauksessa suorituskyky on riippuvainen tietokoneen omasta suorituskyvystä. Myös Internet-

yhteyden nopeus vaikuttaa. Professional Statisticsin lataaminen kestää jonkin aikaa, joten olethan

kärsivällinen.

Professional Statisticsiä voidaan käyttää eri Javaa tukevissa ympäristöissä. Ainoa vaatimus on että

Java Run Time Environment tai vastaava on asennettuna. Voit ladata viimeisimmän Javan

ilmaiseksi osoitteesta: http://www.java.com/en/download/index.jsp

1.2. Professional Statistics avaaminen

Voit avata Professional Statisticsin suoraan kyselykansioista osoittamalla haluamaasi kyselyä

listassa, kyselyn nimen oikealle puolelle ilmestyy ratas, ja sitä klikkaamalla saat valikon auki.

Valikosta valitsemalla Professional Statistics aukeaa kuvan 3 näkymä, josta voit ladata

Professional Statisticsin auki.

KUVA 1: PROFESSIONAL STATISTICSIN AVAAMINEN KYSELYKANSIOSTA

http://www.java.com/en/download/index.jsp

3

Toinen tapa on avata PS raportoinnin puolella klikkaamalla ikkunan oikeassa ylänurkassa olevaa

Professional Statistics tekstipainiketta.

KUVA 2: PROFESSIONAL STATISTICSIN AVAAMINEN RAPORTOINTINÄKYMÄSSÄ

Kumpikin tapaa avaavat alla olevan näkymän, josta valitsemalla Analyze (Statistics) ohjelma lähtee

latautumaan.

KUVA 3: PROFESSIONAL STATISTICS - JA DATA MINER LATAUSIKKUNA

PS napin tai Professional Statistics tekstinapin

painaminen ohjaa sinut tälle sivulle. Avataksesi

Professional Statisticsin klikkaa Analyze -

kohtaa. Jos haluat ottaa aineistostasi otoksen

tai muuten lisäkäsitellä aineistoasi klikkaa

Customize. Lisäinformaatiota datan käsittelyyn

Data Minerissa löytyy Data Minerin Helpistä.

4

2. PERUSTOIMINNOT

Professional Statistics avaa automaattisesti sen aineiston (kysely), jonka raportilta Professional

Statistics käynnistetään. Jos haluat ladata toisen aineiston valitse Load data Professional

Statisticsin File-menusta. Aineiston on oltava Excel-muotoa. Huomaa, että .xlsx tiedoston pitää olla

tiettyä muotoa, jotta se toimisi oikein Professional Statisticsissa.

KUVA 4: EXCEL-DATAN MUOTO

Seuraavassa kuvassa on Professional Statisticsin (PS) näkymä ohjelman avauduttua. PS on jaettu

neljään osaan. Ylemmässä osassa (1) valitaan analyysit ja perustoiminnot, vasemmanpuoleisessa

osassa (2) näkyy muuttujalista (kysymykset), keskimmäisessä osassa (3) näkyvät tulostaulukot ja

oikeassa osassa (4) grafiikka.

Ylhäällä vasemmassa nurkassa näet Report valikon, missä voit kopioida ja tallentaa kuvia, sekä

File valikon missä voit joko ladata tai tallentaa aineiston. Näiden valikoiden alapuolella kohdassa

Analysis types voit valita tarvittavan analyysityypin. Analysis types – kohdan oikealla puolella

Algorithms – kohdassa näkyvät analyysit ja funktiot valitusta analyysityypistä riippuen (kuvassa

Overview – kohdan perusanalyysit). Ylhäällä oikeassa kulmassa voit antaa palautetta,

napauttamalla Give Feedback painiketta avautuu Feedback nettilomake, jonka voit lähettää netin

kautta ohjelmatoimittajalle. Napauttamalla Show help avautuu valitun toiminnon Help-ikkuna.

Samasta kohtaa saat Help-ikkunan suljettua. Oranssi kysymysmerkki avaa yleisnäkymä help-

ikkunan PS:n päälle erilliseen ikkunaan.

5

KUVA 5: PROFESSIONAL STATISTICSIN PERUSNÄKYMÄ

KUVA 6: VASEMMANPUOLEINEN- JA KESKIOSA: MUUTTUJALISTA JA TULOSTAULUKKO

Tässä näkymässä näet PS:n muuttujalistan ja

tulostaulukon. Valitse muuttuja ruksaamalla

haluamasi muuttujan edessä olevaa

valintaruutua. Valitse useampia muuttujia

kerralla painamalla Ctrl alas ja valitsemalla

hiirellä muuttujat. Kun muuttujat ovat valittuna,

paina välilyöntinäppäintä. Tällöin valitut

muuttujat tulevat ruksatuiksi ja PS tuottaa

analyysin. Voit käyttää myös Shift ja Up/Down

nuolia valitaksesi muuttujat.

6

KUVA 7: KESKIMMÄINEN OSA: TULOSTAULU

Voit viedä tulostaulukon Exceliin (Create xls-sheet), tai kopioida leikepöydälle (Data to clipboard)

valitsemalla halutun formaatin Report-valikon alta. Ristiintaulukoinnissa (Crosstabs) voit viedä

taulukon Exceliin klikkaamalla Export to Excel – nappia taulukon yläpuolella.

KUVA 8: TULOSTAULUKON VIENTI MUIHIN FORMAATTEIHIN

Tässä näkyy PS:n tulostaulu. Järjestääksesi

tulokset suuruusjärjestykseen klikkaa sarakkeen

otsikkoa (kuvassa average) hiiren oikealla.

Valitaksesi kaikki muuttujat kuvaan klikkaa hiiren

vasemmalla sarakkeen otsikon päällä.

Valitaksesi tietyt muuttujat kuvaan paina Ctrl

alas ja klikkaa hiiren vasemmalla vain haluttujen

muuttujien kohdalla sarakkeessa. Voit myös

maalata halutut rivit mukaan.

7

KUVA 9: OIKEANPUOLEINEN OSA: GRAFIIKKA

Voit viedä kuvan PowerPointiin (Create ppt-slide (objekti) / Create PPT Chart (muokattava muoto)),

Exceliin (Create xls-chart (muokattava muoto)), Wordiin (Create doc image (objekti)) tai

leikepöydälle (Image to clipboard (objekti)) klikkaamalla hiiren oikealla kuvan päällä ja valitsemalla

halutun formaatin. (kts kuva 11). Valittuasi Excel-, Word- tai Powerpoint -muodon muuttujalistan

alle vasempaan laitaan ilmestyy halutun formaatin mukainen ikoni ja tallenna painike. Jokaisesta

siirrettävästä kuvasta tulee oma ikoninsa. Kuvassa 10 on kolme PowerPoint diaa ja kaksi Excel

taulukkoa odottamassa tallennusta. Näin voit tallentaa kerralla useamman kuvan yhteen

tiedostoon. Poistaaksesi turhat ikonit, valitse ne ja paina delete.

Kun olet tehnyt kaikista halutuista kuvista ikonin, klikkaa tallenna – nappia (disketin kuva

kuvaikonien oikealla puolella). Huomaa, että jokainen PowerPoint-kuva tulee omalle dialleen ja

jokainen Excel-taulukko/kuva omalle välilehdelleen.

Hiiren oikean näppäimen alta näkyvä Chart Colors – alla voit vaihtaa kuvan värejä. Enlarge avaa

kuvan omaan ikkunaansa, jossa voit vaihtaa akseleiden paikkaa, muokata kuvan otsikkoa, väritystä

ja fontteja, sekä tallentaa /kopioida muokatun kuvan.

Tässä näet PS:n grafiikka-

alueen. Valitse kuvatyyppi

Chart type - kohdasta.

Nähdäksesi kuvasta vain osan

asteikkoa maalaa hiirellä

asteikon kohdalla haluttu väli

vasemmalta oikealle. Koko

asteikon takaisin saat

pyyhkäisemällä hiiren vasen

näppäin alhaalla asteikon yli

oikealta vasemmalle.

Tutkiaksesi kuvaa ryhmittäin

valitse Split by-kohdasta

ryhmämuuttuja.

8

KUVA 10: S IIRRETTÄVÄT KUVAIKONIT JA TALLENNA - PAINIKE

KUVA 11: KUVIEN VIENTI

9

3. MITÄ PITÄISI OTTAA HUOMIOON ENNEN ANALYYSEJÄ

Professional Statistics sisältää monia tapoja muokata dataa ennen analyysejä. Alla olevassa

taulukossa näet Pretreatment – osion eri toiminnot.

Pre

treatm

en

t

Variable Name Editor

Jos kysymyksen seliteteksti on liian pitkä tai haluat muuttaa nimen kuvaavammaksi, voit muokata tekstejä Variable Name Editorin alla.

Variable Types

Voit määritellä muuttujien muuttujatyypit. Muuttujatyyppi kertoo mitä analyysejä voit käyttää. Muuttujatyyppien määrittely on vapaaehtoinen toiminto eikä se vaikuta suurimpaan osaan analyyseistä.

Variable Math

Voit luoda uusia muuttujia olemassa olevien muuttujien avulla.

Recode Variable

Muuttujien luokkien yhdistäminen ja uudelleen luokittelu. Tyypillisesti käytetään asteikon kääntämiseen ja ryhmien määrän pienentämiseen.

Group and Filter

Group – funktiolla voit luoda vastaajaryhmiä, jotka perustuvat yhden tai kahden muuttujan arvoihin. Filter-funktiolla luot ehtoja dataan, poimit esim. mukaan analyyseihin vain yli 40-vuotiaat naiset.

Seuraavassa esimerkkejä edellä mainituista toiminnoista.

3.1. Pitkien muuttujanimien lyhentäminen

KUVA 12: VARIABLE NAME EDITOR - NÄKYMÄ

HUOM! Nimimuutokset eivät muuta mitään itse kyselyaineistoon, muutokset ovat voimassa vain

Professional Statisticsissa. Voit kuitenkin tallentaa muokatut nimet myöhempää käyttöä varten

Save - painikkeella ja kun avaat seuraavan kerran saman aineiston Professional Statisticsiin voit

hakea muokatut nimet Load - painikkeella.

Tehdäksesi analysoinnin ja

tulosten tulkinnan helpommaksi

voit muokata muuttujanimiä

Variable Name Editor – kohdassa.

Voit muokata suoraan nimeä

halutuksi New – kohdassa.

Useampia nimiä kerralla

muokatessa kirjoita muokattava

nimi/nimen osa Replace-kohtaan

ja uusi korvaava nimi With-

kohtaan. Klikkaa sitten Replace –

painiketta.

10

3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit

Alhaalla taulukossa näet Professional Statisticsin muuttujatyypit. Voit määritellä ne Pretreatment –

osiossa Variable Typesin alla.

Vari

ab

le T

yp

es

Nominal Luokiteltu muuttuja, jonka luokkia ei voida laittaa kiistattomaan järjestykseen. Esimerkiksi ‘Sukupuoli: Mies, Nainen’

Ordinal Luokiteltu muuttuja, jonka luokat voidaan laittaa järjestykseen. Esimerkiksi ‘Luokiteltu ikä: Vähemmän kuin 30 v, 31-65 vuotta, yli 65 vuotta’

Interval Numeerinen muuttuja, jolla ei ole ns. absoluuttista nollapistettä, jossa ominaisuus loppuu Esimerkiksi ‘Lämpötila mitattuna Celsiusasteilla’ tai ‘Bruttokansantuote’, Näissä molemmissa voi olla sekä negatiivisia että positiivia arvoja, eikä ole mitään arvoa missä ominaisuus loppuisi.

Ratio Numeerinen muuttuja, jolla on ns. absoluuttinen nollapiste, jossa ominaisuus loppuu Esimerkiksi paino, pituus tai palkka. Ne eivät voi saada negatiivisia arvoja.

Multi choice

Muuttuja, jossa voi olla valittuina useampi vastausvaihtoehto. Esimerkiksi ‘Valitse kolme tärkeintä ominaisuutta listasta, mitä haluat uuden tuotteen pitävän sisällään.’

KUVA 13: VARIABLE TYPE NÄKYMÄ

11

3.3. Uusien muuttujien laskeminen

KUVA 14: VARIABLE MATH – NÄKYMÄ

Perinteinen aritmeettinen keskiarvo (esimerkki kuvassa Satisfaction with Staff) laskee keskiarvon

niille vastaajille, jotka ovat vastanneet jokaiseen summattavaan muuttujaan. Eli jos joku vastaaja

esimerkin tapauksessa olisi jättänyt vastaamatta x4:sta vastaavaan kysymykseen, ei keskiarvoa

voida laskea hänelle. Eli aineistossa, jossa on paljon puuttuvia vastauksia, ei kokonaiskeskiarvon

laskeminen välttämättä ole kovin kuvaava suure ja voi vähentää kokonaiskeskiarvon n-arvoa

ratkaisevasti. Tällaisissa tilanteissa voit myös käyttää tilastollisia funktioita kokonaiskeskiarvon

laskemiseen. average-funktio laskee keskiarvon niillä arvoilla mitä aineistosta löytyy, ja näin ollen

ei vähennä n-lukua suhteettomasti vaikka aineistossa olisi tyhjiäkin vastauksia. Esim. jos vastaaja

on jättänyt vastaamatta x4:sta ja x8:a vastaaviin kysymyksiin, niin keskiarvo lasketaan niistä

kysymyksistä, joissa vastaus on, eli lopuista kahdeksasta esimerkin tapauksessa.

Käytettävät funktiot: average, min, max, sum ja stdev. Funktion sisällä laskettavat muuttujat

erotetaan pilkulla toistaan.

Voit laskea uusia muuttujia Variable

Math - funktiolla. Paina Add equation

nappia, uusi muuttuja ilmestyy

muuttujalistan loppuun nimellä

‘equation…’. Nimeä uusi muuttuja

haluamaksesi ja kirjoita ‘equation’

sarakkeeseen lauseke. Käytä x-alkuisia

muuttujanimiä lausekkeessa laskiessasi

jo olemassa olevilla muuttujilla. Remove

selected rows poistaa ylimääräisiä

muuttujia, joita et tarvitse.

12

Seuraavassa kuvassa esimerkki funktion käytöstä laskettaessa esimerkin ’Satisfaction with Staff’

käyttäen average-funktiota. Huom! käytä vain pieniä kirjaimia funktiossa sekä käytettävissä x-

muuttujissa lausekkeessa.

KUVA 15: KOKONAISKESKIARVON LASKEMINEN KÄYTTÄEN AVERAGE-FUNKTIOTA

13

3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En

osaa sanoa’ vastausten poistaminen

KUVA 16: RECODE VARIABLE - NÄKYMÄ

Voit muokata vastausvaihtoehtojen selitteitä ja poistaa ‘En osaa sanoa’ – vastauksia myös

raportoinnin sisällä ennen kuin avaat Professional Statisticsin. Tarkemmat ohjeet tästä löydät

Webropol 2.0 Raportointioppaasta.

3.5. Aineiston filterointi / ehtojen tekeminen

Tarkastellaksesi vain osaa aineistoa voit käyttää Group and Filter – toimintoa Pretreatment -

osiossa. Group tuottaa uuden muuttujan, jossa yhtenä ryhmänä on valitut ja toisena muut. Filter –

muuttaa ei-valitut havainnot passiiviseksi eli vain valitut tulevat mukaan analyyseihin.

Valitse muuttuja(t) Y-variables listalta ja X-variables listalta. Huomaa, että jos haluat tehdä ehdon

vain yhden muuttujan arvoilla, niin sinun pitää valita sama muuttuja molemmista, niin Y-variables

kuin X-variables listalta.

Esimerkiksi haluamme valita vain naiset mukaan. Valitse ‘Gender’ Y-variables listalta ja myös X-

variables listalta.

Voit muokata vastausvaihtoehtoja Recode

variable - funktiolla. Valitse muokattavat

muuttujat Variables-listalta. Jos haluat

yhdistää vastausvaihtoehtoja yhdeksi

luokaksi, anna niille sama arvo New Value

kohtaan ja selite ylimmälle arvolle New

Name kohtaan . Muokataksesi vastaus-

vaihtoehtojen selitteitä klikkaa selitteen

kohdalla (New Name) ja nimeä se

uudestaan. Poistaaksesi vaihtoehdon

poista arvo New Value kohdasta ja New

Name kohdasta. Tallenna muutokset

antamalla uuden muuttujan nimi Name of

new variable - kohtaan ja paina Enter.

14

Ruksaa ‘Female’ kuten seuraavassa kuvassa ja paina Filter Rows nappia. Ohjelma ilmoittaa ’You

have now filtered the data…’. Ikkunan ylälaidassa näet että filterointi on päällä. (Data filtered, using

… rows).

KUVA 17: GROUP AND F ILTER NÄKYMÄ

Kun haluat tarkastella koko aineistoa jälleen, klikkaa ’Data filtered, using … rows’, Disable filtering

– komento tulee näkyviin. Kun valitset sen, filtteri on pois päältä ja koko aineisto jälleen

käytettävissä.

3.6. Jakauman normaalisuuden tutkiminen

Joidenkin analyysien oletuksena on jakauman normaalisuus, minkä on oltava voimassa, jotta

tuloksiin voitaisiin luottaa. Voit tarkastella jakauman vinoutta ja huipukkuutta Normality

Assessmentin alla. Koko jakauman normaalisuutta voit tarkistella myös jakaumakuvien avulla, esim

Overview:n alta klikkaamalla tunnuslukua ja valitsemalla kuvatyypiksi Histogram tai Normal

propability plot. Lisäksi voit testata jakauman normaalisuutta Shapiro-Wilkin tai Lillieforsin testillä

niin ryhmittäin kuin koko aineistollekin. Lisäinformaatiota normaalisuuden tutkimisesta saat myös

15

klikkaamalla oikeasta yläkulmasta Show help – nappia. Se avaa kunkin toiminnon kohdan oman

Help-ikkunan.

Overv

iew

Basic Perustunnusluvut muuttujille.

Normality Assessment

Vinous- ja huipukkuusluvut jatkuvaluonteisen muuttujan normaalisuuden tarkasteluun. Riippuen siitä ovatko jakaumat normaalisia vai eivät käytetään parametrisia (normaaliset jakaumat) tai ei-parametrisia (ei-normaaliset jakaumat) testejä.

Percentiles Fraktiilit (Percentiles) kertovat jakaumasta enemmän kuin keskiarvot yksin. Ne ovat järjestetyn aineiston se piste, jota vähemmän on ‘k’ prosenttia havainnoista. Esimerkiksi 25% fraktiili eli alakvartiili antaa luvun, jota pienempia havinnoista on 25 %. Yleisimmin käytetyt fraktiilit tieteellisissä raporteissa ovat alakvartiili, mediaani ja yläkvartiili, eli 25%, 50% ja 75% fraktiilit.

Shapiro-Wilk Shapiro-Wilkin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Tämä testi on parhaimmillaan pienempien aineistojen testauksessa.

Lilliefors Lillieforsin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Lillieforsin testiä suositellaan nimenomaan isompien aineistojen testauksessa.

Jakauman normaalisuuden tarkasteluun ja testaamiseen on monta tapaa: Shapiro-Wilk - tai

Lilliefors – testi, Normal probability plot, Histogrammi tai vinous- ja huipukkuuslukujen tarkastelu

niiden keskivirheiden kanssa. Shapiro-Wilk – and Lilliefors testeissä saat tulokset myös ryhmittäin,

ruksaa ‘Test each Y group’ ja valitse ryhmittelevä muuttuja Y-variables listalta.

KUVA 18: SHAPIRO-W ILKIN TESTI JA NORMAL PROPABILITY PLOT

Jos testin p-arvo on suurempi kuin

0.05, voidaan jakaumaa pitää

normaalisesti jakautuneena.

Normal probability plotissa

normaalisesti jakautuneen

aineiston pisteiden pitäisi kulkea

jakaumaviivan päällä lineaarisesti.

16

Esimerkkiaineistossa Shapiro Wilkin testi hylkää jakauman normaalisuuden, p-arvo ≤ 0.05.

Jakaumakuva oikealla vahvistaa tuloksen.

4. MIKÄ ANALYYSI PITÄISI VALITA?

Saadaksesi luotettavia tuloksia on tärkeää valita oikea analyysi erilaisille muuttujille. Alhaalla

taulukossa on käyty lyhyesti läpi eri testien tarkoitus ja käytettävät muuttujatyypit.

Vari

ab

les

t-test (paired) Riippuvien otosten t-testiä (t-test (paired)) käytetään testaamaan kahden jatkuvaluonteisen muuttujan keskiarvoeroja. Testattavan muuttujan pitää olla vähintään välimatka-asteikollinen ja noudattaa normaalijakaumaa. Testattavat muuttujat pitää olla mitattu samalla skaalalla, sillä testi perustuu muuttujien keskiarvojen vertaamiseen. Jos normaalisuus ei ole voimassa toisella tai molemmilla muuttujilla, pitää käyttää ei-parametrista Wilcoxonin testiä.

Wilcoxon Wilcoxon signed rank testiä käytetään testaamaan kahden vähintään järjestysasteikollisen muuttujan välisiä eroja (eroaako muuttuja 1 muuttujasta 2). Jos kahden jatkuvaluonteisen muuttujan jakaumat eivät noudata normaalijakaumaa voidaan Wilcoxonin testiä käyttää parametrisen t-testin sijaan. Testattavilla muuttujilla pitää olla sama mittaskaala. Esim. kaksi Likert-asteikollista muuttujaa - molemmat mitattu 1-5 asteikolla.

Co

mp

are

gro

up

s

Crosstabs Ristiintaulukointia (Crosstabs) käytetään eri ryhmien välisten jakaumien vertaamiseen. Tulostaulukossa näkyvät prosentit sekä numeerisilla muuttujilla keskiarvot ryhmittäin. Tulokset voidaan esittää graafisesti nopeasti valitsemalla hiirellä tulosarvot. Sarakeprosentti- ja sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot).

Crosstabs for Means

Ristiintaulukointi pelkillä keskiarvoilla on usein skaalallisilla muuttujilla se halutuin tapa esittää asiat taulukkomuodossa. Sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot).

Chi² Khii-toiseen riippumattomuustestiä (Chi²) käytetään testaamaan testattavien luokkamuuttujien (nominaali – ja/tai järjestysasteikolliset muuttujat) riippumattomuutta, eli käytännössä, onko muuttujaryhmien välillä eroja vai ei. Esimerkiksi jos halutaan tutkia sukupuolten välisiä eroja suosikki-vuodenajan tai työn vastuualueen suhteen.

Levene Levenen testiä käytetään varianssien yhtäsuuruuden testaamiseen ryhmien välillä. Varianssien yhtäsuuruus on yksi parametristen testien oletuksista. Jos varianssien yhtäsuuruusoletus ei ole voimassa, pitää käyttää ei-parametrisia testejä (Mann-Whitney riippumattomien otosten t-testin sijaan, Kruskal-Wallis ANOVAn sijaan).

t-test (independent samples)

Riippumattomien otosten t-testiä (t-test (independent samples)) käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kahden ryhmän välillä. X variables – listalta valitun muuttujan tulee olla normaalisesti jakautunut molemmissa luokitellun muuttujan ryhmissä (Y-variables), ja sen varianssien tulee olla yhtä suuret molemmissa ryhmissä. Jos oletukset eivät ole voimassa tulee käyttää ei-parametrista Mann-Whitneyn testiä.

Mann-Whitney

Mann-Whitney (tunnettu myös Wilcoxon signed-rank testinä tai Mann-Whitney-Wilcoxon testinä) on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kahden ryhmän välillä.

ANOVA ANOVAa (Analysis of Variance) eli varianssianalyysiä käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kolmen tai useamman ryhmän

17

välillä. X-variables listan muuttujan tulee olla normaalisesti jakautunut kussakin Y-variables listan luokitellun muuttujan ryhmässä. Myös varianssien tulee olla yhtä suuret kussakin ryhmässä. Jos oletukset eivät ole voimassa, tulee käyttää ei-parametrista Kruskal-Wallisin testiä.

Kruskal-Wallis Kruskal-Wallis on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kolmen tai useamman ryhmän välillä.

Co

rrela

tio

ns

R (Pearson)

Pearsonin tulomomenttikorrelaatiokerrointa (r) käytetään testaamaan jatkuvaluonteisten, mielellään normaalisesti jakautuneiden muuttujien välistä lineaarista riippuvuutta. Testattavien muuttujien pitää olla vähintään välimatka-asteikollisia. Jos data eroaa merkittävästi normaalijakaumasta tai muuttujat ovat järjestysasteikollisia, tulee käyttää Spearmanin järjestyskorrelaatiokerrointa (Rho).

Rho (Spearman)

Spearmanin järjestyskorrelaatiokerrointa (tai Spearmanin rhota) käytetään testaamaan vähintään järjestysasteikollisten tai vinosti jakautuneiden jatkuvaluonteisten muuttujien välistä lineaarista riippuvuutta.

Mu

ltiv

ari

ate

Cronbach’s Alpha

Cronbachin alphaa käytetään mittaamaan muuttujien reliabiliteettia (internal consistency), esim. kuinka hyvin summattavat muuttujat mittaavat samaa asiaa tai kuinka hyvin ne mittaavat yhdessä ryhmänä jotain asiaa.

PCA Pääkomponenttianalyysiä (Principal Component Analysis (PCA)) käytetään luomaan lineaarikombinaatioita muuttujista perustuen muuttujien variansseihin ja niiden välisiin riippuvuuksiin. Käytettävien muuttujien tulee olla jatkuvia. Aineiston koko tulisi olla vähintään 300 havaintoa. PCA olettaa muuttujaparien välisen riippuvuuden olevan lineaarista. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä.

Factor analysis

Exploratorinen faktorianalyysi on keino löytää muuttujien takaa ilmiö, joka selittää muuttujien vaihtelua (keino nähdä metsä puilta). Tekniikka perustuu muuttujien välisiin lineaarisiin riippuvuuksiin. Muuttujien tulee olla skaalallisia ja mielellään normaalisesti jakautuneita. Aineiston koon tulisi olla vähintään 100 havaintoa ja havaintoja (täydellinen aineisto) tulisi olla enemmän kuin mukaan tulevia muuttujia.

SOM Self-Organizing Map (SOM) – kuvia käytetään muuttujien visuaaliseen tarkasteluun tarkoituksena löytää muuttujien jakaumista klustereita. Käytettävien muuttujien tulee olla numeerisia.

Regression (PLS)

Partial Least Squares (PLS) Regressiota käytetään selittämään yhden jatkuvan muuttujan vaihtelua kahdella tai useammalla jatkuvalla muuttujalla. Varsinkin pienillä aineistoilla jakaumien tulisi olla vähintään likimain normaalisia. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä.

Stepwise Regression

Askeltavalla regressiolla (Stepwise Regression) voidaan arvioida mitkä tekijät selittävät parhaiten selitettävän muuttujan vaihtelua. Testattavien muuttujien tulisi olla jatkuvaluonteisia ja vähintään likimain normaalisia. Riippuvuuksien oletetaan olevan lineaarisia.

Clustering Hierarkkista klusterianalyysiä käytetään luomaan homogeenisia ryhmiä valittujen muuttujien (ominaisuuksien) suhteen. Käytettävien muuttujien tulee olla jatkuvaluonteisia. Otoskoon tulisi olla vähintään 2k, kun k on analyysissä olevien muuttujien määrä.

4.1. Varianssien yhtäsuuruusoletuksen testaaminen

Parametristen testien (riippumattomien otosten t-testi ja ANOVA) oletuksena on, jakauman

normaalisuusoletuksen lisäksi, myös varianssien yhtäsuuruus testattavassa kussakin ryhmässä.

18

Varianssien yhtäsuuruuden testaamiseen käytetään Levenen testiä. Se löytyy Compare Groups

osion alta.

Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli ) ja jatkuva muuttuja X-variables

listalta (esimerkiksi paino, pituus, tyytyväisyyden summamuuttuja) ja Algorithms – kohdasta

Levene.

KUVA 19: LEVENEN VARIANSSIEN YHTÄSUURUUSTESTI JA BOX PLOT KUVA

Esimerkkiaineistossa nähdään, että varianssien yhtäsuuruusoletus on voimassa, eli varianssit ovat

samat sukupuolten (Gender) kesken (p=1.000 > 0.05). Tämä tarkoittaa, että jos testattava muuttuja

noudattaa normaalijakaumaa molemmissa ryhmissä, parametrista testiä voidaan käyttää. (kahden

ryhmän tapauksessa t-test (independent samples) ja useamman ryhmän tapauksessa ANOVA).

4.2. Kaksi jatkuvaluonteista muuttujaa

Kun haluat vertailla kahta jatkuvaluonteista muuttujaa voit käyttää riippuvien otosten t-testiä (t-test

(paired)), jos molemmat muuttujat noudattavat normaalijakaumaa. Jos toisen tai molempien

jakauma on ei-normaalinen tai muuttujat ovat järjestysasteikollisia, tulee käyttää ei-parametrista

Wilcoxonin testiä. t-test(paired) ja Wilcoxon löytyvät Variables-osion alta.

Jos p-arvo on pienempi tai

yhtä suuri kuin 0.05, tarkoittaa

se, että varianssit eivät ole

yhtä suuria, eli varianssien

yhtäsuuruusoletus ei ole

voimassa.

19

Valitse toinen muuttuja Y-variables listalta ja toinen X-variables listalta. Algorithms – kohdasta

valitse oletusten voimassaolon perusteella joko t-test (paired) tai Wilcoxon.

KUVA 20: T-TEST (PAIRED) JA MEANS KUVA

Esimerkkidatassa on tilastollisia eroja Tyytyväisyydessä CRM systeemiin (Satisfaction with CRM-

system) ja Tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff) välillä (p =

0.000). Means-kuvasta voimme nähdä, että vastaajat olivat tyytyväisempiä palveluntarjoajan

henkilökuntaan kuin CRM systeemiin.

4.3. Kaksi luokiteltua muuttujaa

Jos haluat vertailla kahta muuttujaa keskenään, joista vähintään toinen on nominaaliasteikollinen ja

toinen joko nominaaliasteikollinen tai järjestysasteikollinen, voit käyttää ristiintaulukointia

(Crosstabs) erojen etsimiseen ja Khii toiseen testiä (Chi2) muuttujien riippumattomuuden

testaamiseen. Crosstabs ja Chi2 löytyvät Compare groups - osiosta.

Kun käytät Chi2 testiä pidä huoli, että vastaajia on tarpeeksi. Chi

2 testin oletukset ovat: enintään

20% odotetuista frekvensseistä saa olla pienempiä kuin 5 ja pienin odotettu frekvenssi ei saa olla

pienempi kuin 1. Jos nämä oletukset eivät toteudu, ei Chi2 testin tuloksiin voi luottaa. Tällöin käytä

Pretreatment osion Recode Variable – toimintoa yhdistääksesi luokkien määrää pienempään.

Jos p-arvo on pienempi tai

yhtä suuri kuin 0.05,

merkitsee se että muuttujien

välillä on eroja. Means

kuvasta voi tarkistaa erojen

suunnan.

20

Valitse sarakemuuttuja Y-variables listalta ja rivimuuttuja X-variables listalta.

KUVA 21: CROSSTABS TULOSTUS JA TAULUKKO KUVANA

Kuvassa edellä näet valinnat kun haluat tehdä ristiintaulukoinnin. Esimerkkiaineistossa Ikä (Age) –

muuttujan luokat ovat sarakkeella (Younger than 35 years, 35-44 years, 45-54 years ja 55 years or

older), selitteiden alla näkyvät sarakkeiden havaintojen lukumäärät (N=...) ja rivimuuttujan

Familiarity with the CRM system luokat (Not so good, Moderate ja Good) sarakeprosentteineen.

Kuvassa voidaan vertailla visuaalisesti prosentteja ryhmittäin ja taulukossa numeroina. Punainen

väri taulukossa kertoo, että kyseisen ryhmän prosenttijakauma (tai keskiarvo numeerisilla

muuttujilla) eroaa tilastollisesti loppuaineistosta. Esimerkkiaineistossa nähdään että alle 35

vuotiaat kokevat CRM systeemin tutummaksi (Good) kuin vanhemmat. Vastaavasti vanhempien

prosentuaalinen osuus on tilastollisesti suurempi niiden joukossa, jotka eivät koe CRM-systeemiä

tutuksi (Not so good). Vastaava informaatio on luettavissa kuvasta oikealla.

Chi2 testi seuraavassa kuvassa näyttää että CRM systeemin tuttuus (Familiarity with the CRM

system) ja ikä(Age) riippuvat toisistaan (p=0.018), eli käytännössä se, miten tuttuna kokee CRM-

systeemin eroaa ikäryhmittäin. Nähdään että oletukset ovat voimassa: minimi odotettu frekvenssi

on 13.55 ja ei yhtään (0 %) odotettua frekvenssiä ole pienempiä kuin viisi. Näin ollen voimme

luottaa tulokseen.

21

4.4. Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi

ryhmämuuttuja

4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja

Jos haluat tutkia yhden jatkuvan muuttujan eroja kahdessa ryhmässä käytä riippumattomien

otosten t-testiä (independent samples) tai Mann-Whitneyn testiä riippuen siitä ovatko oletukset

voimassa. t-testin oletukset ovat varianssien yhtäsuuruus (kts kappale 4.1) ja jakaumien

normaalisuus kussakin ryhmässä. (kts kappale 3.6). Voit käyttää t-testiä vaikka jakauma olisi vain

likimain normaalinen. Jos jakauma ei ole lainkaan normaalinen tai varianssit eivät ole yhtä suuret

tai testattava muuttuja on järjestysasteikollinen, tulisi käyttää Mann-Whitneyn testiä. Molemmat

testit löytyvät Compare groups - osiosta.

Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli) ja jatkuva, normaalisesti

jakautunut (tai vähintään likimain normaalinen) muuttuja X-variables listalta, ja t-test (independent

samples) Algorithms - kohdasta.

Chi2 testillä voit testata luokkamuuttujien riippumattomuutta

tilastollisesti. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05,

tarkoittaa se, että muuttujat riippuvat toisistaan. Min Expected

kertoo pienimmän odotetun frekvenssin ja Fraction < 5 kertoo

kuinka monta prosenttia odotetuista frekvensseistä on

pienempiä kuin 5.

KUVA 22: CHI2

TESTI

22

KUVA 23: T-TEST ( INDEPENDENT SAMPLES)

t-testin tuloksista näemme, että sukupuolten välillä on nähtävissä tilastollisia eroja (p=0.040 < 0.05)

tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff), kuvan mukaan

näemme, että naiset ovat tyytyväisempiä kuin miehet. Seuraavassa kuvassa sama testitilanne

käyttäen Mann-Whitneyn testiä. Mann-Whitney antaa saman tuloksen (p=0.015)

Riippumattomien otosten t-testillä

(independent samples) voit

testata eroja kahden ryhmän

välillä. Jos p-arvo on pienempi tai

yhtä suuri kuin 0.05 tarkoittaa se,

että ryhmien välillä on eroja.

Mann-Whitneyn testillä voit testata

eroja kahden ryhmän välillä vaikka

jakauma ei olisikaan normaalinen

tai testattava muuttuja olisi

järjestysasteikollinen. Jos p-arvo

on pienempi tai yhtäsuuri kuin 0.05,

on ryhmien välillä eroja.

KUVA 24: MANN-WHITNEYN TESTI JA BOX PLOT KUVA

23

4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja

Jos haluat tutkia yhden jatkuvan muuttujan eroja kolmen tai useamman ryhmän välillä, käytä

varianssianalyysiä (ANOVA). Muuttujan tulee noudattaa normaalijakaumaa (kts kappale 3.6) ja

varianssien tulee olla yhtäsuuret (kts kappale 4.1). Jos normaalisuusoletus ja/tai varianssien

yhtäsuuruusoletus ei ole voimassa tai testattava muuttuja on järjestysasteikollinen, tulee käyttää ei-

parametrista Kruskal-Wallisin testiä. Nämä testit löytyvät Compare groups osion alta.

Valitse yli kaksiluokkainen kategorinen muuttuja Y-variables listalta (esimerkiksi ikäluokat ( Age)) ja

jatkuva normaalisti jakautunut muuttuja X-variables listalta (esimerkiksi Satisfaction with CRM

system), ja ANOVA Algorithms osiosta.

Esimerkkiaineistossa ei ole tilastollisia eroja ikäryhmien välillä tyytyväisyydessä CRM-systeemiin

(Satisfaction with CRM ) (p=0.149 > 0.05).

ANOVA testillä voit testata eroja

kolmen tai useamman ryhmän välillä.

Jos p-arvo on pienempi tai yhtä suuri

kuin 0.05, eroaa ainakin yksi ryhmistä

tilastollisesti muista.

KUVA 25: ANOVA TESTI JA MEANS KUVA RYHMIEN KESKIARVOISTA

24

4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä

Jos haluat tutkia mitkä jatkuvat tai järjestysasteikolliset muuttujat riippuvat toisistaan, käytä

korrelaatioita eli Correlations. Tarjolla on kaksi korrelaatiota: Pearsonin tulomomenttikorrelaatio-

kerroin jatkuville normaalisesti jakautuneille muuttujille ja Spearmanin järjestyskorrelaatiokerroin

järjestysasteikollisille tai ei-normaalisesti jakautuneille muuttujille.

Valitse muuttujat, joiden korrelaatioita haluat tarkistella Y-variables - ja X-variables listoilta.

Esimerkkidatassa Tyytyväisyys CRM-systeemiin (Satisfaction with CRM system) ja Tyytyväisyys

palveluntuottajan (Satisfaction with Staff) henkilökuntaan välinen korrelaatio on voimakas ja

positiivinen. Se merkitsee, että jos vastaaja on tyytyväinen henkilökuntaan hän on myös

todennäköisesti tyytyväinen tarjottuun CRM-järjestelmään. Sama on nähtävissä myös oikealla XY-

plotissa. Kun pistejoukko on vasemmalta oikealle nouseva on kyseessä positiivinen korrelaatio ja

kun pistejoukko on vasemmalta oikealle laskeva on kyseessä negatiivinen korrelaatio.

Korrelaatiokertoimet vaihtelevat

-1 ja 1 välillä. Tulkintaohjeena:

älä raportoi korrelaatiota, jos se

on itseisarvoltaan alle 0.3.

Kuvassa oikealla on XY-plot,

jonka avulla kahden muuttujan

välistä riippuvuutta voidaan

tarkastella.

KUVA 26: CORRELATION JA XY-PLOT KUVA

25

4.6. Reliabiliteetin laskeminen eli Cronbachin alpha

Jos haluat tehdä useammasta muuttujasta yhden summamuuttujan (käyttäen joko summaa tai

aritmeettista keskiarvoa), sinun tulisi tarkistaa summattavien reliabiliteetti. Se tarkoittaa, että

mittaavatko muuttujat samaa asiaa. Tämän voit tehdä käyttäen Cronbachin alphaa. Se löytyy

Multivariate osiosta.

Esimerkkidatassa Cronbachin Alpha on 0.9619, mikä tarkoittaa erittäin hyvää reliabiliteettia.

Cronbachin alpha vaihtelee 0 ja

1 välillä – mitä korkeampi arvo,

sitä parempi reliabiliteetti.

Tulkintaohjeena Cronbachin

alphan pitäisi olla suurempi tai

yhtä suuri kuin 0.7, jotta

reliabiliteetti katsotaan hyväksi.

Alpha if item deleted – kohdassa

näet mikä muuttuja mahdollisesti

huonontaa mittarin reliabiliteettia.

Jos yksittäisen muuttujan

perässä oleva alpha on suurempi

kuin koko mittarin alpha, kertoo

se, että kyseinen muuttuja

huonontaa reliabiliteettia ja mikä

alphan arvo olisi ilman kyseistä

muuttujaa summamuuttujassa.

KUVA 27: CRONBACHIN ALPHA NÄKYMÄ

26

4.7. Faktorianalyysi

Faktorianalyysi on tilastollinen tekniikka, jota käytetään tiivistämään tutkittavien muuttujien määrää

luomalla summamuuttujia ja löytämään muuttujien taustalla ilmeneviä ilmiöitä. Professional

Statisticsin faktorianalyysi on luonteeltaan eksploratiivinen ja se löytyy Multivariate osiosta.

Käytettävien muuttujien tulee olla numeerisia ja skaalallisia (mielellään myös normaalisesti

jakautuneita, mutta jos tätä ei saavuteta, se ei ole kriittistä analyysin kannalta).

Valitse muuttujat X-variables listalta, määrittele haluamasi määrä faktoreita (voit muuttaa määrän

myöhemmin toiseksi, jos huomaat että faktoreita olisikin eri määrä), valitse metodi Analysis

Method-kohdasta (oletuksena pääakselifaktorointi eli Principal Axis) ja rotatointimetodi Rotation

method-kohdasta (oletuksena Varimax) ja sen jälkeen toteuta painamalla Compute-nappia.

Huomaa että faktorianalyysi on Professional Statisticsissa ainoa menetelmä, joka käyttää verkkoa,

joten siinä tarvitset internetyhteyttä.

Faktorien määrä Analyysimetodi Rotatointimetodi

Show partial correlations

‘Show partial correlations’ tuottaa osittaiskorrelaatiomatriisin, jos haluat tarkastella faktorirakennetta

ja löytää mahdolliset muuttujat, joita rakenne ei kykene selittämään. Helpompi tapa tähän on

tarkastella kommunaliteetteja (communalities) latausmatriisissa. ‘Show simplified Factor loading

matrix’ piilottaa pienimmät lataukset latausmatriisista helpottamaan latausmatriisien tulkintaa (ne

ovat edelleen mukana analyysissä, mutta eivät näy). Voit tallentaa saadut faktorit painamalla Save

factors – painiketta. Factor scoring – kohdasta voit valita tallennusmetodin (oletuksena on

regressiomenetelmä).

KUVA 28: FAKTORIANALYYSIN MÄÄRITTELYT

27

KUVA 29: FAKTORIANALYYSIN TULOKSET JA SCREE PLOT - KUVA

Rotatoitujen faktorilatausten matriisi (Rotated factor loadings) näkyy keskellä . Näet muuttujat

vasemmalla, Rotatoidut lataukset Factor-sarakkeissa ja kommunaliteetit (Communalities).

Kommunaliteetit kertovat kuinka hyvin luotu faktorirakenne selittää yksittäisen muuttujan vaihtelua.

Mitä suurempi kommunaliteetti sitä paremmin kyseisen muuttujan vaihtelua on kyetty selittämään.

Ensimmäinen faktori, Factor 1, selittää 34.1 % kokonaisvaihtelusta, ja nähdään että kaikki SP-

muuttujat (Service provider) ovat vahvasti latautuneita sille. Myös jotkut CRM-muuttujat ovat

latautuneet sille suhteellisen vahvasti, mutta vastaavasti ne ovat latautuneet kuitenkin paremmin

toiselle faktorille, joten emme ota niitä mukaan ensimmäiseen faktoriin. Ensimmäisen faktorin nimi

voisi olla Tyytyväisyys palvelun tuottajan henkilökuntaan ’Satisfaction with service provider’s staff’.

Toisessa faktorissa Factor2:ssa CRM-muuttujat saavat suurimmat lataukset, ja kolmannessa eli

Factor 3:ssa Commitment-muuttujat latautuvat parhaiten. Joten toinen faktori voisi olla

Tyytyväisyys CRM-systeemiin eli ’Satisfaction with CRM-system’ ja kolmas faktori Sitoutuneisuus

eli ’Commitment’. Voit tallentaa faktorit painamalla Save Factors – painiketta, mikä antaa sinulle

kolme standardoitua faktoria. (Standardointi tarkoittaa normaalijakaumaa, jonka keskiarvo on nolla

ja varianssi 1). Standardoidut faktorit voivat olla vaikeita tulkita, joten toinen tulkinnallisesti

helpompi tapa on käyttää Variable Math – funktiota Pretreatment – osiossa, ja tuottaa kunkin

funktion kärkimuuttujista summamuuttujat. Esimerkiksi ’Satisfaction with service provider’s staff ’

olisi SP-muuttujien keskiarvo (SP-muuttujien summa/10 tai average-funktiolla vastaava). Kts

tarkemmat ohjeet kappale 3.3.

Kuva oikealla näyttää ominaisarvot (osoittamalla hiirellä taitekohtaa viivakuviossa näet kunkin

faktorin ominaisarvon). Tyypillisesti analyysiin otetaan mukaan ne faktorit, joiden ominaisarvo yli 1,

joten tämän avulla voit tarkistaa luotavien faktoreiden määrän.

28

4.8. Regressio

Nähdäksesi kuinka hyvin kaksi tai useampi jatkuvaa muuttujaa selittää yhden jatkuvan muuttujan

vaihtelua, käytä Regression (PLS) – analyysiä. Jos sinulla ei ole selkeää kuvaa siitä, mitkä

muuttujat selittävät kyseisen muuttujan vaihtelua, voit käyttää askeltavaa analyysiä (Stepwise

regression) apuvälineenä löytääksesi ne. Se ottaa selittäjän yksi kerrallaan mukaan malliin.

Huomaa kuitenkin, että aina lopullinen malli on tehtävä ilman askellus-menetelmää eli ns.

pakotettuna mallina, ja että askeltavan menetelmän antama malli voi erota pakotetusta mallista.

Regressiomenetelmät löytyvät Multivariate-osiosta.

Valitse selitettävä muuttuja Y-variable listalta ja selittävät muuttujat X-variables – listalta.

KUVA 30: REGRESSION (PLS) TULOKSET JA SAMMON MAP - KUVA

Taulukossa näet lasketun mallin, b on regressionkerroin, beta standardoitu regressionkerroin, r

korrelaatiokerroin, t on testisuure (mittaa kykeneekö kyseinen muuttuja selittämään selitettävää

muuttujaa (Y-variable listan muuttuja) ja p merkitsevyys. Kuvassa oikealla näet Sammon map -

kuvan. Kun valitset vain merkitsevät p-arvot (p≤0.05), saat vain ne näkyviin kuvaan. Muuttujien

välinen viiva kertoo näiden välisen korrelaation.

Esimerkkiaineistossa selitettävä muuttuja on suositteluhalukkuus eli ’Commitment: Willingness to

recommend’, ja selittäjinä ovat SP-muuttujat ja CRM-muuttujat. Taulukosta nähdään, että parhaat

selittäjät ovat ’CRM: Overall visually appealing’, ’CRM: Modern’, ’CRM: Practical reporting

functions’, ’SP: High overall quality’, ’CRM: Produces visually appealing materials’, ’CRM: Versatile

reporting functions’ ja ’SP: Listens to customers’. Muut muuttujat eivät kyenneet selittämään

suositteluhakukkuutta (p-arvot > 0.05).

29

4.9. Klusterointi

Voit klusteroida aineistoasi manuaalisesti tai käyttäen hierarkkista klusterianalyysiä Professional

Statisticsissa.

4.9.1. Manuaalinen klusterointi

Jos haluat käyttää manuaalista klusterointia tuota aluksi XY-plot ja sitten rajaa kuvasta alue hiiren

vasemmalla, klikkaa hiiren oikealla ja valitse aukeavasta valikosta ‘To cluster’. Input valikkoikkuna

aukeaa, anna klusterille nimi ja paina OK.

KUVA 31: MIELENKIINTOISEN ALUEEN VALITSEMINEN JA NIMEÄMINEN

KUVA 32: JÄÄNNÖSTEN NIMEÄMINEN

30

Vastaavasti jatka rajaamalla muut klusterit. Viimeisen klusterin nimeäminen käy klikkaamalla hiiren

oikealla vielä valitsemattomien havaintojen kohdalla ja valitsemalla Rename a cluster. Rename a

cluster - ikkuna avautuu, kirjoita Old name – kohtaan: 1 ja sitten nimeä loput New name - kohtaan .

Esimerkin kuvista tulee kaksi klusteria: Not satisfied ja Others.

Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –

systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.

4.9.2. Hierarkkinen klusterianalyysi

Jos haluat klusteroida aineistosi käyttäen hierarkkista klusterianalyysiä, valitse Multivariate ja

Algorithms osiosta Clustering. Valitse muuttujat X-variables listalta. Huomaa että muuttujien tulee

olla jatkuvia tai dikotomisia (mikä tarkoittaa muuttujaa joka saa arvoja 0 ja 1).

KUVA 33: KLUSTERIANALYYSIN TULOKSET

Esimerkkiaineistossa näet Anova testin, joka testaa onko luotujen klustereiden välillä tilastollisia

eroja mukana olevien muuttujien suhteen. Clu 1 mean-, Clu 2 mean- ja Clu 3 mean- sarakkeissa

näet muuttujien keskiarvot kussakin klusterissa. Näiden avulla klustereiden nimeäminen on

helpompaa.

Huomaa, että jos loit vain kaksi klusteria, täytyy klusterien välisiä eroja testata riippumattomien

otosten t-testillä tai Mann-Whitneyn testillä. Anova ei ole silloin oikea testi vaikka se taulukkoon

ilmestyykin.

Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –

systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.

professional statistics - webropol · 2 1. miten pÄÄset alkuun 1.1. systeemivaatimukset...

Documents