professional statistics - webropol · 2 1. miten pÄÄset alkuun 1.1. systeemivaatimukset...
TRANSCRIPT
Webropol Oy
Professional Statistics Pikaopas
2013-11-29
1
SISÄLTÖ
1. Miten pääset alkuun .................................................................................................................... 2
1.1. Systeemivaatimukset.......................................................................................................... 2
1.2. Professional Statistics avaaminen ...................................................................................... 2
2. Perustoiminnot ............................................................................................................................ 4
3. Mitä pitäisi ottaa huomioon ennen analyysejä ............................................................................ 9
3.1. Pitkien muuttujanimien lyhentäminen ................................................................................. 9
3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit ....................................................... 10
3.3. Uusien muuttujien laskeminen ......................................................................................... 11
3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En osaa sanoa’ vastausten
poistaminen ................................................................................................................................... 13
3.5. Aineiston filterointi / ehtojen tekeminen ............................................................................ 13
3.6. Jakauman normaalisuuden tutkiminen ............................................................................. 14
4. Mikä analyysi pitäisi valita? ....................................................................................................... 16
4.1. Varianssien yhtäsuuruusoletuksen testaaminen .............................................................. 17
4.2. Kaksi jatkuvaluonteista muuttujaa .................................................................................... 18
4.3. Kaksi luokiteltua muuttujaa ............................................................................................... 19
4.4. Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi ryhmämuuttuja ............................ 21
4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja ..................................................................... 21
4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja ................................................ 23
4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä ..................................... 24
4.6. Reliabiliteetin laskeminen eli Cronbachin alpha ............................................................... 25
4.7. Faktorianalyysi .................................................................................................................. 26
4.8. Regressio ......................................................................................................................... 28
4.9. Klusterointi ........................................................................................................................ 29
4.9.1. Manuaalinen klusterointi ........................................................................................... 29
4.9.2. Hierarkkinen klusterianalyysi .................................................................................... 30
2
1. MITEN PÄÄSET ALKUUN
1.1. Systeemivaatimukset
Professional Statistics (PS) on Java-pohjainen kuten monet muutkin Internet sovellukset. Tämä
tarkoittaa sitä, että PS käyttää tietokoneen omaa laskentatehoa suorittaakseen analyysit. Jotkut
analyysit ovat hieman raskaampia ja tulosten laskenta saattaa viedä enemmän aikaa. Joka
tapauksessa suorituskyky on riippuvainen tietokoneen omasta suorituskyvystä. Myös Internet-
yhteyden nopeus vaikuttaa. Professional Statisticsin lataaminen kestää jonkin aikaa, joten olethan
kärsivällinen.
Professional Statisticsiä voidaan käyttää eri Javaa tukevissa ympäristöissä. Ainoa vaatimus on että
Java Run Time Environment tai vastaava on asennettuna. Voit ladata viimeisimmän Javan
ilmaiseksi osoitteesta: http://www.java.com/en/download/index.jsp
1.2. Professional Statistics avaaminen
Voit avata Professional Statisticsin suoraan kyselykansioista osoittamalla haluamaasi kyselyä
listassa, kyselyn nimen oikealle puolelle ilmestyy ratas, ja sitä klikkaamalla saat valikon auki.
Valikosta valitsemalla Professional Statistics aukeaa kuvan 3 näkymä, josta voit ladata
Professional Statisticsin auki.
KUVA 1: PROFESSIONAL STATISTICSIN AVAAMINEN KYSELYKANSIOSTA
3
Toinen tapa on avata PS raportoinnin puolella klikkaamalla ikkunan oikeassa ylänurkassa olevaa
Professional Statistics tekstipainiketta.
KUVA 2: PROFESSIONAL STATISTICSIN AVAAMINEN RAPORTOINTINÄKYMÄSSÄ
Kumpikin tapaa avaavat alla olevan näkymän, josta valitsemalla Analyze (Statistics) ohjelma lähtee
latautumaan.
KUVA 3: PROFESSIONAL STATISTICS - JA DATA MINER LATAUSIKKUNA
PS napin tai Professional Statistics tekstinapin
painaminen ohjaa sinut tälle sivulle. Avataksesi
Professional Statisticsin klikkaa Analyze -
kohtaa. Jos haluat ottaa aineistostasi otoksen
tai muuten lisäkäsitellä aineistoasi klikkaa
Customize. Lisäinformaatiota datan käsittelyyn
Data Minerissa löytyy Data Minerin Helpistä.
4
2. PERUSTOIMINNOT
Professional Statistics avaa automaattisesti sen aineiston (kysely), jonka raportilta Professional
Statistics käynnistetään. Jos haluat ladata toisen aineiston valitse Load data Professional
Statisticsin File-menusta. Aineiston on oltava Excel-muotoa. Huomaa, että .xlsx tiedoston pitää olla
tiettyä muotoa, jotta se toimisi oikein Professional Statisticsissa.
KUVA 4: EXCEL-DATAN MUOTO
Seuraavassa kuvassa on Professional Statisticsin (PS) näkymä ohjelman avauduttua. PS on jaettu
neljään osaan. Ylemmässä osassa (1) valitaan analyysit ja perustoiminnot, vasemmanpuoleisessa
osassa (2) näkyy muuttujalista (kysymykset), keskimmäisessä osassa (3) näkyvät tulostaulukot ja
oikeassa osassa (4) grafiikka.
Ylhäällä vasemmassa nurkassa näet Report valikon, missä voit kopioida ja tallentaa kuvia, sekä
File valikon missä voit joko ladata tai tallentaa aineiston. Näiden valikoiden alapuolella kohdassa
Analysis types voit valita tarvittavan analyysityypin. Analysis types – kohdan oikealla puolella
Algorithms – kohdassa näkyvät analyysit ja funktiot valitusta analyysityypistä riippuen (kuvassa
Overview – kohdan perusanalyysit). Ylhäällä oikeassa kulmassa voit antaa palautetta,
napauttamalla Give Feedback painiketta avautuu Feedback nettilomake, jonka voit lähettää netin
kautta ohjelmatoimittajalle. Napauttamalla Show help avautuu valitun toiminnon Help-ikkuna.
Samasta kohtaa saat Help-ikkunan suljettua. Oranssi kysymysmerkki avaa yleisnäkymä help-
ikkunan PS:n päälle erilliseen ikkunaan.
5
KUVA 5: PROFESSIONAL STATISTICSIN PERUSNÄKYMÄ
KUVA 6: VASEMMANPUOLEINEN- JA KESKIOSA: MUUTTUJALISTA JA TULOSTAULUKKO
Tässä näkymässä näet PS:n muuttujalistan ja
tulostaulukon. Valitse muuttuja ruksaamalla
haluamasi muuttujan edessä olevaa
valintaruutua. Valitse useampia muuttujia
kerralla painamalla Ctrl alas ja valitsemalla
hiirellä muuttujat. Kun muuttujat ovat valittuna,
paina välilyöntinäppäintä. Tällöin valitut
muuttujat tulevat ruksatuiksi ja PS tuottaa
analyysin. Voit käyttää myös Shift ja Up/Down
nuolia valitaksesi muuttujat.
6
KUVA 7: KESKIMMÄINEN OSA: TULOSTAULU
Voit viedä tulostaulukon Exceliin (Create xls-sheet), tai kopioida leikepöydälle (Data to clipboard)
valitsemalla halutun formaatin Report-valikon alta. Ristiintaulukoinnissa (Crosstabs) voit viedä
taulukon Exceliin klikkaamalla Export to Excel – nappia taulukon yläpuolella.
KUVA 8: TULOSTAULUKON VIENTI MUIHIN FORMAATTEIHIN
Tässä näkyy PS:n tulostaulu. Järjestääksesi
tulokset suuruusjärjestykseen klikkaa sarakkeen
otsikkoa (kuvassa average) hiiren oikealla.
Valitaksesi kaikki muuttujat kuvaan klikkaa hiiren
vasemmalla sarakkeen otsikon päällä.
Valitaksesi tietyt muuttujat kuvaan paina Ctrl
alas ja klikkaa hiiren vasemmalla vain haluttujen
muuttujien kohdalla sarakkeessa. Voit myös
maalata halutut rivit mukaan.
7
KUVA 9: OIKEANPUOLEINEN OSA: GRAFIIKKA
Voit viedä kuvan PowerPointiin (Create ppt-slide (objekti) / Create PPT Chart (muokattava muoto)),
Exceliin (Create xls-chart (muokattava muoto)), Wordiin (Create doc image (objekti)) tai
leikepöydälle (Image to clipboard (objekti)) klikkaamalla hiiren oikealla kuvan päällä ja valitsemalla
halutun formaatin. (kts kuva 11). Valittuasi Excel-, Word- tai Powerpoint -muodon muuttujalistan
alle vasempaan laitaan ilmestyy halutun formaatin mukainen ikoni ja tallenna painike. Jokaisesta
siirrettävästä kuvasta tulee oma ikoninsa. Kuvassa 10 on kolme PowerPoint diaa ja kaksi Excel
taulukkoa odottamassa tallennusta. Näin voit tallentaa kerralla useamman kuvan yhteen
tiedostoon. Poistaaksesi turhat ikonit, valitse ne ja paina delete.
Kun olet tehnyt kaikista halutuista kuvista ikonin, klikkaa tallenna – nappia (disketin kuva
kuvaikonien oikealla puolella). Huomaa, että jokainen PowerPoint-kuva tulee omalle dialleen ja
jokainen Excel-taulukko/kuva omalle välilehdelleen.
Hiiren oikean näppäimen alta näkyvä Chart Colors – alla voit vaihtaa kuvan värejä. Enlarge avaa
kuvan omaan ikkunaansa, jossa voit vaihtaa akseleiden paikkaa, muokata kuvan otsikkoa, väritystä
ja fontteja, sekä tallentaa /kopioida muokatun kuvan.
Tässä näet PS:n grafiikka-
alueen. Valitse kuvatyyppi
Chart type - kohdasta.
Nähdäksesi kuvasta vain osan
asteikkoa maalaa hiirellä
asteikon kohdalla haluttu väli
vasemmalta oikealle. Koko
asteikon takaisin saat
pyyhkäisemällä hiiren vasen
näppäin alhaalla asteikon yli
oikealta vasemmalle.
Tutkiaksesi kuvaa ryhmittäin
valitse Split by-kohdasta
ryhmämuuttuja.
8
KUVA 10: S IIRRETTÄVÄT KUVAIKONIT JA TALLENNA - PAINIKE
KUVA 11: KUVIEN VIENTI
9
3. MITÄ PITÄISI OTTAA HUOMIOON ENNEN ANALYYSEJÄ
Professional Statistics sisältää monia tapoja muokata dataa ennen analyysejä. Alla olevassa
taulukossa näet Pretreatment – osion eri toiminnot.
Pre
treatm
en
t
Variable Name Editor
Jos kysymyksen seliteteksti on liian pitkä tai haluat muuttaa nimen kuvaavammaksi, voit muokata tekstejä Variable Name Editorin alla.
Variable Types
Voit määritellä muuttujien muuttujatyypit. Muuttujatyyppi kertoo mitä analyysejä voit käyttää. Muuttujatyyppien määrittely on vapaaehtoinen toiminto eikä se vaikuta suurimpaan osaan analyyseistä.
Variable Math
Voit luoda uusia muuttujia olemassa olevien muuttujien avulla.
Recode Variable
Muuttujien luokkien yhdistäminen ja uudelleen luokittelu. Tyypillisesti käytetään asteikon kääntämiseen ja ryhmien määrän pienentämiseen.
Group and Filter
Group – funktiolla voit luoda vastaajaryhmiä, jotka perustuvat yhden tai kahden muuttujan arvoihin. Filter-funktiolla luot ehtoja dataan, poimit esim. mukaan analyyseihin vain yli 40-vuotiaat naiset.
Seuraavassa esimerkkejä edellä mainituista toiminnoista.
3.1. Pitkien muuttujanimien lyhentäminen
KUVA 12: VARIABLE NAME EDITOR - NÄKYMÄ
HUOM! Nimimuutokset eivät muuta mitään itse kyselyaineistoon, muutokset ovat voimassa vain
Professional Statisticsissa. Voit kuitenkin tallentaa muokatut nimet myöhempää käyttöä varten
Save - painikkeella ja kun avaat seuraavan kerran saman aineiston Professional Statisticsiin voit
hakea muokatut nimet Load - painikkeella.
Tehdäksesi analysoinnin ja
tulosten tulkinnan helpommaksi
voit muokata muuttujanimiä
Variable Name Editor – kohdassa.
Voit muokata suoraan nimeä
halutuksi New – kohdassa.
Useampia nimiä kerralla
muokatessa kirjoita muokattava
nimi/nimen osa Replace-kohtaan
ja uusi korvaava nimi With-
kohtaan. Klikkaa sitten Replace –
painiketta.
10
3.2. Erilaisten Webropol kysymystyyppien muuttujatyypit
Alhaalla taulukossa näet Professional Statisticsin muuttujatyypit. Voit määritellä ne Pretreatment –
osiossa Variable Typesin alla.
Vari
ab
le T
yp
es
Nominal Luokiteltu muuttuja, jonka luokkia ei voida laittaa kiistattomaan järjestykseen. Esimerkiksi ‘Sukupuoli: Mies, Nainen’
Ordinal Luokiteltu muuttuja, jonka luokat voidaan laittaa järjestykseen. Esimerkiksi ‘Luokiteltu ikä: Vähemmän kuin 30 v, 31-65 vuotta, yli 65 vuotta’
Interval Numeerinen muuttuja, jolla ei ole ns. absoluuttista nollapistettä, jossa ominaisuus loppuu Esimerkiksi ‘Lämpötila mitattuna Celsiusasteilla’ tai ‘Bruttokansantuote’, Näissä molemmissa voi olla sekä negatiivisia että positiivia arvoja, eikä ole mitään arvoa missä ominaisuus loppuisi.
Ratio Numeerinen muuttuja, jolla on ns. absoluuttinen nollapiste, jossa ominaisuus loppuu Esimerkiksi paino, pituus tai palkka. Ne eivät voi saada negatiivisia arvoja.
Multi choice
Muuttuja, jossa voi olla valittuina useampi vastausvaihtoehto. Esimerkiksi ‘Valitse kolme tärkeintä ominaisuutta listasta, mitä haluat uuden tuotteen pitävän sisällään.’
KUVA 13: VARIABLE TYPE NÄKYMÄ
11
3.3. Uusien muuttujien laskeminen
KUVA 14: VARIABLE MATH – NÄKYMÄ
Perinteinen aritmeettinen keskiarvo (esimerkki kuvassa Satisfaction with Staff) laskee keskiarvon
niille vastaajille, jotka ovat vastanneet jokaiseen summattavaan muuttujaan. Eli jos joku vastaaja
esimerkin tapauksessa olisi jättänyt vastaamatta x4:sta vastaavaan kysymykseen, ei keskiarvoa
voida laskea hänelle. Eli aineistossa, jossa on paljon puuttuvia vastauksia, ei kokonaiskeskiarvon
laskeminen välttämättä ole kovin kuvaava suure ja voi vähentää kokonaiskeskiarvon n-arvoa
ratkaisevasti. Tällaisissa tilanteissa voit myös käyttää tilastollisia funktioita kokonaiskeskiarvon
laskemiseen. average-funktio laskee keskiarvon niillä arvoilla mitä aineistosta löytyy, ja näin ollen
ei vähennä n-lukua suhteettomasti vaikka aineistossa olisi tyhjiäkin vastauksia. Esim. jos vastaaja
on jättänyt vastaamatta x4:sta ja x8:a vastaaviin kysymyksiin, niin keskiarvo lasketaan niistä
kysymyksistä, joissa vastaus on, eli lopuista kahdeksasta esimerkin tapauksessa.
Käytettävät funktiot: average, min, max, sum ja stdev. Funktion sisällä laskettavat muuttujat
erotetaan pilkulla toistaan.
Voit laskea uusia muuttujia Variable
Math - funktiolla. Paina Add equation
nappia, uusi muuttuja ilmestyy
muuttujalistan loppuun nimellä
‘equation…’. Nimeä uusi muuttuja
haluamaksesi ja kirjoita ‘equation’
sarakkeeseen lauseke. Käytä x-alkuisia
muuttujanimiä lausekkeessa laskiessasi
jo olemassa olevilla muuttujilla. Remove
selected rows poistaa ylimääräisiä
muuttujia, joita et tarvitse.
12
Seuraavassa kuvassa esimerkki funktion käytöstä laskettaessa esimerkin ’Satisfaction with Staff’
käyttäen average-funktiota. Huom! käytä vain pieniä kirjaimia funktiossa sekä käytettävissä x-
muuttujissa lausekkeessa.
KUVA 15: KOKONAISKESKIARVON LASKEMINEN KÄYTTÄEN AVERAGE-FUNKTIOTA
13
3.4. Uudelleenluokittelu, vastausvaihtoehtojen muokkaaminen ja ’En
osaa sanoa’ vastausten poistaminen
KUVA 16: RECODE VARIABLE - NÄKYMÄ
Voit muokata vastausvaihtoehtojen selitteitä ja poistaa ‘En osaa sanoa’ – vastauksia myös
raportoinnin sisällä ennen kuin avaat Professional Statisticsin. Tarkemmat ohjeet tästä löydät
Webropol 2.0 Raportointioppaasta.
3.5. Aineiston filterointi / ehtojen tekeminen
Tarkastellaksesi vain osaa aineistoa voit käyttää Group and Filter – toimintoa Pretreatment -
osiossa. Group tuottaa uuden muuttujan, jossa yhtenä ryhmänä on valitut ja toisena muut. Filter –
muuttaa ei-valitut havainnot passiiviseksi eli vain valitut tulevat mukaan analyyseihin.
Valitse muuttuja(t) Y-variables listalta ja X-variables listalta. Huomaa, että jos haluat tehdä ehdon
vain yhden muuttujan arvoilla, niin sinun pitää valita sama muuttuja molemmista, niin Y-variables
kuin X-variables listalta.
Esimerkiksi haluamme valita vain naiset mukaan. Valitse ‘Gender’ Y-variables listalta ja myös X-
variables listalta.
Voit muokata vastausvaihtoehtoja Recode
variable - funktiolla. Valitse muokattavat
muuttujat Variables-listalta. Jos haluat
yhdistää vastausvaihtoehtoja yhdeksi
luokaksi, anna niille sama arvo New Value
kohtaan ja selite ylimmälle arvolle New
Name kohtaan . Muokataksesi vastaus-
vaihtoehtojen selitteitä klikkaa selitteen
kohdalla (New Name) ja nimeä se
uudestaan. Poistaaksesi vaihtoehdon
poista arvo New Value kohdasta ja New
Name kohdasta. Tallenna muutokset
antamalla uuden muuttujan nimi Name of
new variable - kohtaan ja paina Enter.
14
Ruksaa ‘Female’ kuten seuraavassa kuvassa ja paina Filter Rows nappia. Ohjelma ilmoittaa ’You
have now filtered the data…’. Ikkunan ylälaidassa näet että filterointi on päällä. (Data filtered, using
… rows).
KUVA 17: GROUP AND F ILTER NÄKYMÄ
Kun haluat tarkastella koko aineistoa jälleen, klikkaa ’Data filtered, using … rows’, Disable filtering
– komento tulee näkyviin. Kun valitset sen, filtteri on pois päältä ja koko aineisto jälleen
käytettävissä.
3.6. Jakauman normaalisuuden tutkiminen
Joidenkin analyysien oletuksena on jakauman normaalisuus, minkä on oltava voimassa, jotta
tuloksiin voitaisiin luottaa. Voit tarkastella jakauman vinoutta ja huipukkuutta Normality
Assessmentin alla. Koko jakauman normaalisuutta voit tarkistella myös jakaumakuvien avulla, esim
Overview:n alta klikkaamalla tunnuslukua ja valitsemalla kuvatyypiksi Histogram tai Normal
propability plot. Lisäksi voit testata jakauman normaalisuutta Shapiro-Wilkin tai Lillieforsin testillä
niin ryhmittäin kuin koko aineistollekin. Lisäinformaatiota normaalisuuden tutkimisesta saat myös
15
klikkaamalla oikeasta yläkulmasta Show help – nappia. Se avaa kunkin toiminnon kohdan oman
Help-ikkunan.
Overv
iew
Basic Perustunnusluvut muuttujille.
Normality Assessment
Vinous- ja huipukkuusluvut jatkuvaluonteisen muuttujan normaalisuuden tarkasteluun. Riippuen siitä ovatko jakaumat normaalisia vai eivät käytetään parametrisia (normaaliset jakaumat) tai ei-parametrisia (ei-normaaliset jakaumat) testejä.
Percentiles Fraktiilit (Percentiles) kertovat jakaumasta enemmän kuin keskiarvot yksin. Ne ovat järjestetyn aineiston se piste, jota vähemmän on ‘k’ prosenttia havainnoista. Esimerkiksi 25% fraktiili eli alakvartiili antaa luvun, jota pienempia havinnoista on 25 %. Yleisimmin käytetyt fraktiilit tieteellisissä raporteissa ovat alakvartiili, mediaani ja yläkvartiili, eli 25%, 50% ja 75% fraktiilit.
Shapiro-Wilk Shapiro-Wilkin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Tämä testi on parhaimmillaan pienempien aineistojen testauksessa.
Lilliefors Lillieforsin testiä käytetään vähintään välimatka-asteikollisen muuttujan jakauman normaalisuuden testaamiseen. Lillieforsin testiä suositellaan nimenomaan isompien aineistojen testauksessa.
Jakauman normaalisuuden tarkasteluun ja testaamiseen on monta tapaa: Shapiro-Wilk - tai
Lilliefors – testi, Normal probability plot, Histogrammi tai vinous- ja huipukkuuslukujen tarkastelu
niiden keskivirheiden kanssa. Shapiro-Wilk – and Lilliefors testeissä saat tulokset myös ryhmittäin,
ruksaa ‘Test each Y group’ ja valitse ryhmittelevä muuttuja Y-variables listalta.
KUVA 18: SHAPIRO-W ILKIN TESTI JA NORMAL PROPABILITY PLOT
Jos testin p-arvo on suurempi kuin
0.05, voidaan jakaumaa pitää
normaalisesti jakautuneena.
Normal probability plotissa
normaalisesti jakautuneen
aineiston pisteiden pitäisi kulkea
jakaumaviivan päällä lineaarisesti.
16
Esimerkkiaineistossa Shapiro Wilkin testi hylkää jakauman normaalisuuden, p-arvo ≤ 0.05.
Jakaumakuva oikealla vahvistaa tuloksen.
4. MIKÄ ANALYYSI PITÄISI VALITA?
Saadaksesi luotettavia tuloksia on tärkeää valita oikea analyysi erilaisille muuttujille. Alhaalla
taulukossa on käyty lyhyesti läpi eri testien tarkoitus ja käytettävät muuttujatyypit.
Vari
ab
les
t-test (paired) Riippuvien otosten t-testiä (t-test (paired)) käytetään testaamaan kahden jatkuvaluonteisen muuttujan keskiarvoeroja. Testattavan muuttujan pitää olla vähintään välimatka-asteikollinen ja noudattaa normaalijakaumaa. Testattavat muuttujat pitää olla mitattu samalla skaalalla, sillä testi perustuu muuttujien keskiarvojen vertaamiseen. Jos normaalisuus ei ole voimassa toisella tai molemmilla muuttujilla, pitää käyttää ei-parametrista Wilcoxonin testiä.
Wilcoxon Wilcoxon signed rank testiä käytetään testaamaan kahden vähintään järjestysasteikollisen muuttujan välisiä eroja (eroaako muuttuja 1 muuttujasta 2). Jos kahden jatkuvaluonteisen muuttujan jakaumat eivät noudata normaalijakaumaa voidaan Wilcoxonin testiä käyttää parametrisen t-testin sijaan. Testattavilla muuttujilla pitää olla sama mittaskaala. Esim. kaksi Likert-asteikollista muuttujaa - molemmat mitattu 1-5 asteikolla.
Co
mp
are
gro
up
s
Crosstabs Ristiintaulukointia (Crosstabs) käytetään eri ryhmien välisten jakaumien vertaamiseen. Tulostaulukossa näkyvät prosentit sekä numeerisilla muuttujilla keskiarvot ryhmittäin. Tulokset voidaan esittää graafisesti nopeasti valitsemalla hiirellä tulosarvot. Sarakeprosentti- ja sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot).
Crosstabs for Means
Ristiintaulukointi pelkillä keskiarvoilla on usein skaalallisilla muuttujilla se halutuin tapa esittää asiat taulukkomuodossa. Sarakekeskiarvotestit tulostuvat automaattisesti ja ovat luettavissa värikoodein (punainen kertoo tilastolliset erot).
Chi² Khii-toiseen riippumattomuustestiä (Chi²) käytetään testaamaan testattavien luokkamuuttujien (nominaali – ja/tai järjestysasteikolliset muuttujat) riippumattomuutta, eli käytännössä, onko muuttujaryhmien välillä eroja vai ei. Esimerkiksi jos halutaan tutkia sukupuolten välisiä eroja suosikki-vuodenajan tai työn vastuualueen suhteen.
Levene Levenen testiä käytetään varianssien yhtäsuuruuden testaamiseen ryhmien välillä. Varianssien yhtäsuuruus on yksi parametristen testien oletuksista. Jos varianssien yhtäsuuruusoletus ei ole voimassa, pitää käyttää ei-parametrisia testejä (Mann-Whitney riippumattomien otosten t-testin sijaan, Kruskal-Wallis ANOVAn sijaan).
t-test (independent samples)
Riippumattomien otosten t-testiä (t-test (independent samples)) käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kahden ryhmän välillä. X variables – listalta valitun muuttujan tulee olla normaalisesti jakautunut molemmissa luokitellun muuttujan ryhmissä (Y-variables), ja sen varianssien tulee olla yhtä suuret molemmissa ryhmissä. Jos oletukset eivät ole voimassa tulee käyttää ei-parametrista Mann-Whitneyn testiä.
Mann-Whitney
Mann-Whitney (tunnettu myös Wilcoxon signed-rank testinä tai Mann-Whitney-Wilcoxon testinä) on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kahden ryhmän välillä.
ANOVA ANOVAa (Analysis of Variance) eli varianssianalyysiä käytetään jatkuvan muuttujan keskiarvoerojen testaamiseen kolmen tai useamman ryhmän
17
välillä. X-variables listan muuttujan tulee olla normaalisesti jakautunut kussakin Y-variables listan luokitellun muuttujan ryhmässä. Myös varianssien tulee olla yhtä suuret kussakin ryhmässä. Jos oletukset eivät ole voimassa, tulee käyttää ei-parametrista Kruskal-Wallisin testiä.
Kruskal-Wallis Kruskal-Wallis on ei-parametrinen testi, joka testaa järjestysasteikollisen tai jatkuvan muuttujan, jonka oletukset eivät ole voimassa, jakauman eroja kolmen tai useamman ryhmän välillä.
Co
rrela
tio
ns
R (Pearson)
Pearsonin tulomomenttikorrelaatiokerrointa (r) käytetään testaamaan jatkuvaluonteisten, mielellään normaalisesti jakautuneiden muuttujien välistä lineaarista riippuvuutta. Testattavien muuttujien pitää olla vähintään välimatka-asteikollisia. Jos data eroaa merkittävästi normaalijakaumasta tai muuttujat ovat järjestysasteikollisia, tulee käyttää Spearmanin järjestyskorrelaatiokerrointa (Rho).
Rho (Spearman)
Spearmanin järjestyskorrelaatiokerrointa (tai Spearmanin rhota) käytetään testaamaan vähintään järjestysasteikollisten tai vinosti jakautuneiden jatkuvaluonteisten muuttujien välistä lineaarista riippuvuutta.
Mu
ltiv
ari
ate
Cronbach’s Alpha
Cronbachin alphaa käytetään mittaamaan muuttujien reliabiliteettia (internal consistency), esim. kuinka hyvin summattavat muuttujat mittaavat samaa asiaa tai kuinka hyvin ne mittaavat yhdessä ryhmänä jotain asiaa.
PCA Pääkomponenttianalyysiä (Principal Component Analysis (PCA)) käytetään luomaan lineaarikombinaatioita muuttujista perustuen muuttujien variansseihin ja niiden välisiin riippuvuuksiin. Käytettävien muuttujien tulee olla jatkuvia. Aineiston koko tulisi olla vähintään 300 havaintoa. PCA olettaa muuttujaparien välisen riippuvuuden olevan lineaarista. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä.
Factor analysis
Exploratorinen faktorianalyysi on keino löytää muuttujien takaa ilmiö, joka selittää muuttujien vaihtelua (keino nähdä metsä puilta). Tekniikka perustuu muuttujien välisiin lineaarisiin riippuvuuksiin. Muuttujien tulee olla skaalallisia ja mielellään normaalisesti jakautuneita. Aineiston koon tulisi olla vähintään 100 havaintoa ja havaintoja (täydellinen aineisto) tulisi olla enemmän kuin mukaan tulevia muuttujia.
SOM Self-Organizing Map (SOM) – kuvia käytetään muuttujien visuaaliseen tarkasteluun tarkoituksena löytää muuttujien jakaumista klustereita. Käytettävien muuttujien tulee olla numeerisia.
Regression (PLS)
Partial Least Squares (PLS) Regressiota käytetään selittämään yhden jatkuvan muuttujan vaihtelua kahdella tai useammalla jatkuvalla muuttujalla. Varsinkin pienillä aineistoilla jakaumien tulisi olla vähintään likimain normaalisia. Mahdolliset outlierit eli poikkeavat havainnot voidaan poistaa analyysistä.
Stepwise Regression
Askeltavalla regressiolla (Stepwise Regression) voidaan arvioida mitkä tekijät selittävät parhaiten selitettävän muuttujan vaihtelua. Testattavien muuttujien tulisi olla jatkuvaluonteisia ja vähintään likimain normaalisia. Riippuvuuksien oletetaan olevan lineaarisia.
Clustering Hierarkkista klusterianalyysiä käytetään luomaan homogeenisia ryhmiä valittujen muuttujien (ominaisuuksien) suhteen. Käytettävien muuttujien tulee olla jatkuvaluonteisia. Otoskoon tulisi olla vähintään 2k, kun k on analyysissä olevien muuttujien määrä.
4.1. Varianssien yhtäsuuruusoletuksen testaaminen
Parametristen testien (riippumattomien otosten t-testi ja ANOVA) oletuksena on, jakauman
normaalisuusoletuksen lisäksi, myös varianssien yhtäsuuruus testattavassa kussakin ryhmässä.
18
Varianssien yhtäsuuruuden testaamiseen käytetään Levenen testiä. Se löytyy Compare Groups
osion alta.
Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli ) ja jatkuva muuttuja X-variables
listalta (esimerkiksi paino, pituus, tyytyväisyyden summamuuttuja) ja Algorithms – kohdasta
Levene.
KUVA 19: LEVENEN VARIANSSIEN YHTÄSUURUUSTESTI JA BOX PLOT KUVA
Esimerkkiaineistossa nähdään, että varianssien yhtäsuuruusoletus on voimassa, eli varianssit ovat
samat sukupuolten (Gender) kesken (p=1.000 > 0.05). Tämä tarkoittaa, että jos testattava muuttuja
noudattaa normaalijakaumaa molemmissa ryhmissä, parametrista testiä voidaan käyttää. (kahden
ryhmän tapauksessa t-test (independent samples) ja useamman ryhmän tapauksessa ANOVA).
4.2. Kaksi jatkuvaluonteista muuttujaa
Kun haluat vertailla kahta jatkuvaluonteista muuttujaa voit käyttää riippuvien otosten t-testiä (t-test
(paired)), jos molemmat muuttujat noudattavat normaalijakaumaa. Jos toisen tai molempien
jakauma on ei-normaalinen tai muuttujat ovat järjestysasteikollisia, tulee käyttää ei-parametrista
Wilcoxonin testiä. t-test(paired) ja Wilcoxon löytyvät Variables-osion alta.
Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05, tarkoittaa
se, että varianssit eivät ole
yhtä suuria, eli varianssien
yhtäsuuruusoletus ei ole
voimassa.
19
Valitse toinen muuttuja Y-variables listalta ja toinen X-variables listalta. Algorithms – kohdasta
valitse oletusten voimassaolon perusteella joko t-test (paired) tai Wilcoxon.
KUVA 20: T-TEST (PAIRED) JA MEANS KUVA
Esimerkkidatassa on tilastollisia eroja Tyytyväisyydessä CRM systeemiin (Satisfaction with CRM-
system) ja Tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff) välillä (p =
0.000). Means-kuvasta voimme nähdä, että vastaajat olivat tyytyväisempiä palveluntarjoajan
henkilökuntaan kuin CRM systeemiin.
4.3. Kaksi luokiteltua muuttujaa
Jos haluat vertailla kahta muuttujaa keskenään, joista vähintään toinen on nominaaliasteikollinen ja
toinen joko nominaaliasteikollinen tai järjestysasteikollinen, voit käyttää ristiintaulukointia
(Crosstabs) erojen etsimiseen ja Khii toiseen testiä (Chi2) muuttujien riippumattomuuden
testaamiseen. Crosstabs ja Chi2 löytyvät Compare groups - osiosta.
Kun käytät Chi2 testiä pidä huoli, että vastaajia on tarpeeksi. Chi
2 testin oletukset ovat: enintään
20% odotetuista frekvensseistä saa olla pienempiä kuin 5 ja pienin odotettu frekvenssi ei saa olla
pienempi kuin 1. Jos nämä oletukset eivät toteudu, ei Chi2 testin tuloksiin voi luottaa. Tällöin käytä
Pretreatment osion Recode Variable – toimintoa yhdistääksesi luokkien määrää pienempään.
Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05,
merkitsee se että muuttujien
välillä on eroja. Means
kuvasta voi tarkistaa erojen
suunnan.
20
Valitse sarakemuuttuja Y-variables listalta ja rivimuuttuja X-variables listalta.
KUVA 21: CROSSTABS TULOSTUS JA TAULUKKO KUVANA
Kuvassa edellä näet valinnat kun haluat tehdä ristiintaulukoinnin. Esimerkkiaineistossa Ikä (Age) –
muuttujan luokat ovat sarakkeella (Younger than 35 years, 35-44 years, 45-54 years ja 55 years or
older), selitteiden alla näkyvät sarakkeiden havaintojen lukumäärät (N=...) ja rivimuuttujan
Familiarity with the CRM system luokat (Not so good, Moderate ja Good) sarakeprosentteineen.
Kuvassa voidaan vertailla visuaalisesti prosentteja ryhmittäin ja taulukossa numeroina. Punainen
väri taulukossa kertoo, että kyseisen ryhmän prosenttijakauma (tai keskiarvo numeerisilla
muuttujilla) eroaa tilastollisesti loppuaineistosta. Esimerkkiaineistossa nähdään että alle 35
vuotiaat kokevat CRM systeemin tutummaksi (Good) kuin vanhemmat. Vastaavasti vanhempien
prosentuaalinen osuus on tilastollisesti suurempi niiden joukossa, jotka eivät koe CRM-systeemiä
tutuksi (Not so good). Vastaava informaatio on luettavissa kuvasta oikealla.
Chi2 testi seuraavassa kuvassa näyttää että CRM systeemin tuttuus (Familiarity with the CRM
system) ja ikä(Age) riippuvat toisistaan (p=0.018), eli käytännössä se, miten tuttuna kokee CRM-
systeemin eroaa ikäryhmittäin. Nähdään että oletukset ovat voimassa: minimi odotettu frekvenssi
on 13.55 ja ei yhtään (0 %) odotettua frekvenssiä ole pienempiä kuin viisi. Näin ollen voimme
luottaa tulokseen.
21
4.4. Yksi jatkuva tai järjestysasteikollinen muuttuja ja yksi
ryhmämuuttuja
4.4.1. Kaksi ryhmää ja yksi jatkuva muuttuja
Jos haluat tutkia yhden jatkuvan muuttujan eroja kahdessa ryhmässä käytä riippumattomien
otosten t-testiä (independent samples) tai Mann-Whitneyn testiä riippuen siitä ovatko oletukset
voimassa. t-testin oletukset ovat varianssien yhtäsuuruus (kts kappale 4.1) ja jakaumien
normaalisuus kussakin ryhmässä. (kts kappale 3.6). Voit käyttää t-testiä vaikka jakauma olisi vain
likimain normaalinen. Jos jakauma ei ole lainkaan normaalinen tai varianssit eivät ole yhtä suuret
tai testattava muuttuja on järjestysasteikollinen, tulisi käyttää Mann-Whitneyn testiä. Molemmat
testit löytyvät Compare groups - osiosta.
Valitse luokkamuuttuja Y-variables listalta (esimerkiksi sukupuoli) ja jatkuva, normaalisesti
jakautunut (tai vähintään likimain normaalinen) muuttuja X-variables listalta, ja t-test (independent
samples) Algorithms - kohdasta.
Chi2 testillä voit testata luokkamuuttujien riippumattomuutta
tilastollisesti. Jos p-arvo on pienempi tai yhtä suuri kuin 0.05,
tarkoittaa se, että muuttujat riippuvat toisistaan. Min Expected
kertoo pienimmän odotetun frekvenssin ja Fraction < 5 kertoo
kuinka monta prosenttia odotetuista frekvensseistä on
pienempiä kuin 5.
KUVA 22: CHI2
TESTI
22
KUVA 23: T-TEST ( INDEPENDENT SAMPLES)
t-testin tuloksista näemme, että sukupuolten välillä on nähtävissä tilastollisia eroja (p=0.040 < 0.05)
tyytyväisyydessä palveluntarjoajan henkilökuntaan (Satisfaction with Staff), kuvan mukaan
näemme, että naiset ovat tyytyväisempiä kuin miehet. Seuraavassa kuvassa sama testitilanne
käyttäen Mann-Whitneyn testiä. Mann-Whitney antaa saman tuloksen (p=0.015)
Riippumattomien otosten t-testillä
(independent samples) voit
testata eroja kahden ryhmän
välillä. Jos p-arvo on pienempi tai
yhtä suuri kuin 0.05 tarkoittaa se,
että ryhmien välillä on eroja.
Mann-Whitneyn testillä voit testata
eroja kahden ryhmän välillä vaikka
jakauma ei olisikaan normaalinen
tai testattava muuttuja olisi
järjestysasteikollinen. Jos p-arvo
on pienempi tai yhtäsuuri kuin 0.05,
on ryhmien välillä eroja.
KUVA 24: MANN-WHITNEYN TESTI JA BOX PLOT KUVA
23
4.4.2. Kolme tai useampi ryhmää ja yksi jatkuva muuttuja
Jos haluat tutkia yhden jatkuvan muuttujan eroja kolmen tai useamman ryhmän välillä, käytä
varianssianalyysiä (ANOVA). Muuttujan tulee noudattaa normaalijakaumaa (kts kappale 3.6) ja
varianssien tulee olla yhtäsuuret (kts kappale 4.1). Jos normaalisuusoletus ja/tai varianssien
yhtäsuuruusoletus ei ole voimassa tai testattava muuttuja on järjestysasteikollinen, tulee käyttää ei-
parametrista Kruskal-Wallisin testiä. Nämä testit löytyvät Compare groups osion alta.
Valitse yli kaksiluokkainen kategorinen muuttuja Y-variables listalta (esimerkiksi ikäluokat ( Age)) ja
jatkuva normaalisti jakautunut muuttuja X-variables listalta (esimerkiksi Satisfaction with CRM
system), ja ANOVA Algorithms osiosta.
Esimerkkiaineistossa ei ole tilastollisia eroja ikäryhmien välillä tyytyväisyydessä CRM-systeemiin
(Satisfaction with CRM ) (p=0.149 > 0.05).
ANOVA testillä voit testata eroja
kolmen tai useamman ryhmän välillä.
Jos p-arvo on pienempi tai yhtä suuri
kuin 0.05, eroaa ainakin yksi ryhmistä
tilastollisesti muista.
KUVA 25: ANOVA TESTI JA MEANS KUVA RYHMIEN KESKIARVOISTA
24
4.5. Korrelaatio jatkuvien tai järjestysasteikollisten muuttujien välillä
Jos haluat tutkia mitkä jatkuvat tai järjestysasteikolliset muuttujat riippuvat toisistaan, käytä
korrelaatioita eli Correlations. Tarjolla on kaksi korrelaatiota: Pearsonin tulomomenttikorrelaatio-
kerroin jatkuville normaalisesti jakautuneille muuttujille ja Spearmanin järjestyskorrelaatiokerroin
järjestysasteikollisille tai ei-normaalisesti jakautuneille muuttujille.
Valitse muuttujat, joiden korrelaatioita haluat tarkistella Y-variables - ja X-variables listoilta.
Esimerkkidatassa Tyytyväisyys CRM-systeemiin (Satisfaction with CRM system) ja Tyytyväisyys
palveluntuottajan (Satisfaction with Staff) henkilökuntaan välinen korrelaatio on voimakas ja
positiivinen. Se merkitsee, että jos vastaaja on tyytyväinen henkilökuntaan hän on myös
todennäköisesti tyytyväinen tarjottuun CRM-järjestelmään. Sama on nähtävissä myös oikealla XY-
plotissa. Kun pistejoukko on vasemmalta oikealle nouseva on kyseessä positiivinen korrelaatio ja
kun pistejoukko on vasemmalta oikealle laskeva on kyseessä negatiivinen korrelaatio.
Korrelaatiokertoimet vaihtelevat
-1 ja 1 välillä. Tulkintaohjeena:
älä raportoi korrelaatiota, jos se
on itseisarvoltaan alle 0.3.
Kuvassa oikealla on XY-plot,
jonka avulla kahden muuttujan
välistä riippuvuutta voidaan
tarkastella.
KUVA 26: CORRELATION JA XY-PLOT KUVA
25
4.6. Reliabiliteetin laskeminen eli Cronbachin alpha
Jos haluat tehdä useammasta muuttujasta yhden summamuuttujan (käyttäen joko summaa tai
aritmeettista keskiarvoa), sinun tulisi tarkistaa summattavien reliabiliteetti. Se tarkoittaa, että
mittaavatko muuttujat samaa asiaa. Tämän voit tehdä käyttäen Cronbachin alphaa. Se löytyy
Multivariate osiosta.
Esimerkkidatassa Cronbachin Alpha on 0.9619, mikä tarkoittaa erittäin hyvää reliabiliteettia.
Cronbachin alpha vaihtelee 0 ja
1 välillä – mitä korkeampi arvo,
sitä parempi reliabiliteetti.
Tulkintaohjeena Cronbachin
alphan pitäisi olla suurempi tai
yhtä suuri kuin 0.7, jotta
reliabiliteetti katsotaan hyväksi.
Alpha if item deleted – kohdassa
näet mikä muuttuja mahdollisesti
huonontaa mittarin reliabiliteettia.
Jos yksittäisen muuttujan
perässä oleva alpha on suurempi
kuin koko mittarin alpha, kertoo
se, että kyseinen muuttuja
huonontaa reliabiliteettia ja mikä
alphan arvo olisi ilman kyseistä
muuttujaa summamuuttujassa.
KUVA 27: CRONBACHIN ALPHA NÄKYMÄ
26
4.7. Faktorianalyysi
Faktorianalyysi on tilastollinen tekniikka, jota käytetään tiivistämään tutkittavien muuttujien määrää
luomalla summamuuttujia ja löytämään muuttujien taustalla ilmeneviä ilmiöitä. Professional
Statisticsin faktorianalyysi on luonteeltaan eksploratiivinen ja se löytyy Multivariate osiosta.
Käytettävien muuttujien tulee olla numeerisia ja skaalallisia (mielellään myös normaalisesti
jakautuneita, mutta jos tätä ei saavuteta, se ei ole kriittistä analyysin kannalta).
Valitse muuttujat X-variables listalta, määrittele haluamasi määrä faktoreita (voit muuttaa määrän
myöhemmin toiseksi, jos huomaat että faktoreita olisikin eri määrä), valitse metodi Analysis
Method-kohdasta (oletuksena pääakselifaktorointi eli Principal Axis) ja rotatointimetodi Rotation
method-kohdasta (oletuksena Varimax) ja sen jälkeen toteuta painamalla Compute-nappia.
Huomaa että faktorianalyysi on Professional Statisticsissa ainoa menetelmä, joka käyttää verkkoa,
joten siinä tarvitset internetyhteyttä.
Faktorien määrä Analyysimetodi Rotatointimetodi
Show partial correlations
‘Show partial correlations’ tuottaa osittaiskorrelaatiomatriisin, jos haluat tarkastella faktorirakennetta
ja löytää mahdolliset muuttujat, joita rakenne ei kykene selittämään. Helpompi tapa tähän on
tarkastella kommunaliteetteja (communalities) latausmatriisissa. ‘Show simplified Factor loading
matrix’ piilottaa pienimmät lataukset latausmatriisista helpottamaan latausmatriisien tulkintaa (ne
ovat edelleen mukana analyysissä, mutta eivät näy). Voit tallentaa saadut faktorit painamalla Save
factors – painiketta. Factor scoring – kohdasta voit valita tallennusmetodin (oletuksena on
regressiomenetelmä).
KUVA 28: FAKTORIANALYYSIN MÄÄRITTELYT
27
KUVA 29: FAKTORIANALYYSIN TULOKSET JA SCREE PLOT - KUVA
Rotatoitujen faktorilatausten matriisi (Rotated factor loadings) näkyy keskellä . Näet muuttujat
vasemmalla, Rotatoidut lataukset Factor-sarakkeissa ja kommunaliteetit (Communalities).
Kommunaliteetit kertovat kuinka hyvin luotu faktorirakenne selittää yksittäisen muuttujan vaihtelua.
Mitä suurempi kommunaliteetti sitä paremmin kyseisen muuttujan vaihtelua on kyetty selittämään.
Ensimmäinen faktori, Factor 1, selittää 34.1 % kokonaisvaihtelusta, ja nähdään että kaikki SP-
muuttujat (Service provider) ovat vahvasti latautuneita sille. Myös jotkut CRM-muuttujat ovat
latautuneet sille suhteellisen vahvasti, mutta vastaavasti ne ovat latautuneet kuitenkin paremmin
toiselle faktorille, joten emme ota niitä mukaan ensimmäiseen faktoriin. Ensimmäisen faktorin nimi
voisi olla Tyytyväisyys palvelun tuottajan henkilökuntaan ’Satisfaction with service provider’s staff’.
Toisessa faktorissa Factor2:ssa CRM-muuttujat saavat suurimmat lataukset, ja kolmannessa eli
Factor 3:ssa Commitment-muuttujat latautuvat parhaiten. Joten toinen faktori voisi olla
Tyytyväisyys CRM-systeemiin eli ’Satisfaction with CRM-system’ ja kolmas faktori Sitoutuneisuus
eli ’Commitment’. Voit tallentaa faktorit painamalla Save Factors – painiketta, mikä antaa sinulle
kolme standardoitua faktoria. (Standardointi tarkoittaa normaalijakaumaa, jonka keskiarvo on nolla
ja varianssi 1). Standardoidut faktorit voivat olla vaikeita tulkita, joten toinen tulkinnallisesti
helpompi tapa on käyttää Variable Math – funktiota Pretreatment – osiossa, ja tuottaa kunkin
funktion kärkimuuttujista summamuuttujat. Esimerkiksi ’Satisfaction with service provider’s staff ’
olisi SP-muuttujien keskiarvo (SP-muuttujien summa/10 tai average-funktiolla vastaava). Kts
tarkemmat ohjeet kappale 3.3.
Kuva oikealla näyttää ominaisarvot (osoittamalla hiirellä taitekohtaa viivakuviossa näet kunkin
faktorin ominaisarvon). Tyypillisesti analyysiin otetaan mukaan ne faktorit, joiden ominaisarvo yli 1,
joten tämän avulla voit tarkistaa luotavien faktoreiden määrän.
28
4.8. Regressio
Nähdäksesi kuinka hyvin kaksi tai useampi jatkuvaa muuttujaa selittää yhden jatkuvan muuttujan
vaihtelua, käytä Regression (PLS) – analyysiä. Jos sinulla ei ole selkeää kuvaa siitä, mitkä
muuttujat selittävät kyseisen muuttujan vaihtelua, voit käyttää askeltavaa analyysiä (Stepwise
regression) apuvälineenä löytääksesi ne. Se ottaa selittäjän yksi kerrallaan mukaan malliin.
Huomaa kuitenkin, että aina lopullinen malli on tehtävä ilman askellus-menetelmää eli ns.
pakotettuna mallina, ja että askeltavan menetelmän antama malli voi erota pakotetusta mallista.
Regressiomenetelmät löytyvät Multivariate-osiosta.
Valitse selitettävä muuttuja Y-variable listalta ja selittävät muuttujat X-variables – listalta.
KUVA 30: REGRESSION (PLS) TULOKSET JA SAMMON MAP - KUVA
Taulukossa näet lasketun mallin, b on regressionkerroin, beta standardoitu regressionkerroin, r
korrelaatiokerroin, t on testisuure (mittaa kykeneekö kyseinen muuttuja selittämään selitettävää
muuttujaa (Y-variable listan muuttuja) ja p merkitsevyys. Kuvassa oikealla näet Sammon map -
kuvan. Kun valitset vain merkitsevät p-arvot (p≤0.05), saat vain ne näkyviin kuvaan. Muuttujien
välinen viiva kertoo näiden välisen korrelaation.
Esimerkkiaineistossa selitettävä muuttuja on suositteluhalukkuus eli ’Commitment: Willingness to
recommend’, ja selittäjinä ovat SP-muuttujat ja CRM-muuttujat. Taulukosta nähdään, että parhaat
selittäjät ovat ’CRM: Overall visually appealing’, ’CRM: Modern’, ’CRM: Practical reporting
functions’, ’SP: High overall quality’, ’CRM: Produces visually appealing materials’, ’CRM: Versatile
reporting functions’ ja ’SP: Listens to customers’. Muut muuttujat eivät kyenneet selittämään
suositteluhakukkuutta (p-arvot > 0.05).
29
4.9. Klusterointi
Voit klusteroida aineistoasi manuaalisesti tai käyttäen hierarkkista klusterianalyysiä Professional
Statisticsissa.
4.9.1. Manuaalinen klusterointi
Jos haluat käyttää manuaalista klusterointia tuota aluksi XY-plot ja sitten rajaa kuvasta alue hiiren
vasemmalla, klikkaa hiiren oikealla ja valitse aukeavasta valikosta ‘To cluster’. Input valikkoikkuna
aukeaa, anna klusterille nimi ja paina OK.
KUVA 31: MIELENKIINTOISEN ALUEEN VALITSEMINEN JA NIMEÄMINEN
KUVA 32: JÄÄNNÖSTEN NIMEÄMINEN
30
Vastaavasti jatka rajaamalla muut klusterit. Viimeisen klusterin nimeäminen käy klikkaamalla hiiren
oikealla vielä valitsemattomien havaintojen kohdalla ja valitsemalla Rename a cluster. Rename a
cluster - ikkuna avautuu, kirjoita Old name – kohtaan: 1 ja sitten nimeä loput New name - kohtaan .
Esimerkin kuvista tulee kaksi klusteria: Not satisfied ja Others.
Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –
systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.
4.9.2. Hierarkkinen klusterianalyysi
Jos haluat klusteroida aineistosi käyttäen hierarkkista klusterianalyysiä, valitse Multivariate ja
Algorithms osiosta Clustering. Valitse muuttujat X-variables listalta. Huomaa että muuttujien tulee
olla jatkuvia tai dikotomisia (mikä tarkoittaa muuttujaa joka saa arvoja 0 ja 1).
KUVA 33: KLUSTERIANALYYSIN TULOKSET
Esimerkkiaineistossa näet Anova testin, joka testaa onko luotujen klustereiden välillä tilastollisia
eroja mukana olevien muuttujien suhteen. Clu 1 mean-, Clu 2 mean- ja Clu 3 mean- sarakkeissa
näet muuttujien keskiarvot kussakin klusterissa. Näiden avulla klustereiden nimeäminen on
helpompaa.
Huomaa, että jos loit vain kaksi klusteria, täytyy klusterien välisiä eroja testata riippumattomien
otosten t-testillä tai Mann-Whitneyn testillä. Anova ei ole silloin oikea testi vaikka se taulukkoon
ilmestyykin.
Huomaa, että jos haluat tallentaa klusterit myöhempää käyttöä varten, tallenna ’Clusters’ –
systeemimuuttuja uudella nimellä Pretreatment – osiossa Recode Variable funktiolle.