surveymetodiikka helsingin yliopisto, syksy 2009 seppo laaksonen2009+_+seppo.pdf · 2009. 10....

204
Surveymetodiikka Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Tmn materiaalin copyright on tekijn. Sit voi kytt asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen): viittauksella (sivut jos tarkempi viittaus on tarpeen): Laaksonen, Seppo (2009). Surveymetodiikka. Kurssimateriaali. Matematiikan ja til t ti t l it Hli i li it S t t kijlt tilastotieteen laitos, Helsingin yliopisto. Saatavana tekijlt. 14.10.2009 SurveyMetodiikka 2009 Seppo 1 14.10.2009 1 SurveyMetodiikka 2009 Seppo

Upload: others

Post on 08-Sep-2020

12 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SurveymetodiikkaSurveymetodiikkaHelsingin yliopisto, Syksy 2009Seppo Laaksonen

Tämän materiaalin copyright on tekijän. Sitä voi käyttää asianmukaisella viittauksella (sivut jos tarkempi viittaus on tarpeen):viittauksella (sivut jos tarkempi viittaus on tarpeen):

Laaksonen, Seppo (2009). Surveymetodiikka. Kurssimateriaali. Matematiikan ja til t ti t l it H l i i li i t S t t kijältätilastotieteen laitos, Helsingin yliopisto. Saatavana tekijältä.

14.10.2009 SurveyMetodiikka 2009 Seppo 114.10.2009 1SurveyMetodiikka 2009 Seppo

Page 2: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SurveymetodiikkaSurveymetodiikkaHelsingin yliopisto, Syksy 2009Seppo Laaksonen

Luennot joihin sisältyy keskustelua, pieniä ryhmätöitä ja kysymyksiä:

TI 08 09 2009 16:00 19:00 PÄÄRAKENNUS AUD XIVTI 08.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIVTI 15.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 17.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 6 PÄÄRAKENNUS AUD XVTI 22.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 24.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 29.09.2009 16:00-19:00 PÄÄRAKENNUS AUD XV

ÄÄTO 08.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIIITI 13.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XVTO 15.10.2009 16:00-19:00 PÄÄRAKENNUS AUD XIII5 9 9

Luennot pidetään suurin piirtein yhteen menoon, tarvittaessa pieni hengähdystauko. Istunto päättyy siten hieman yli puoli seitsemän.

14.10.2009 SurveyMetodiikka 2009 Seppo 2

hengähdystauko. Istunto päättyy siten hieman yli puoli seitsemän.

14.10.2009 2SurveyMetodiikka 2009 Seppo

Page 3: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Atk-luokka Kumpulan ekakerroksessa (C128) on varattu

ke 16.9. - 23.9. klo 14-16 sekäke 7.10. - 14.10. klo 14-16jama 14.9.- 28.9. klo 16-18 sekä

ma 12.10. klo 16-18.

Tällöin on mahdollisuus harjoitella muutamia kurssin aiheita ohjelmiston avulla. Ensimmäisellä kerralla tutustutaan ohjelmistoihin j jeli SAS:iin ja SPSS:ään (mahdollisesti hieman Exceliä). Sellaiset jotka jo hallitsevat perusteet, voivat jättää sen väliin.

Tarkoitus on, että osanottaja osallistuu ainakin neljään-viiteen harjoituskertaan tai toteuttaa vastaavia asioita omina aikoinaan mutta raportoi tulokset Sepolleraportoi tulokset Sepolle.

14.10.2009 SurveyMetodiikka 2009 Seppo 314.10.2009 3SurveyMetodiikka 2009 Seppo

Page 4: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

2009

lkav

a 11

.7.2

Su

Mahtaisiko surveyllä ja kirkkovenesoudulla olla jotain yhteistä?

14.10.2009 SurveyMetodiikka 2009 Seppo 414.10.2009 4SurveyMetodiikka 2009 Seppo

Page 5: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveymetodiikka - aihepiirity p

1 : Johdantoa, surveyn käsite, lomake, tapausesimerkkien esittely (niitä jatketaan myöhemmissä osioissa) ( j y )

2 : Surveyaineiston käsitteet, otanta, ryvästyminen ja

otanta, perusestimointia

5 : Data-analyysiä, keskiarvoja, taulukoita ja malleja,

3 : Puuttuneisuus ja sen seuraukset, otoskoko

4 : Datan editointi ja imputointi, painotusmenetelmiä lisää

Liite: Skaalat, muunnokset, suhteellisuus ja indikaattoritLiite: Skaalat, muunnokset, suhteellisuus ja indikaattoritEsimerkit lähinnä: EU-uhritutkimuksen pilotti (lomake, otanta), Historiatietoisuus Suomessa (lomake, otanta), European Social Survey (Otanta, datan luonne, analyysi), PISA 2006 (otanta, analyysi), Irakin ( , , yy ), ( , yy ),kuolleisuustutkimus (laatu, analyysi)Kuvat: mielikuvitusta virittämään

14.10.2009 SurveyMetodiikka 2009 Seppo 514.10.2009 5SurveyMetodiikka 2009 Seppo

Page 6: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Mikä on survey? 1

Surveytutkimuksella tai surveyllä tarkoitan kyselyä tai tiedustelua, jossa tiedon antaa tai siitä vastaa ihminen. Se ei tule siis suoraan esimerkiksi koneesta. Tiedon ei toki tarvitse koskea ihmistä itseään, vaan kysymykseenkoneesta. Tiedon ei toki tarvitse koskea ihmistä itseään, vaan kysymykseen tulevat esimerkiksi yritys, kunta, jokin muu maantieteellinen alue tai ihmisten muodostama kokonaisuus kuten kotitalous tai perhe sekä myös ihmisen jokin osa.j

Tämä on varmaankin hieman epämääräinen määritelmä, mutta selkenee kurssin aikana. Yleisesti ottaen oma määritelmäni on laaja, laajempi kuin monen muun. Siten esimerkiksi väestörekisteri on minusta surveytietoa, sillä se kerätään ihmisten itsensä (vaikkapa muuttoilmoitus) tai heidän edustajiensa (syntymän tai kuoleman tai avioliiton vahvistaja) kautta. Kun se on rekisterissä, se ei ehkä enää näytä surveytiedolta mutta on sitä.Tällainen rekisteritieto on periaatteessa täysin oikeata mutta takeita ei ole onko se päivitetty ajan tasalle. Asenteita tai muuta ei-faktatietoa sen sijaan

i ki t öidä ikä t j it i i t jälk äi itä k t tei rekisteröidä eikä vastaaja itse aina muistane jälkeenpäin mitä on kertonut kyselijälle esimerkiksi koskien sitä, kuinka kauan aikaa on käyttänyt television ajankohtaisohjelmien katseluun viime aikoina?

14.10.2009 SurveyMetodiikka 2009 Seppo 614.10.2009 6SurveyMetodiikka 2009 Seppo

Page 7: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Alphabetic List of Variables and Attributes

# Variable Type Len Format Informat Label

42 AALUE Char 4 Äänestysalue57 AEPV Char 8 Avioeropäivä A57 AEPV Char 8 Avioeropäivä14 AMMS Char 35 Ammattinimike53 BLKM Char 2 Biol. lasten lkm9 EDKANS Char 3 Edellinen kansalaisuus

50 EKATUOS Char 50 Edell. katuosoite

Alkuosa V

51 EKATUOSN Char 7 Edell. osoitenumero17 EN Char 50 Etunimet52 EPOSNO Char 5 Edell. postinumero16 ESN Char 20 Entinen sukunimi2 HT Ch 11 H kilöt

Väestöres

2 HT Char 11 Henkilötunnus28 HUKO Char 2 Huoneiston käytössäolo31 HUONEL Char 2 Huoneluku29 HUPA Char 3 Huoneiston pinta-ala27 HUPE Char 1 Huoneistotiet peruste

kisterin m

27 HUPE Char 1 Huoneistotiet. peruste40 HUTIVAR Char 5 Huoneiston varusteet30 HUTY Char 1 Huoneistotyyppi35 IKOORD Char 6 I-koordinaatti

6 KANS1 Char 3 Kansalaisuus

muuttujist6 KANS1 Char 3 Kansalaisuus

7 KANS2 Char 3 Kansalaisuus - 28 KANS3 Char 3 Kansalaisuus - 3

10 KANSS Char 10 Kansalais. selväkielisenä

ta

14.10.2009 SurveyMetodiikka 2009 Seppo 714.10.2009 7SurveyMetodiikka 2009 Seppo

Page 8: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Mikä on survey? 2

Survey-aineiston kuten monen muunkin tilastoaineiston keruussa hyödynnetään yleisesti otantaa. Tämä merkitsee sitä, että ainakin osa aineiston tilastoyksiköistä on poimittu otannalla. Otannan käytön luonnollisiaaineiston tilastoyksiköistä on poimittu otannalla. Otannan käytön luonnollisia syitä ovat kustannusten pienentäminen ja tietojen nopeampi käyttöönotto sekä myös, että tutkittava joukko eli perusjoukko on usein epätarkasti etukäteen hahmotettavissa, ja tiedot siitä kerättävissä. Kaikissa tilanteissa , jkuitenkin tavoitteena on tuottaa tuloksia jonkin perusjoukon tasolle. Tilastotieteen näkökulmasta tässä on kysymys estimoinnista. Estimointi pitää olennaisena osana sisällään myös tuloksen eli estimaatin epävarmuuden mittaamisen (keskivirhe, luottamusväli, �).

Kysely tai tiedustelu voidaan toteuttaa vaihtelevin välinein, kuten postitse, puhelimitse (sekä kiinteällä että kuljetettavalla), käyntihaastatteluin tai sähköisen viestimen kuten netin/webin avulla. Kaikissa tapauksissa vastaus pyrkii kuvaamaan halutun tilastoyksikön ominaisuuksia. Toki on kyselyjä, j i i l it i iä ti i tit itt it tt ii tä j ik h tälläjoissa ei ole erityisiä estimointitavoitteita mutta niistä en juurikaan puhu tällä kurssilla, ehkä joskus moitin.

14.10.2009 SurveyMetodiikka 2009 Seppo 814.10.2009 8SurveyMetodiikka 2009 Seppo

Page 9: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SurveymetodiikkaSurveymetodiikka

Keskeiset aineistot joita on ajateltu käytettävän (tilanne voi muuttuakin):

-Irakin kuolleisuustutkimus (Iraq Mortality Survey) jonka kahden tiedoston kuvaus on erillisessä liitteessä. Harjoituksissa katsellaan datoja heti ensi kerralla. -Eurooppalaisen uhritutkimuksen pilotti jota Suomessa toteuttavat Heuni Tilastokeskus ja HY (minä) jännittävällä otannalla Tämä onHeuni, Tilastokeskus ja HY (minä) jännittävällä otannalla. Tämä on monitahoinen myös siksi että kokeillaan sekä käyntihaastattelua että puhelinhaastattelua että nettiä. Ensi vaiheen harjoittelua varten toivon k ikki l h k ik l l k k hkaikkien lähtevän katsomaan nettikyselyn lomaketta kohteesta: http://digiumenterprise.com/answer/?sid=346211&chk=Z5SZHB6DTästä tulee kaksi tehtävää: (i) Mainitse ainakin 3 kysymystä joihin on hankala vastata ja perustelu, (ii) Mainitse kaksi kysymystä joissa on huono kysymyksenasettelu ja kerro miten olisi parempi(ii) Mainitse kaksi kysymystä joissa on huono kysymyksenasettelu ja kerro miten olisi parempi kysyä. LÄHETÄ vastaus s-postilla minulle mielellään ennen ensi viikon luentoa.-Historia-tietoisuus Suomessa �projektin alkuvaihe -http://blogs helsinki fi/historiatietoisuus/

14.10.2009 SurveyMetodiikka 2009 Seppo 9

-http://blogs.helsinki.fi/historiatietoisuus/

14.10.2009 9SurveyMetodiikka 2009 Seppo

Page 10: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SurveymetodiikkaSurveymetodiikka

Keskeiset aineistot (jatkoa):Kulutustutkimus jossa tiedot kerätään skannerilla ja lähetetään- Kulutustutkimus jossa tiedot kerätään skannerilla ja lähetetään

enemmän tai vähemmän automaattisesti aineiston käyttäjälle. Otoksessa mukana olevaa kutsutaan panelistiksi. Alkuosa tarinasta erillisenä liitteenä.

- European Social Survey (ESS) ks www europeansocialsurvey org:European Social Survey (ESS), ks. www.europeansocialsurvey.org:Lomakkeen tutkimiseen, otannan tarkasteluun, tiedoston luontiin ja analyysiin. Uudet tiedot tulevat nettiin syyskuun lopussa.

- PISA (Programme for International Student Assessment of the OECD), ks. http://www.pisa.oecd.org/Otantakin käydään läpi mutta painotus on analyysissä.

Lisäksi esille otetaan sopiva yritysaineisto mikäli kiinnostusta ilmenee.

14.10.2009 SurveyMetodiikka 2009 Seppo 1014.10.2009 10SurveyMetodiikka 2009 Seppo

Page 11: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SurveymetodiikkaSurveymetodiikka

Mahdollisia nettikyselytekniikkoja:

- Edellä esitelty Uhritutkimuksen ohjelma Digium

- Survey Monkey on vapaa väline lomakkeiden tekoon ja kyselyn toteuttamiseen. Katso netistä lisää.

-Yliopistossa on ns. E-lomake jota on helppo käyttää myös nettikyselyissä ja käytetään mm. kurssien arvioinneissa.htt // l h l i ki fi/d li k/128157-https://alma.helsinki.fi/doclink/128157

14.10.2009 SurveyMetodiikka 2009 Seppo 1114.10.2009 11SurveyMetodiikka 2009 Seppo

Page 12: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 1

Lomakkeella tarkoitetaan sen kaikkia muotoja, joita ovat:

- paperinen postitiedustelussa käytetty itse täytettävä lomake,- paperinen haastattelijan kokonaan tai osittain täyttämä lomake (herkät kysymykset on usein hyvä pyytää täyttämään itse haastattelutilanteessakin tai lähettämään erikseen survey-organisaatiolle),- elektroninen haastattelijan täyttämä lomake (tässä haastattelija voi olla lähellä tai kaukana esimerkiksi puhelimen päässä),

t j tä ttä ä l kt i l k k tt ll ti t k ll t- vastaajan täyttämä elektroninen lomake kannettavalle tietokoneelle tms., josta se toimitetaan netitse ja postitsekin (vähenemään päin oltuaan varsin yleinen) survey-organisaatiolle,

nettilomake jonka vastaaja täyttää (tämä voi olla täysin avoin tai pääsy on- nettilomake jonka vastaaja täyttää (tämä voi olla täysin avoin tai pääsy on vain otokseen valituille mikä on tietysti ainoa vaihtoehto laadukkaalle surveylle),- lomakkeen tiedot �imuroidaan� vastaajan tiedostoista automaattisesti (tietysti- lomakkeen tiedot imuroidaan vastaajan tiedostoista automaattisesti (tietysti tähän on annettu lupa).

14.10.2009 SurveyMetodiikka 2009 Seppo 1214.10.2009 12SurveyMetodiikka 2009 Seppo

Page 13: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 2 (engl. termejä)

PAPI = Paper and Pencil Interview = Perinteinen haastattelu jossahaastattelija täyttää lomakkeen kirjoittamalla (ei enää Suomessa yleinen);kehitysmaissa lähes ainoa vaihtoehto.CAPI = Computer Assisted Personal Interview = Tässä haastattelija täyttäälomakkeen suoraan tietokoneelle, tietokoneohjelmassa voi olla esieditointi

l ii j ll i t k t t ti tt t ti j t ki t tt jvalmiina jolloin vastaukset ovat tiettyyn tasoon asti jo tarkistettuja.Face to Face Interview (f2f)= Käyntihaastattelu joka voi olla toteutettuPAPI:lla tai CAPI:lla ja jatkettu vaikka netillä tai postilla.CASI Computer Assisted Self Interview Itse täytettävä lomake jotaCASI = Computer Assisted Self Interview = Itse täytettävä lomake jota tietokoneohjelma ohjaa; osin tarkistettu data; tämä voi olla toteutettu netissä tai omalla tietokoneella ja täyttämisen jälkeen lähetetty sähköpostina tai muuna elektronisena lähetteenä survey insituuttiinmuuna elektronisena lähetteenä survey-insituuttiin. CATI = Computer Assisted Telephone Interview = Puhelimitse toteutettu kysely jossa haastattelija esittää kysymykset ja merkitsee vastaukset saman tien tiedostoon josta tulee osin tarkistettu Tässä kyselyssä on usein valmiinatien tiedostoon josta tulee osin tarkistettu. Tässä kyselyssä on usein valmiina myös automatiikka vastaajan valitsemiseksi.

14.10.2009 SurveyMetodiikka 2009 Seppo 1314.10.2009 13SurveyMetodiikka 2009 Seppo

Page 14: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 3 (kv. termejä)

TSI = Telephone Self Interview = Vastaaja soittaa pyydettyyn numeroon jossaautomaatti esittää kysymyksen ja pyytää vastaamaan esimerkiksi numeroillajoiden ilmaisin ilmoitetaan sitä ennen Tällaiset kyselyt eivät voi olla kovinjoiden ilmaisin ilmoitetaan sitä ennen. Tällaiset kyselyt eivät voi olla kovinlaajoja. Tämä toteutetaan myös siten että annetaan eri numeroita erivaihtoehdoille, jolloin riittää vain soittaa tähän numeroon. Suorissa TV-ohjelmissa näitä käytetään paljon ja annetaan ymmärtää että tästä saataisiinj y p j j yjotenkin luotettava kuva. Luotettavuus jää tosiasiassa täysin ilmaan.Postal Survey = Postikysely jossa lomake täytetään itse tavallisesti paperilletai vaihtoehtoisesti annetaan nettiosoite josta löytyy sama lomake. Mukanaj y yyon myös kirjoittautumistunnus jotta tiedetään kuka vastaa ja vastaa vainkerran. Postikyselyssä on mukana kirjekuori johon vastaukset sijoitetaan.Web/Internet Survey = yleensä itse täytettävä lomake. Tässä voi olla otosannettuna etukäteen mutta sen kattavuus ei vielä tätä nykyä ole kovin hyväedes Suomessa. Useat websurveyt siis eivät täytä yksistään kovin korkeitalaatukriteerejä. Vielä epäselvempiä edustavuudeltaan ovat surveyt joihinwebsurfaajat vastaavat omasta tahdostaan yhden tai useamman kerran.CAI = Computer Assisted Interview joka siis kattaa useita edellisistä.

14.10.2009 SurveyMetodiikka 2009 Seppo 1414.10.2009 14SurveyMetodiikka 2009 Seppo

Page 15: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 4Peruskysymyksiä joihin on hyödyllistä vastata lomaketta laadittaessa:Peruskysymyksiä joihin on hyödyllistä vastata lomaketta laadittaessa:

1. Vastaako kysymys haluttuun tutkimusongelmaan?2 Tuottaako kysymys hyödyllistä informaatiota kokonaisuutena ottaen siis2. Tuottaako kysymys hyödyllistä informaatiota kokonaisuutena, ottaen siishuomioon muut kysymykset ja analyysitarpeet?3. Mahtavatko vastaajat ymmärtää kysymyksen siten kuin on tarkoitettu?4 Onko vastaajilla riittävästi tietoa vastatakseen kysymykseen?4. Onko vastaajilla riittävästi tietoa vastatakseen kysymykseen?5. Ovatko vastaajat halukkaita vastaamaan annettuun kysymykseen?6. Pitäisikö kysymys olla esitetty kaikille vain osalle kohdejoukkoa?7. Onko olemassa muuta tietoa, joka auttaisi analysoimaan kysymykseen, j y y y yannettuja vastauksia (siis myös kysymyksen luotettavuutta)?

Lähestymistapa tai �tyyli on myös erinomaisen tärkeä. Jos esimerkiksi käytät y p yy y ypostitiedustelua, on lähetekirjeeseen kiinnitettävä suuri huomio. Erityyppisille vastaajaryhmille voidaan käyttää myös erilaisia lähetekirjeitä. Jos kysely on suoraan kontaktiin perustuva, on myös huolella selvitettävä paras lähestymistapa. Käyntihaastattelussa on myös pukeutuminen tärkeätä. Vastausohjeistot itse vastattaviin kysymyksiin on tehtävä selkeiksi ja helposti löydettäviksi. Harva esimerkiksi rakastaa ohjeiden etsimistä liitteistä tai

14.10.2009 SurveyMetodiikka 2009 Seppo 15

netistä.14.10.2009 15SurveyMetodiikka 2009 Seppo

Page 16: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 5

Lomakkeen laajuus on eräs iso kysymys. Sen ei tule olla liian laaja eikä niinsuppea ettei olennaista informaatiota saada käyttöön. Siis ota huomioonmuun muassa seuraavia seikkoja:

1. Valitse mahdollisia kysymyksiä ja kysymyksen sisäisiä vaihtoehtojah l lli tihuolellisesti.2. Päätä myös huolellisesti mitkä kysymykset lopulta sisällytät kyselyyn.3. Vastaako kysymys siihen mihin se on tarkoitettu vastaamaan (validiteetti)?4 Sisällytä sopiva määrä kysymyksiä kuhunkin aihealueeseen ottaen4. Sisällytä sopiva määrä kysymyksiä kuhunkin aihealueeseen ottaenhuomioon myös reliabiliteettin (varmistusta siitä että vastaus on uskottava elikysymys on oikein ymmärretty ja vastaukset annettu vakavuudella).5 Kuinka kauan lomakkeen täyttämiseen menee olkoon se haastattelijan tai5. Kuinka kauan lomakkeen täyttämiseen menee, olkoon se haastattelijan tai vastaajan itsensä täyttämä? - Vastaajalle on syytä kertoa etukäteen täytöstä johtuva vastausrasite.

Mutta on myös otettava huomioon tiedon keruusta johtuva vastausrasiteMutta on myös otettava huomioon tiedon keruusta johtuva vastausrasite, mikä voi olla suurempi kuin lomakkeen täyttämisestä johtuva edellyttäen että annetaan mahdollisimman totuuden mukaista tietoa (koskee siis faktatietojakuten tuloja ja kuluja).

14.10.2009 SurveyMetodiikka 2009 Seppo 16

u e u oja ja u uja)

14.10.2009 16SurveyMetodiikka 2009 Seppo

Page 17: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 6

Kysymysten järjestys on olennainen. Ota huomioon muun muassa:

1. Että ensimmäinen kysymys on hyvin tärkeä. Usein on hyvä, jos se on joläheisesti itse tutkimuksen pääaiheeseen liittyvä, kiinnostava kysymys taikysymyspatteristo. Aloituskysymyksen ei tulisi olla hankalasti vastattava.L lli ti t li i ll ö ll i ttä k k k ikki ikä iLuonnollisesti sen tulisi olla myös sellainen, että se koskee kaikkia eikä vainosaa kohdejoukosta.

2 Missä on sopiva taustakysymysten (sukupuoli ja ikä jolleivät ole muuten2. Missä on sopiva taustakysymysten (sukupuoli ja ikä jolleivät ole muutentiedettyjä, koulutus, ammatti) paikka? Joskus ne ovat heti aluksi, mutta hyvinusein varsin lopussa. Joskus on hyvä sijoittaa osa alkuun (kuten hyvinhelposti vastattavat eivätkä herkät) ja osa loppuun (herkemmät kuten tulot)helposti vastattavat eivätkä herkät) ja osa loppuun (herkemmät kuten tulot).

3. Kussakin surveyssä tietyt asiat ovat keskeisessä roolissa, ainakin pitäisiolla Siksi on erikseen tutkittava mikä olisi paras paikka näiden kysymiseksiolla. Siksi on erikseen tutkittava mikä olisi paras paikka näiden kysymiseksi.Väärä �konteksti� voi harhaistaa tuloksia.

14.10.2009 SurveyMetodiikka 2009 Seppo 1714.10.2009 17SurveyMetodiikka 2009 Seppo

Page 18: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 7

Kysymyksiähän voi olla eri tyyppejä, mutta voidaan jakaa vain kahteenkinpääryhmään:

1. Tosiasioita, faktoja koskevat kysymykset. Näitä ovat mm. taustamuuttujatsekä kvantitatiivisia mittoja kuten tuloja ja liikevaihtoa koskevat tiedot.

2. Subjektiivisia näkökohtia koskevat kysymykset: asenteet, mielipiteet,arvioinnit ja tarkoitukset.

Tosiasiakysymysten tarkistaminen on periaatteessa helpompaa, jollei täysin,niin ainakin suuruusluokan tasolla. Subjektiiviset tekijät voivat joskus muuttuanopeastikin ja siksi vastaustiedon tarkistaminen jonkin aikaa kyselyn jälkeennopeastikin ja siksi vastaustiedon tarkistaminen jonkin aikaa kyselyn jälkeenvoi olla mahdotonta. Koska subjektiivisiin kysymyksiin liittyy suurempiepävarmuus, on hyvä laatia samasta aihepiiristä useampi kysymys.Tällöin puhutaan kysymyspatteristoista Jatkossa tällaisesta patteristostaTällöin puhutaan kysymyspatteristoista. Jatkossa tällaisesta patteristostaetsitään usein perusulottuvuudet, piilevät muuttujat, vaikkapafaktorianalyysillä, ja näin taas vähennetään varsinaisten analysoitavienmuuttujien määrää.

14.10.2009 SurveyMetodiikka 2009 Seppo 18

uu uj e ää ää

14.10.2009 18SurveyMetodiikka 2009 Seppo

Page 19: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 8

Lomakkeissa voi olla vastausvaihtoehdot valmiina (ns. suljettu kysymys) tai vastaukset annetaan vapaassa muodossa (avoin kysymys) tekstinä tai numerona.

Jatkuvatkin muuttujat kuten tulot kysytään joskus suuruusluokittain, ei siis t hd tt ää ät itt i til t tt k i Ed lliantaen yhden vapaan mutta määrätyn mittaisen tilan vastattavaksi. Edellinen

vaihtoehto voi herkän muuttujan (tulot, varallisuus) tapauksessa tuottaa paremmin vastauksia mutta toisaalta tietojen tarkkuustaso voi olla liian huono jatkoanalyyseihin Näin on erityisesti jos viimeisellä vaihtoehdolla ei olejatkoanalyyseihin. Näin on erityisesti jos viimeisellä vaihtoehdolla ei ole ylärajaa. Tämä siis aiheuttaa osittaisen puuttuvuuden aineistoon. Jos on kyse isoista luvuista, vaikkapa miljoonista, voi vastaajilla olla vaikeuksia hahmottaa suuruusluokkaa oikein Eräs tapa on pyytää tietoa lyhyempänähahmottaa suuruusluokkaa oikein. Eräs tapa on pyytää tietoa lyhyempänä, esimerkiksi tuhansina. Kummassakin tapauksessa voi tulla suuruusluokkavirhe. Lomakkeen tulee olla äärimmäisen selkeä tämän välttämiseksi Jos tietoa kysytään hyvin tarkasti esimerkiksi sadasosinavälttämiseksi. Jos tietoa kysytään hyvin tarkasti, esimerkiksi sadasosina (sentteinä), voidaan tämäkin ymmärtää väärin. Jollei tämä tarkkuus ole erityisen olennainen, on siitä paras luopua.

14.10.2009 SurveyMetodiikka 2009 Seppo 1914.10.2009 19SurveyMetodiikka 2009 Seppo

Page 20: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 9Valmiiden vastausvaihtoehtojen antaminen on luonnollisinta subjektiivistenValmiiden vastausvaihtoehtojen antaminen on luonnollisinta subjektiivistenkysymysten yhteydessä, edellyttäen että kysymys on validoitu niin hyvin ettävaihtoehdot kuvaavat mahdollisia vastauksia riittävästi. Tällöin voidaanmuuttuja ja siis kysymys muodostaa enemmän tai vähemmänmuuttuja ja siis kysymys muodostaa enemmän tai vähemmänyksityiskohtaisena. Joihinkin kysymyksiin riittää kaksi vaihtoehtoa kuten1=kyllä ja 0=ei, mutta moniin asennetyyppisiin on hyvä käyttääjärjestysasteikollista skaalaa Ehkä yleisin käytetty on viisiluokkainenjärjestysasteikollista skaalaa. Ehkä yleisin käytetty on viisiluokkainen(1=erittäin huono, 2=huono, 3=tyydyttävä, 4=hyvä, 5=erittäin hyvä), muttajotkut tutkijat pitävät 7-luokkaista optimaalisimpana. Ja ESS:ssä on mentyyleisesti skaalaan 0-10; tässä tekstimuodossa ilmaistaan vainy ;äärivaihtoehdot. Olen nähnyt myös skaalan 0-100.

On kiinnostavaa ja ymmärrettävää huomata, että epäsymmetrinen skaalaj y p y(esim. edellisen sijasta seuraava: 1=huono, 2=tyydyttävä, 3=hyvä, 4=erittäinhyvä ja 5=kiitettävä) toimii varsin symmetrisesti ainakin jos kyselyssä onnumerot 1:stä 5:een kuten edellä. Suurin osa vastaajista ei siis katso tekstiävaan skaalaa. Symmetrinen skaala on luonnollisesti reilumpi sekä tekstienettä numeroiden osalta. Huomattakoon, että jotkut haluavat tehdä sellaisensymmetrisen vaihtoehdon jossa keskimmäinen neutraali vaihtoehto puuttuu.

14.10.2009 SurveyMetodiikka 2009 Seppo 20

Tämä saattaa lisätä puuttuvien vastausten määrää.14.10.2009 20SurveyMetodiikka 2009 Seppo

Page 21: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 10

Erityiskysymys on kuinka vastaamattomuus on sallittu:

lomakkeissa voi olla tai sitten ei vaihtoehto �en osaa� tai olennaisesti eri asiana �en halua sanoa�tai �tieto ei ole käytettävissä�, jolloin rima on korkeammalla vastata �puuttuvasti.�

Lisäksi tulokseen voi vaikuttaa se miten vaihtoehdot on merkitty lomakkeelle.ESS:n lomakkeessa on yleensä yksi koodi vastaamattomuudelle mutta l lli i i t k d j i k l Ed lli li äk ilopullisessa aineistossa koodeja on usein kolme. Edellisen lisäksi kieltäytyneet sekä ei osaa sanoa, jotka haastattelija merkitsee.

Lisäksihän monesti lomake on strukturoitu siten että vastaamisesta tiettyynLisäksihän monesti lomake on strukturoitu siten, että vastaamisesta tiettyyn kysymykseen esimerkiksi �EI� seuraa ettei toiseen kysymykseen saa tulla vastauksia. Tämä on tyypillistä ja ongelmakin, kun arvioidaan vaikkapa kunnallisen palvelun hyvyyttä Jollei ole käyttänyt palvelua voi toki vastatakunnallisen palvelun hyvyyttä. Jollei ole käyttänyt palvelua, voi toki vastata sen hyvyyteen kuulopuheiden pohjalta muttei omakohtaisen kokemuksen mukaan. The Economist näyttää lukijatutkimuksissaan minimoivan tätä lähettämällä tietyn lehden uudelleen, jotta vastaaja voi katsoa lukiko artikkelin vain ei. Tosin itse vasta tällöin katson,

14.10.2009 SurveyMetodiikka 2009 Seppo 21

, j j ,että tuon olisin lukenut huolella, tuota en ollenkaan. 14.10.2009 21SurveyMetodiikka 2009 Seppo

Page 22: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 11 (Monikansalliset)

Monikansalliset surveyt on laajeneva alue, ja niissä on oltava vielähuolellisempia lomakesuunnittelun kanssa. Niiden suunnittelu onhuolellisempia lomakesuunnittelun kanssa. Niiden suunnittelu onkansainvälisen ryhmän tehtävänä, jonka pitää myös arvioida kysymystenvaliditeetti ja reliabiliteetti siten että nämä toimivat yhtä hyvin kaikissaosallistujamaissa. On hyvin mahdollista, että kysymyksissä painottuvatj y , y y y p�vahvojen maiden� näkökohdat. Toisaalta vaikeaksi tehtäväksi muodostuukielikysymys.

On luonnollisesti myös selvä, että on kysymysaiheita, erityisesti tosiasioita koskevia, jotka on syytä muotoilla eri tavoin eri maissa joten aikanaan aineistoa käytettäessä kunkin tutkijan on syytä miettiä huolella miten tehdä yhdenmukainen muuttuja. Tyypillinen esimerkki on puolue jota kannattaa tai äänesti edellisissä vaaleissa; nehän eivät ole samat kaikissa maissa. Myös maantieteeseen ja elinkeinoihin sekä etniseen ja

k lli t t liitt ät k k t h ä t ill k h kiuskonnolliseen taustaan liittyvät kysymykset on hyvä muotoilla kuhunkin maahan sopivasti. Keksi oma esimerkki!

14.10.2009 SurveyMetodiikka 2009 Seppo 2214.10.2009 22SurveyMetodiikka 2009 Seppo

Page 23: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tiedonkeruu ja lomakesuunnittelu 12 (Monikansalliset 2)Esimerkiksi PISA:ssa ja Eurobarometrissa lomake tehdään aluksi sekäEsimerkiksi PISA:ssa ja Eurobarometrissa lomake tehdään aluksi sekä englanniksi että ranskaksi. Siten lomakesuunnitteluryhmässä on riittävän hyvä osaaminen molemmista kielistä. Tämän jälkeen lomake on käännettävä kaikille kielille joita osallistujamaissa on Tämä ei ole ollenkaan niin helppokaikille kielille joita osallistujamaissa on. Tämä ei ole ollenkaan niin helppo tehtävä kuin voisi kuvitella. Tavallisin tapa on käyttää kahta riippumatonta kääntäjää ja verrata näiden käännöksiä keskenään sekä löytää kompromissi. Tämä käännetään mahdollisesti vielä alkuperäisille kielille eri ammattilaistenTämä käännetään mahdollisesti vielä alkuperäisille kielille eri ammattilaisten toimesta ja katsotaan kuinka hyvä oli tulos.

Tämä näyttää jonkin verran vaihtelevan monikansallisesta surveystä toiseen. Vaativimmissa tiedusteluissa esimerkiksi suomenruotsi ja jruotsinruotsi tai ranskanranska, belgianranska ja sveitsinranska ovat eri kieliä, mutta joissain kelpuutetaan nämä samaksi.

ESS:ssä peruslomake on englanniksi ja kaikkien tutkittavissa netistä. Kussakin p g jmaassa suoritetaan sen kääntäminen parhaalla mahdollisella tavalla. Tämä voi tuottaa virheitä kuten Suomen lomakkeessa jossa kysymys joutumisesta murtovarkauden tai väkivallan uhriksi alkuperäislomakkeessa �burglary or assault�)murtovarkauden tai väkivallan uhriksi alkuperäislomakkeessa burglary or assault ) murtovarkaus käännettiin kolmella kierroksella virheellisesti sanalla varkaus. Tämän seurauksena Suomen kohdalla kyllä-vastauksia voidaan arvioida olevan tarkoitettua enemmän kuin jos olisi kysytty murtovarkaudesta14.10.2009 SurveyMetodiikka 2009 Seppo 23

tarkoitettua enemmän kuin jos olisi kysytty murtovarkaudesta. 14.10.2009 23SurveyMetodiikka 2009 Seppo

Page 24: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Haastattelijan roolista

�Haastattelija� on tässä henkilö, joka tiedon keruun hoitaa joko suoraan tai epäsuorasti. Haastattelijoita yhdessä surveyssä voi olla vain muutama mutta myös hyvin huomattava määrä. Jokin suhde otoskokoon haastattelijoidenmyös hyvin huomattava määrä. Jokin suhde otoskokoon haastattelijoiden määrällä kuitenkin on. Isommissa survey-instituuteissa on 100-200 käyntihaastattelijaa ja jos otoskoko on esimerkiksi 10000, niin kullekin tulisi silloin 50-100 haastateltavaa. Puhelin- tai muu kaukohaastattelu vie yleensä yvähemmän aikaa haastateltavaa kohti kuin käyntihaastattelu.Haastattelijalla ei pitäisi olla vaikutusta itse tietoon, mutta tätä ei voi estää.Useissa survey-aineistoissa onkin haastattelijan koodi käytettävissä, jotenvoidaan myös analysoida ns. haastattelijavaikutusta. Suosittelen sentutkimista mikäli tieto on käytettävissä. Joskus koodin takaa löytyy myöshaastattelijan taustatietoa, kuten sukupuoli, ikä ja vaikkapa kokemushaastattelijana. Haastattelijoiden enemmistö useimmissa teollisuusmaissa onnaisia, mutta on kulttuureja joissa nainen ei voi haastatella miestä ja toisaaltanainenkaan ei helposti voi mennä haastattelemaan naista, koska tämä ei ole

h ää P h ää k tt t j i i k ltt i t k tperheen pää. Perheen pään kautta taas joissain kulttuureissa vastauksetvain annetaan. Surveyn onnistuminen vaatiikin näissä oloissa hyvinmonitahoisen haastattelija- ja vastaajakokoonpanon eikä mitä tahansak s m ksiä kannata edes harkita esitettä än

14.10.2009 SurveyMetodiikka 2009 Seppo 24

kysymyksiä kannata edes harkita esitettävän.14.10.2009 24SurveyMetodiikka 2009 Seppo

Page 25: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomake-esimerkki

Oheinen taulukko on kopio F.M. Orkinin opio . . O i iesitelmäkalvosta ISI:n (International Statistical Instituten) konferenssistaInstituten) konferenssista Durbanissa 2009.Tulokset koskevat kahdella eri tavallakahdella eri tavalla muotoiltuja kysymyksiä eli onko kaksi (puolesta tai vastaan) vai kolmetai vastaan) vai kolme (puolesta, vastaan ja siltä väliltä) vaihtoehtoa kysymyksessä?kysymyksessä?

14.10.2009 SurveyMetodiikka 2009 Seppo 2514.10.2009 25SurveyMetodiikka 2009 Seppo

Page 26: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomakkeen testaus ja vaikutusLomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkkiKyösti Knuuttila (2009)y ( )

Historiatietoisuus Suomessa -tutkimushankkeen esitutkimus toteutettiin lomakekyselynä. Kyselylomake postitettiin 1000 väestörekisteristä y y y y psatunnaisesti poimitulle 15 - 79 -vuotiaalle Manner-Suomessa asuvalle vastaajalle viikolla 13 (23.3 - 29.3.2009). Ruotsinkielen äidinkielekseen ilmoittaneille (40 kpl) lähetettiin ruotsinkielinen kyselylomake ja muille ( p ) y y jsuomenkielinen (960 kpl).

Esitutkimuksen otoskoko valikoitui kompromissina aikataulun, tulostenEsitutkimuksen otoskoko valikoitui kompromissina aikataulun, tulosten tarkkuuden ja kustannusten välillä. Esitutkimuksen tavoitteena oli saada 200 vastausta eli 20 % vastausprosentti. Kyselylomakkeen palautti yhteensä 148 vastaajaa 31.5.2009 mennessä. Palautuneistayhteensä 148 vastaajaa 31.5.2009 mennessä. Palautuneista lomakkeista 5 oli kokonaan tyhjiä ja yhden oli täyttänyt otokseen valitun henkilön puoliso. Nämä 6 lomaketta jätettiin pois kyselystä. Täten vastauksia kertyi yhteensä 142 eli todelliseksi vastausprosentiksivastauksia kertyi yhteensä 142 eli todelliseksi vastausprosentiksi muodostui 14,2 %.

14.10.2009 26SurveyMetodiikka 2009 Seppo

Page 27: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomakkeen testaus ja vaikutusLomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 2

K hd 1 "Mik hi t i kit T ill ?" k "ti tKohdassa 1 "Mikä on historian merkitys Teille?" kysymys e. "tietoa, joka auttaa minua elämän ja muutoksien hallinnassa." osoittautui hankalaksi vastata. Vastaajista 35 % oli vastannut "ei samaa eikä eri mieltä" ja 8 % vastaajista ei ollut vastannut kohtaan lainkaan. Kysymystä tarkennettiin yksiselitteisemmäksi muotoon "Tietoa, joka auttaa minua ymmärtämään yhteiskunnan muutoksia.�y y

Kohdan 3 muotoilu "Juhlitteko Suomen itsenäisyyspäivää?" muutettiin muotoon "Vietättekö Suomen itsenäisyyspäivää?"muutettiin muotoon Vietättekö Suomen itsenäisyyspäivää? . Useampi vastaaja oli kommentoinut, että he eivät koe juhlivansa itsenäisyyspäivää, mutta katsovat esimerkiksi televisiosta Linnan juhlat ja polttavat kynttilät Tämä muotoilu tavoittanee suuremmanjuhlat ja polttavat kynttilät. Tämä muotoilu tavoittanee suuremman joukon vastaajia. Itsenäisyyspäivän viettoa koskeva kysymys siirrettiin järjestyksessä neljänneksi.

14.10.2009 27SurveyMetodiikka 2009 Seppo

Page 28: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomakkeen testaus ja vaikutusLomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 3

K hd 2 "Ol tt k ii i i d ik hdittiiKohdassa 2 "Oletteko viimeisen noin vuoden aikana pohdittiin vastausasteikon toimivuutta. Viisiasteinen vastausasteikko "en kertaakaan, kerran, 2-3 kertaa, 4-5 kertaa ja yli 5 kertaa" arvioitiin turhan tarkaksi ja hankalaksi vastata huomioiden kysymyksen aikarajauksen. Tämän johdosta kysymyksessä päätettiin käyttää neliportaista vastausasteikkoa "en kertaakaan, kerran, muutaman kerran, usein". Uusi vastausasteikko on lähempänä arkista tapaa ajatella viimeisen vuoden aikana tehtyä. Tulosten tulkinnan kannalta vastausten tarkkuus ymmärrettävästi hiukan laskee, mutta toisaalta voidaan pohtia kuinka luotettavia ovat tarkan lukumäärän ilmoittavat vastaukset tämäntapaisessa kysymyksessä.

Kysymys h. "Presidentti Kekkosen suhteet Neuvostoliittoon olivat tarpeettoman läheiset." poistettiin päällekkäisenä kysymyksen g. "Presidentti Urho Kekkonen oli liian itsevaltainen" kanssa. VahvaPresidentti Urho Kekkonen oli liian itsevaltainen kanssa. Vahva korrelaatio muuttujien välillä vahvisti tulkinnan (korrelaatio=0,63).

14.10.2009 28SurveyMetodiikka 2009 Seppo

Page 29: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomakkeen testaus ja vaikutusLomakkeen testaus ja vaikutus, Historiatietoisuus Suomessa esimerkki 4

K "M h tt j t t t l d k lt l lli iKysymys g. "Maahanmuuttajat ovat talouden kannalta ongelmallisia, koska heistä koituu tuntuvia menoja sosiaaliturvamäärärahoihin" muotoiltiin uudelleen "Maahanmuuttajista koituu liikaa menoja sosiaaliturvamäärärahoihin".

Entinen kohta 14 "Mitä yksittäistä tapahtumaa tai kehityskulkua pidätte oman ikäluokkanne / sukupolvenne kannalta merkittävimpänä?" keräsi hyvin vastauksia, mutta useat vastaajat olivat luetelleet pitkähköjä listoja heidän mielestään merkittävistä tapahtumista. Kysymys ei myöskään tavoittanut parhaalla mahdollisella tavalla sukupolvien avainkokemuksia. Tämän johdosta kysymystä terävöitettiin muotoon "Nuoruusvuosien yhteiskunnallisten kokemusten ajatellaan vaikuttavan sukupolvien muotoutumiseen. Mitä yksittäistä tapahtumaa tai kehityskulkua pidätte oman sukupolvenne kannalta merkittävimpänä? Mainitkaa jokaiseen ainoastaan yksi tapahtuma." Vastausvaihtoehdot rajattiin a. "Suomessa" ja b. "muualla maailmassa"

14.10.2009 29SurveyMetodiikka 2009 Seppo

Page 30: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Lomakenäkökohtia lisääLomakenäkökohtia lisää

Lomaketta suunniteltaessa on hyvä tehdä yleinen hahmotelma sen y ykokonaisuudesta. Kahdella seuraavalla sivulla on hahmotelma jonka teimme Eurooppalaisen uhritutkimuksen yleissuunnitteluvaiheessa. Siitä ilmenevät eri teemat ja niiden esitysjärjestys lomakkeessa VoitSiitä ilmenevät eri teemat ja niiden esitysjärjestys lomakkeessa. Voit tutkia onko nettilomakkeessa noudatettu tätä suunnitelmaa. Tuo hahmotelmahan tehtiin kaksi vuotta sitten.

Toiseksi: ESS:n lomakkeessa on heti alkusivuilla kuvaus sen rakenteesta. Katso(taan) vaikkapa uusinta kierroksen 4 lomaketta; siitä myös tehtävä hetken kuluttua.

14.10.2009 30SurveyMetodiikka 2009 Seppo

Page 31: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Draft Questionnaire 0_a

14.10.2009 31SurveyMetodiikka 2009 Seppo

Page 32: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Draft Questionnaire 0_ b

14.10.2009 32SurveyMetodiikka 2009 Seppo

Page 33: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 1Aluksi otan käsitteen perusjoukko. Vaikka joskus se esitetään yksikäsitteisenä, sitä se ei ole. Mielestäni viisi eri perusjoukon käsitettä on jo poikkileikkaustutkimuksessa tarpeen:

y

käsitettä on jo poikkileikkaustutkimuksessa tarpeen: 1. Kiinnostusperusjoukko on karkea hahmotus tutkijan mielessä alkuvaiheessa olevasta perusjoukosta. Harvoin (paitsi jos joku on

ää it ll t ) l k i tä älli tt k itämääritellyt sen) se on aluksi täsmällinen, mutta kun se on sitä, voimmekin määritellä2.Tavoiteperusjoukon (joskus kohdeperusjoukko) mikä on jo tarkasti määritelty ja aikaan sidottu (vaikkapa kuun alku, vuoden loppu tai aikaväli) sekä realistinen.

ESS:lle tämä on 15+ vuotiaat PISA:lle hieman 15 vuotta (tarkan vuoden aikanaESS:lle tämä on 15+ -vuotiaat, PISA:lle hieman 15 vuotta (tarkan vuoden aikana syntyneiden) täyttäneiden koululaisten joukko, Uhritutkimuksen pilotissa 15-74 �vuotiaat mutta varsinaisessa ei kuuluisi olla ylärajaa, Historiatutkimuksessa 15-79 -vuotiaat. Ikä on määriteltynä kenttätyön alun mukaan. Muut rajaukset hieman vaihtelevat. ESS:ssä ja Uhritutkimuksessa mukana ovat maassa asuvat kansalaisuudesta riippumatta. PISA:ssa suomenkieliset ja ruotsinkieliset koulut ovat mukana. Historiatutkimuksessa päädyttäneen jättämään muut kuin suomen- ja ruotsinkieliset pois Miksihän?

14.10.2009 SurveyMetodiikka 2009 Seppo 33

ruotsinkieliset pois.. Miksihän?.

14.10.2009 33SurveyMetodiikka 2009 Seppo

Page 34: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 2

Jotta tavoiteperusjoukko saataisiin koottua, on oltava3. Kehikkoperusjoukko, josta poimitaan kaikki tai osa haluttua p j j ptiedustelua varten. Jos käytetään otosta, puhutaan myös otantakehikosta. Kehikkoperusjoukon yksikkö voi olla esimerkiksi henkilö, yritys, kunta, muu alue, kotitalous tai aikaväli. Se ei aina olehenkilö, yritys, kunta, muu alue, kotitalous tai aikaväli. Se ei aina ole saatavissa tiedustelun ajankohdalta, vaan jossain määrin aikaisemmalta mistä aiheutuu kiusaa (katsotaan myöhemmin).

Kehikkoja voi olla useitakin, kuten PISA:ssa jossa ensin tarvitaan koulujen kehikko ja myöhemmin oppilaiden kehikko. Koulutietojen (ml. oppilasmäärätiedot) pieni epätarkkuus ei haittaa paljoa mutta jollei valittujen pp p p p j j jkoulujen oppilastietoja saada kunnolla, tilanne on hankala. Näin ei yleensä ole ja voidaankin uskoa että oppilaskehikko on ainakin Suomessa hyvin ajantasainen. Uhritutkimuksessa kehikkoperusjoukko luodaan Väestörekisteristä heinäkuun 2009 lopun mukaisena. Se ei takaa että kaikki väestötieto olisi harhatonta. Historiatutkimuksen kehikko luodaan samasta pohjasta. ESS-otosten perusidea on sama Suomessa mutta monessa maassa kä ää l k hikk j l k i j h kilöid li ik lli i i j14.10.2009 SurveyMetodiikka 2009 Seppo 34

käytetään aluekehikkoja aluksi ja henkilöiden valinnassa paikallisia tietoja.14.10.2009 34SurveyMetodiikka 2009 Seppo

Page 35: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 3

Koska kehikko usein muuttuu tiedustelun ajankohtaan mennessä, tarvitaan

4. Päivitetty kehikkoperusjoukko, jota käytetään estimoinnissa. Valitettavan harvoin tutkija muodostaa tällaisen perusjoukon. Pääsyy on luonnollinen: sellaisen hankkiminen on monesti vaikeata, jopa mahdotonta. Toisaalta tämän puuttuminen ei aina haittaa yhtä paljon, ei ainakaan ihmisiä koskevissa tutkimuksissa; yritystiedusteluissa tämän perusjoukon

i i ik l k ii ljpuuttuminen voi vaikuttaa tuloksiin paljon. Vaikkei kehikkoa päivitettäisi, on tutkijan syytä arvioida mitä harhaa vanha kehikko voi tuloksiin aiheuttaa.

Lopulta keräämme itse aineiston ja saamme toivon mukaan mahdollisimman paljon tavoiteperusjoukkoa muistuttavan

5. Tutkimusperusjoukon.

14.10.2009 SurveyMetodiikka 2009 Seppo 3514.10.2009 35SurveyMetodiikka 2009 Seppo

Page 36: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 4

On hyvä huomata, että jos kehikon ja tavoiteperusjoukon yksiköt ovat samoja tilanne on helpompi kuin tilanteessa jossa ne eivät ole samoja.

SA i äi k hikk k ikö k l i ä lPISA:ssa ensimmäisen asteen kehikkoyksiköt = koulut eivät ole oppilasaineistossa siis tutkittavia yksiköitä eli oppilaita, mutta PISA:n koulututkimuksessa ne ovat. Suomen ESS:ssä kehikossa on saatavissa 15+ -vuotiaat Suomessa asuvat, mutta useimmissa muissa maissa ensimmäisenä kehikkona ovat maantieteelliset pienalueet. Vasta näistä sopivien tultua valituksi p plähestytään itse vastaajakandidaatteja. Muutamissa maissa tämä tapahtuu suoraan mutta hyvin monissa seuraavana kehikkona ovat valittujen pienalueiden osoitteet tai kotitaloudet Kolmas kehikko onvalittujen pienalueiden osoitteet tai kotitaloudet. Kolmas kehikko on sitten periaatteessa helppo koska se koskee valitun osoitteen tai kotitalouden 15+ -vuotiaita henkilöitä. Irakin kuolleisuustutkimuskin vastaa viimeksi mainittua muttaIrakin kuolleisuustutkimuskin vastaa viimeksi mainittua mutta kotitalouden sisältä ei valita enää kehikkoa vaan tutkimus koskee kaikkia kotitalouden jäseniä tutkimusajanjaksolta (katso datasta mikä

ik äli)14.10.2009 SurveyMetodiikka 2009 Seppo 36

on aikaväli). 14.10.2009 36SurveyMetodiikka 2009 Seppo

Page 37: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 5

Mikäli kaikki periaatteessa täsmälliset perusjoukot eli neljä viimeistä kattavat saman joukon, ei kehikko-ongelmia esiinny. Mutta h il i il ll i llä il i ihuonommassa tilanteessa voimme vertailemalla eritellä erilaisia virhetekijöitä:- alipeittävyys (alipeitto): yksiköt jotka kuuluvat tavoiteperusjoukkoon mutta joita ei tavoiteta- ylipeittävyys (ylipeitto): yksiköt jotka eivät kuulu tavoiteperusjoukkoon mutta jotka on poimittu aineistoon.p j j p- luokitteluvirheet kehikon osalta: voivat aiheuttaa ylipeittoa ja alipeittoa ja virheitä aineistoon (voidaan havaita ja korjatakin).

Jos tutkimus(perus)joukko ei sisällä kaikkia tavoiteperusjoukkoon kuuluvia poimittuja yksiköitä, on kyse yksikkövastauskadosta, mikä on hyvin hankala ongelma nykypäivän surveyssä Tämä on osaon hyvin hankala ongelma nykypäivän surveyssä. Tämä on osa puuttuvuutta. Myös alipeitto on puuttuvuutta. Osittainen vastauksen puuttuminen (muuttujakohtainen puuttuvuus) on erävastauskatoa

ikäli ti t h l t O ö h äk ttä ää tt tt Mitä?14.10.2009 SurveyMetodiikka 2009 Seppo 37

mikäli tieto halutaan. On myös hyväksyttävää puuttuvuutta. Mitä?14.10.2009 37SurveyMetodiikka 2009 Seppo

Page 38: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 6Alipeittoa eli syntyneitä tai muuten uusia tapauksia tai luokitteluvirheellisiä tapauksia ei normaalitilanteessa voida yksikkötasolla havaita tiedustelun kehikkoa muodostettaessa muutenhan nämä yksiköthavaita tiedustelun kehikkoa muodostettaessa, muutenhan nämä yksiköt sisällytettäisiin kehikkoperusjoukkoon.

Ylipeitto voidaan havaita tiedusteluun valittujen yksiköiden osalta josYlipeitto voidaan havaita tiedusteluun valittujen yksiköiden osalta jos nämä tapaukset tavoitetaan tai saadaan tieto niistä muuta kautta, vaikkapa rekistereistä. Kyseessä ovat siis kuolleet tai toimintansa lopettaneet yksiköt toiseen perusjoukkoon muuttaneet tailopettaneet yksiköt, toiseen perusjoukkoon muuttaneet tai luokitteluvirheelliset kehikkoperusjoukon tapaukset. Otokseen sisällytettyjen osalta ylipeitto pitäisi voida aina saada selville (havaittu ylipeitto) Sen sijaan kehikkotason tai tiedustelussa tavoittamattomienylipeitto). Sen sijaan kehikkotason tai tiedustelussa tavoittamattomien osalta ylipeitto voi jäädä havaitsemattomaksi. Tässäkin tapauksessa sen laajuus pitäisi jälkikäteen arvioida ja vastaavasti sen vaikutukset itse tuloksiin Jos kaikkia tiedusteluun valittuja ei tavoiteta eikä muutatuloksiin. Jos kaikkia tiedusteluun valittuja ei tavoiteta, eikä muuta ulkopuolista tietoa ole käytettävissä, jääkin epäselväksi ovatko nämä tapaukset ylipeittoa vai vastauskatoa.

14.10.2009 SurveyMetodiikka 2009 Seppo 3814.10.2009 38SurveyMetodiikka 2009 Seppo

Page 39: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 6

Kehikko- ja tavoiteperusjoukko sekä otos

Kehikko-perusjoukko

Ali

Yli-peitto

Ali-peitto

Otos

Tavoite-perusjoukko

Otos

Tästä puuttuu kiinnostusperusjoukko, jonka koko voi olla isompi kuin mikään yllä olevista tai suppeampi.

14.10.2009 SurveyMetodiikka 2009 Seppo 3914.10.2009 39SurveyMetodiikka 2009 Seppo

Page 40: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyaineiston Peruskäsitteistö 7Edellä survey oli yksitasoinen. Jos tiedustelu on useampitasoinen eli tutkimusyksiköitä on hierarkkisesti useampia, voi hyvinkin olla niin, että vastaus saadaan ylemmältä tasolta, esimerkiksi perheen taivastaus saadaan ylemmältä tasolta, esimerkiksi perheen tai palvelusyksikön tasolta, mutta yksi tai useampi vastaus jää puuttumaan seuraavaksi alemmalta tasolta, esimerkiksi koskien perheen jäseniä tai palveluyksikön työntekijöitä tai asiakkaita. Vastaavasti voidaan puhua p y y j pensimmäisen ja toisen asteen tai tason vastauskadosta.

Vielä erityisempi on tilanne jos vastauskadon tarkemmaksi tutkimiseksi on päätetty ottaa (osa)otos vastaamattomista ja tiedustella näiltä joitakin avainkysymyksiä tai kenties koko lomakkeisto mutta käyttäen parempaa tiedustelumenetelmää kuin aikaisemmassa vaiheessa (esim. jos perustiedustelu on postitiedustelu, tämä erityistiedustelu voidaan hoitaa käyntihaastatteluin). Tällöin on kyseessä kaksivaiheinen surveytutkimus.

Kaksivaiheinen tutkimus voidaan tehdä myös muista syistä, esimerkiksi tekemällä suppea tiedustelu isolle joukolle ja samalla kartoittaa ilmiötä k k i j i ih l j i i d l ll j k llkarkeasti, ja toisessa vaiheessa laajempi tiedustelu suppealle joukolle, jonka otos voi olla kohdennettu tutkimuksen päätavoitteiden mukaan.

14.10.2009 SurveyMetodiikka 2009 Seppo 4014.10.2009 40SurveyMetodiikka 2009 Seppo

Page 41: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 1

Esitän kuviosarjan, joka havainnollistaa poikkileikkausaineistoa, ns.mikrotiedostoa eli poimintatason yksiköihin perustuvaa tiedostoa. Tämäp y ptiedosto tai havaintomatriisi on myös vain yksitasoinen eli tältäkin osinyksinkertaistettu. Mittasuhteet eivät vastaa todellisuutta esimerkiksi siinämielessä, että poimittu otos olisi kuvion mukaisen suuri. Tämä kuvasarjaon tietynlainen yhteenveto käsitteistä joita datan luomisessa japuhdistamisessa tarvitaan. Tarkempi kuvaus useimmista niistä tuleekuitenkin esille vasta kurssin muissa osissa. Katso siinä vaiheessa ainavälillä näitä kohtia.

14.10.2009 SurveyMetodiikka 2009 Seppo 4114.10.2009 41SurveyMetodiikka 2009 Seppo

Page 42: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 2

Aloitan yksinkertaisimmasta mahdollisesta tiedostotyypistä, jossa on onnistuttu keräämään koko perusjoukon tiedot kaikille muuttujille. Mahdollisesti on myös muista lähteistä kerätty lisämuuttujia X.

Tilasto-yk-

Tunnistimet- poikittainen- pitkittäinen

X -MuuttujatMuualtakerätyt

Y -Muuttujat (tulosmuuttujat) Monia tyyppejä ml.- erot skaalauksessa

Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo

köt

1

p- suojattu

kerätytmuuttujat

erot skaalauksessa- avainmuuttujat ja muut

Esimerkiksi:väestö rekisteristä

i

heinäkuun lopussa. LisämuuttujaLisämuuttuja koulutus poimittututkintorekisteristä ja verorekisteristä

N

Symbolit: N = perusjoukon koko

ja verorekisteristäverotettu tulo.

14.10.2009 SurveyMetodiikka 2009 Seppo 42

Symbolit: p j

14.10.2009 42SurveyMetodiikka 2009 Seppo

Page 43: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 3

Jos kuitenkin on toteutettu otossurvey (joistakin osista voi olla otettu kaikkikin mukaan) ja vastausten saamisen jälkeen on vastanneet ja ylipeitto määritelty, saadaan seuraavan kaavion mukainen tiedosto. Tähän on luotu käytettyyn

t t t l t t l i b tt t k llotanta-asetelmaan perustuva ns. asetelmapaino brutto-otokselle.

Tilasto-yk

Tunnistimet- poikittainen

X -Muuttujat-otoksen - muut

Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml.

t k l k

Otos- ja muut

Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo

yk-köt

-n(D)

-N(D)

p- pitkittäinen- suojattu

-otoksen poimintaan

muutulkoisetapu-muuttujat

- erot skaalauksessa- avainmuuttujat ja muut

muutPainot

- asetelmapaino

Kehikko-( )

1

i

Ylipeitto Otosylipeitto

r

nYksikkövastauskato

NEi sisällytetty otossurveyhin

Symbolit: r = vastaajien määrä; N(D) ja n(D) = ylipeiton suuruus kehikossa ja poimitussa otoksessan = lopullinen hyväksytty otoskoko (ilman ylipeittoa),

14.10.2009 SurveyMetodiikka 2009 Seppo 43

y y y ( y )

14.10.2009 43SurveyMetodiikka 2009 Seppo

Page 44: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 4

Tämän jälkeen aineistoa tutkitaan lisää ja muun muassa määritellään erävastauskato sekä pyritään löytämään tilastollisella editoinnilla virheet. Lisäksi vastaajille lasketaan ns. peruspaino, jossa on otanta-asetelman li äk i h i it tt li li itt t k t j ttlisäksi huomioitu puuttuvuus eli ylipeitto, vastauskato ja muu puuttuvuus.

Tilasto-yk

Tunnistimet- poikittainen

X -Muuttujatotoksen - muut

Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml.

Otos- ja muut

Tilastollisen poikkileikkausmikrotiedoston yleinen hahmo

yk-köt

-n(D)

-N(D)

p- pitkittäinen- suojattu

-otoksen poimintaan

muutulkoisetapu-muuttujat

- erot skaalauksessa- avainmuuttujat ja muut

muutPainot

- asetelmapaino- peruspaino

Kehikko-n(D)

1

i

Ylipeitto Otosylipeitto

Erä-vastauskato

r

nYksikkövastauskato

Virheitä löydetty

NEi sisällytetty otossurveyhin

14.10.2009 SurveyMetodiikka 2009 Seppo 4414.10.2009 44SurveyMetodiikka 2009 Seppo

Page 45: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 5Tässä vaiheessa on kehikkoperusjoukko päivitetty ja joitakin tietojakinTässä vaiheessa on kehikkoperusjoukko päivitetty ja joitakin tietojakin alipeitosta saatu kasaan. Tämä ei ole ehkä kovin realistinen mutta ainakin on hahmotettu alipeiton suuruutta jossain määrin. Samaan aikaan on tehty kaikki voitava virheiden poistamiseksi sekä erävastauskadon ja muun a o a a e de po s a se s se ä e ä as aus ado ja uupuuttuvuuden imputoimiseksi ja lisäksi on luotu aikaisempaa paremmat otospainot, joita kutsutaan adjustoiduiksi painoiksi.

Tilastollisen poikkileikkausmikrotiedoston yleinen hahmoTilasto-yk-köt

-N(D)

Tunnistimet- poikittainen- pitkittäinen- suojattu

X -Muuttujat-otoksen poimintaan

- muutulkoisetapu-muuttujat

Y -Muuttujat (tulosmuuttujat)Monia tyyppejä ml. - erot skaalauksessa- avainmuuttujat ja muut- lippumuuttujat (luonne, imputoitu,tietosuojattu, alustava, lopullinen,...)

Otos- ja muutPainot

- asetelmapaino- peruspaino- adjustoitu paino

t il i-n(D)

1

i

- vertailupainoKehikko-Ylipeitto Otosylipeitto

Impu-t it ji

r

nYksikkövastauskato

toituja

N(real)N(true) Alipeitto

Ei sisällytetty otossurveyhin

Symbolit:r = vastaajien määrä; N(D) ja n(D) = ylipeiton suuruus kehikossa ja poimitussa otoksessa

14.10.2009 SurveyMetodiikka 2009 Seppo 45

Symbolit: n = lopullinen hyväksytty otoskoko (ilman ylipeittoa), N = perusjoukon koko (true = tavoiteperusjoukolle, real = kehikkoperusjoukolle);

14.10.2009 45SurveyMetodiikka 2009 Seppo

Page 46: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otospohjaisen surveyaineiston kuvaus 6

Tiedostoa voidaan laajentaa erityistilanteisiin, kuten jos- on poimittu otos vastaamattomista laadun tutkimiseksi ja painotuksen parantamiseksiparantamiseksi- jos otos on jaettu osiin, kuten uhritutkimuksessa jossa on kolme otosta eli puhelin-, käynti- ja nettikysely- jos on toteutettu kaksivaiheinen kysely vaikkapa siten että vastanneilta on j y y ptoisessa vaiheessa kyselty uusia asioita.

Kokeile muodostaa kuvio jostakin tällaisesta tilanteesta.

Seuraavalla sivulla on uusin kehitelmäni ihanteellisesta tiedostosta jossa eivät ole mukana Y-muuttujat (mutta ne siis liitetään tähän aineistoon) eivätkä painot. Tätä kutsun otantatiedostoksi. Esimerkki on höystetty konkreettisilla muuttujilla.

Käyttötiedostona edellinen tai sen muunnelma ei ole paras mutta toki voidaan tuotakin käyttää. Mikä olisi sopiva käyttötiedosto?

14.10.2009 SurveyMetodiikka 2009 Seppo 46

Mikä olisi sopiva käyttötiedosto?14.10.2009 46SurveyMetodiikka 2009 Seppo

Page 47: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Exemplary sampling data SAS file for a survey of peoplesExemplary sampling data SAS file for a survey of peoples

Identit Sampling design ariables Field ork Other A iliar ariablesIdentity Sampling design variables Fieldwork Other Auxiliary variablesMode and outcome External Internal

SurveyMetodiikka 2009 Seppo 4714.10.2009 47

Page 48: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja 1

Tunnisteet:Perustunnus (henkilötunnus, yritystunnus, organisaatiotunnus, k t t ) j t kä t tää ti d k j k h kkä ti tkuntatunnus), jota käytetään tiedonkeruussa, on joskus herkkä tieto eikä sitä anneta kenelle tahansa. Sen vuoksi voidaan muodostaa uusi, tietosuojattu tunnus, esimerkiksi sopivan satunnaisprosessin kautta.Pitkittäi j li i i t i t it ö itkittäi t ( ll iPitkittäis- ja paneliaineistoissa tarvitaan myös pitkittäistunnus (ellei aikaisempi tunnus riitä), mikä on erityisesti yritys- ja muiden ryväsyksiköiden yhteydessä hyvinkin hankala eikä yksikäsitteinen.

Varsinaisia muuttujia tilastoaineistossa on kahta tyyppiä, ns. X-muuttujia eli apu- tai lisämuuttujia ja Y-muuttujia eli tulos- tai

ki ji ki ji ki i kä ää l jitutkimusmuuttujia Toki X-muuttujiakin voi käyttää tulosmuuttujina. Y-muuttujien erikoistapauksina ovat kuviossa ns. lippumuuttujat joilla kerrotaan aineiston ja eri muuttujien ominaisuuksista, jolleivät ne

l l ll l k ll k kmuuten ilmene valistuneelle lukijalle. Esimerkiksi, että arvo on imputoitu, epävarma, korjattu, ennustettu tai karkea arvio.

14.10.2009 SurveyMetodiikka 2009 Seppo 4814.10.2009 48SurveyMetodiikka 2009 Seppo

Page 49: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja 2

Painomuuttujien osasto, joiden rakentamisen vaihe (tavallisin) esitettiin edellä olevissa kuvioissa. Tätä ei tarvita jos koko perusjoukko on mukana aineistossa (tai voidaan ajatella että painot ovat =1). Painomuuttuja on tietysti välttämätön kaikissa otossurveyssä, jossa tapauksessa voidaan muodostaa aineistoon yksi tai useampia (huonompia ja parempia) ns. otospainoja. Niitä käytetään kaikessa analyysissä.

Kehikkotietoja käyttäen luodaan ensimmäinen otospaino, asetelmapaino, mitä voi käyttää estimoitaessa brutto-otoksen tietoja eli X-muuttujia. Kun aineisto saadaan koottua, on mahdollista luoda ensiksi otanta-asetelman ja saatuun aineistoon perustuva uusi paino, jota kutsun peruspainoksi tai perusotospainoksi, mitä käytetään estimoitaessa vastaajien tiedoista. Jos on käytettävissä muutakin tietoa kuin alkuperäisen kehikon tiedot (katso esittämääni huipputason p pptiedostoa otantatiedostosta), niin mahdollista luoda parempia, oikaistuja tai adjustoituja otospainoja. Toki näin tulisi aina tehdäkin vaikkei niiden vaikutus tuloksiin olisikaan olennainen.

14.10.2009 SurveyMetodiikka 2009 Seppo 4914.10.2009 49SurveyMetodiikka 2009 Seppo

Page 50: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja 3

Aineisto on jokseenkin hyödytön ilman pätevää metadataa ja sen hyötyä lisää myös hyvä paradata.

Metadata (lippumuuttujat oli jo edellä esimerkki tästä) kertoo mitä data on, kattaen tiedon kaikista datan keruuvaiheista (lomake, sen laatutestaukset, otanta, aineiston muokkaus jne.) siihen miten muuttujat on nimetty ja koodattu.

Paradata antaa lisätietoa esimerkiksi aineiston keruusta, kuten tietoa haastattelijasta, haastattelun ajasta ja kestosta ja haastattelijan merkinnöistä haastattelusta. Tätä voi myös analysoida. Katso ESS:n tiedostosta minkälaista paradataa sieltä löytyy. Samalla katso myös sen metadatan piirteet. Ja arvioi niiden laatua. Omasta mielestäni laatu on korkea.

Hyvin toteutetuissa surveyssä on lisäksi taustadataa, koskien esimerkiksi surveyn kenttätyöajan tapahtumia tai ilmapiiriä, jopa sääoloja.

14.10.2009 SurveyMetodiikka 2009 Seppo 50

j

14.10.2009 50SurveyMetodiikka 2009 Seppo

Page 51: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

t a

lun

ja

ik

utt

av

at

ymä

t v

ai

en

?u

rve

ynä

ky

san

lke

eM

iltä

su

site

os

14.10.2009 SurveyMetodiikka 2009 Seppo 51

Page 52: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tehtäväosio edeltävästä aineistosta:

Tehdään ohjatusti harjoituksissa mutta voit tehdä omissa oloissasi missä tapauksessa toimitat vastauksesi sähköpostillamissä tapauksessa toimitat vastauksesi sähköpostilla.

Kurssin nettisivulla on kaksi Irakin kuolleisuustutkimuksen dataa sekä osa Suomen PISA 2006 dataasekä osa Suomen PISA 2006 dataa.

(i) Selosta kaikkien datojen muuttujien luonne edellä esitetyillä kä itt illäkäsitteillä.

(ii) Minkälaisia parannuksia ehdottaisit datojen kuvaukseen?

(iii) Tutki ESS4:n lomaketta (hae netistä) ja etsi sieltä ainakin neljä kiinnostavaa kysymystä siten että kiinnostus on määritelty y y y ykysymyksen muotoilun ja/tai aiheen mukaan. Kiinnostavista aiheista ajetaan kun data tulevat syyskuun lopulla tuloksia.

14.10.2009 SurveyMetodiikka 2009 Seppo 52

Page 53: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja: Paneliaineisto 1

(i) Retrospektiivinen tutkimus (paneli)Tässä aineisto tuotetaan jälkikäteen kysymällä tietoja vastaajienmenneestä historiasta, yleensä määrävälein kuten vuosittain.Ongelmana on muun muassa muistin pettäminen, josta syystämenneitä muistoja voidaan �kullata� tai päinvastoin �mustamaalata.�Retrospektiivinen näkökulma on kuitenkin erittäin yleinen, koskasurveyllä on käyttökelpoista kysellä edeltävistä ajoista. Esimerkiksiuhritutkimuksissa kysytään uhriksi joutumisesta hyvinkin erilaisillataaksepäin suuntautuvilla ajanjaksoilla. Joissain muissa kysytään vainyhdeltä periodilta, kuten viikolta, kuukaudelta, vuodelta.Kysymyslomakkeiden suunnittelijan olisi hyvä löytää mahdollisimmany y y j y yoikean pituinen edeltävä periodi (viiteaikaväli) siten, että estimaattiitse olisi luotettava ja että muistivirhe olisi mahdollisimman pieni.

14.10.2009 SurveyMetodiikka 2009 Seppo 5314.10.2009 53SurveyMetodiikka 2009 Seppo

Page 54: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja: Paneliaineisto 2

Vaikka retrospektiivisen tutkimusasetelman viiteaikavälitonnistuttaisiinkin saamaan hyviksi tai vaikka vieläpä tutkimuskäyttäisi faktatietoa esimerkiksi rekistereistä, tämä lähestymistapa eiy , y pole ongelmaton. Syynä on, että alkuperusjoukko voi olla harhainentutkimusasetelman kannalta, sillä retrospektiivisessa tutkimuksessa onmyös aineisto harhautunut, koska se kerätään joukosta jotka ovaty , j jeräänä ajankohtana käytettävissä. Siten kiinnostavia ja ilmiön kannaltatärkeitä yksiköitä voi olla mukana �epäedustavasti.�

(ii) Prospektiivinen eli eteenpäin suuntautuva paneli eli seurantatutkimus

� Puhdas tai jatkuva paneli tai kohorttitutkimus jolloin tiettyä aluksi� Puhdas tai jatkuva paneli tai kohorttitutkimus, jolloin tiettyä aluksi valittua joukkoa seurataan tietty aika. Aineisto yleensä supistuu joko ylipeiton (panelikuoleman) tai vastauskadon johdosta. Tämä johtaa sitä jännittävämpiin tilanteisiin mitä monimutkaisempi on tutkittava jasitä jännittävämpiin tilanteisiin mitä monimutkaisempi on tutkittava ja seurattava yksikkö.

14.10.2009 SurveyMetodiikka 2009 Seppo 5414.10.2009 54SurveyMetodiikka 2009 Seppo

Page 55: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Käsitteiden lisätarkasteluja: Paneliaineisto 2

� Rotatoiva paneli, jolloin aineistoa täydennetään määrävälein ja osaalkuperäisistä vapautetaan. Tämän strategian tarkoitus on ettäaineistosta voitaisiin kohtuullisesti estimoida sekä poikkileikkaus- ettäpmuutostietoja.

� Edellisten sekoitus (sekapaneli) jolloin toisaalta seurataan tiettyä� Edellisten sekoitus (sekapaneli), jolloin toisaalta seurataan tiettyäjoukkoa ja toisaalta poimitaan riippumaton rinnakkaisaineisto, jolloinjälkimmäisestä saadaan poikkileikkaustiedot luotettavasti ja edellisestämuutostiedot Kaikista näistä voidaan muodostaa tasapainotettumuutostiedot. Kaikista näistä voidaan muodostaa tasapainotettupaneli, jolloin mukaan hyväksytään vain ne joista on tietoja jokaiseltaajankohdalta. Vastaavasti muut panelit ovat tasapainottamattomia.

14.10.2009 SurveyMetodiikka 2009 Seppo 5514.10.2009 55SurveyMetodiikka 2009 Seppo

Page 56: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Nämä kuvaavatpaneleja.

Selosta minkälaisia.

14.10.2009 SurveyMetodiikka 2009 Seppo 56

Page 57: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät

Hieman historiaa¤ Anders Kiaer (norjalainen) 1895, edustava otos¤ Arthur Bowley (britti) 1906, yksinkertainen satunnaisotanta

J N ( l l i l i ) ä t t¤ Jerzy Neyman (puolalainen alun perin) 1934, ryväsotanta¤ Edward Hurja (suomalaisjuuria) 30-luvun alku, opinion polls:ien uranuurtaja, ¤ George Gallup (usalainen), 1940: kiintiöpoiminnan suurhyödyntäjä ja businessmies jonka nimeä kantava firma Suomeen 1940-luvulla (Artturi Raula).jonka nimeä kantava firma Suomeen 1940 luvulla (Artturi Raula).¤ Morris Hansen (usalainen) ym. 30-luku, ensimmäinen kattava kaksiasteinen ryväsotantaan perustuva survey, mm. kirjan Hurwitzin kanssa 1953 ¤ Fredericks Deming (usalainen), 1940-1990, alun perin otantaa ml. ensimmäiset k lib i it öh i i l t ( l J i t t lli d t j )kalibroinnit, myöhemmin suuri laatuguru (ml. Japanin autoteollisuuden nostaja)¤ Leslie Kish (unkarilaistausta), ansiokas todennäköisyysotannan sovellus presidentin vaalien voittajan ennustamiseen 1948, myöhemmin mm. DEFF, panelisurveyden kehittäminen, oppikirja 1965, pp j 9 5¤ William Cochran (skottitausta), monia kehitelmiä ja kirja 1977¤ Carl-Erik Särndal (ruotsalais-kanadalainen), model assisted survey sampling, kirja 1992 yhdessä Swenssonin ja Wretmanin kanssa;

J N K R (i ti l i k d l i ) J kk if j it i i ti tt it¤ J.N.K. Rao (intialais-kanadalainen), mm. Jackknife ja muita varianssiestimaattoreita sekä small area estimation -kirja¤ Jean-Claude Deville (ranskalainen), kalibrointimenetelmiä ym; ¤ Sharon Lohr (usalainen): Perusoppikirja otannasta 1999

14.10.2009 SurveyMetodiikka 2009 Seppo 57

( ) pp j 999

14.10.2009 57SurveyMetodiikka 2009 Seppo

Page 58: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

l i k k i kOtantamenetelmien kompakti kuvaus 1

Jos kehikosta poimitaan harkinnalla tai epäselvin periaattein osajoukko sitä on tapana kutsuaJos kehikosta poimitaan harkinnalla tai epäselvin periaattein osajoukko, sitä on tapana kutsua näytteeksi. Jos poiminnalle kyetään asettamaan todennäköisyysperiaatteisiin nojautuvat täsmälliset säännöt, voidaan käyttää nimikkeitä otos ja otanta. Tästä käytetään nimeä (a) Todennäköisyysotanta, jonka luonnollinen vastapooli on (b) Ei-Todennäköisyysotanta.

Vaihtoehto (a) siis vain voi tuottaa aidon otoksen. Mutta on myös niin, että harvoin otanta on puhtaasti (b):n mukainen, vaan tällöinkin osin käytetään (a):n oppeja. Puhdas (b) olisi harkintaotanta jolloin tutkija valitsee aineistoonsa sellaisia yksiköitä jotka ovat joltakin kannalta käyttökelpoisia, esimerkiksi että tulos saadaan sopivaksi tai että työ on helppo toteuttaa. Sellaiseen y p p y ppei kunnon tutkija alennu. Tavallisin osin molempia vaihtoehtoja hyödyntävä poimintamenetelmä on ns. kiintiöpoiminta (quota sampling), joka on yleinen markkinatutkimuksissa. Tämä menetelmä sinänsä ei ole ongelmallinen, vaan se, että kiintiöt täytetään korvaamalla kieltäytyjät ja kohtaamattomat toisilla samaan kiintiöön kuuluvilla.

On myös muita ei-todennäköisyysotantoja joita käytetään kun parempia vaihtoehtoja ei yksinkertaisesti ole mahdollista käyttää kohtuullisen ajan puitteissa. Tällaisia ovat mm.-adaptiivinen otanta- l i ll t tlumipallo-otanta- verkosto-otanta ja -vastaajapohjainen otanta.Huomaa että näillä kaikilla on yhtymäkohtia; nimierot johtuvat osin siitä että eri kehittäjät ovat antaneet ratkaisulleen oman nimen

14.10.2009 SurveyMetodiikka 2009 Seppo 58

antaneet ratkaisulleen oman nimen.

Page 59: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

l i k k i k

Muutama käsite seuraavan osan paremmin ymmärtämiseksi:

Otantamenetelmien kompakti kuvaus 2

Ryväs = laajempi tai suppeampi joukko yksiköitäEsim.: koulu jossa oppilaita, pienalue jossa asukkaita, kotitalous jossa sen jäseniä, osoite jossa asujia, yritys jossa työntekijöitä

Ensisijainen poimintayksikkö (primary sampling unit = psu): todennäköisyysperiaatteilla poimittava ensimmäinen asteen yksikkö kuten tutkimusyksikkö itse tai vaikkapa ryväs. Vastaavasti toissijainen poimintayksikkö jos on toisessa asteessa tai vaiheessa todennäköisyyspoiminta.

Sisältymistodennäköisyys: todennäköisyys jolla poimittava otosyksikkö sisältyy otokseen, on poimintatodennäköisyyden ja otoskoon tulo.

Apumuuttuja: otannan toteuttamisessa käytettävät muuttujat (psu tai muu alue, sukupuoli, ikäryhmä, l l ) k h d l ( d ll l ktoimiala, oppilaitostyyppi, �), sekä myöhemmin estimointia edistävät lisämuuttujat (edellisten lisäksi

rekistereistä, muista tutkimuksista, tilastoista jne saatavat tiedot). Muistanet nämä edeltäkin.

Seuraavaksi esitettävä otantamenetelmien kuvaus kumoaa sellaisten oppikirjojen tai vastaavien sanoman joita minullekin t rk tettiin tilastotieteen peruskurssilla eli otannan päämenetelmät ei ät olesanoman, joita minullekin tyrkytettiin tilastotieteen peruskurssilla eli otannan päämenetelmät eivät ole seuraavat:

Satunnaisotanta, Systemaattinen otanta, Ryväsotanta ja Ositettu otanta.

14.10.2009 SurveyMetodiikka 2009 Seppo 59

Page 60: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Ryppäistä lisää mutta asiaan palataan vieläRyppäistä lisää mutta asiaan palataan vieläRyväs voi siis olla erikokoinen jäsenten määrällä mitattuna. Toki jopa yhden jäsenen ryhmää voi kutsu ryppääksi yhtä hyvin kuin yhden hengen perhettä perheeksi (jotkut eivät hyväksi tätä kuten perhetilasto joka edellyttää vähintään kahden hengen ryhmää). Otannassa on selvä että yhden hengen talous tai yritys on tärkeä jos y g y y jnämä kuuluvat tavoiteperusjoukkoon. Muuten nämä jäisivät alipeittoon. Sekä otannan että tutkimuksen kannalta on hyvä ottaa huomioonSekä otannan että tutkimuksen kannalta on hyvä ottaa huomioon ryppäiden samanlaisuus vs. erilaisuus eli kuinka homogeenisia ryppäät ovat sisäisesti. Tätä mitataan tavallisesti ns. sisäkorrelaatiolla rho mikä yleisellä tasolla tarkoittaa suhdettasisäkorrelaatiolla rho, mikä yleisellä tasolla tarkoittaa suhdetta

ianssikokonaisianssivälinenryppäidenrho

varvar__=

On hyvä huomata että kokonaisvarianssi on sisäisen ja välisen varianssin summa.

ianssikokonais var_

14.10.2009 SurveyMetodiikka 2009 Seppo 60

Page 61: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Ryp

pitsellm

itäku

inn

äköjollo p

äitä kolesi m

itää m

uu

ttun

ka hom

ökulm

asoin

hom

o nkreetti

ä rypp

äiu

jia tästäm

ogeenisi

sta. Voit

ogeenisu isessa m

itä tässä ä löytyy ia n

ämä

jakaa ryu

us voi n m

uod

ossaon

ja msekä tie

ä ovat myp

päitä

nou

staki a. Selvitm

inkälais

etysti my

uu

ttujie

ositteisiin

.

ä sia eli yös esi iin

14.10.2009 SurveyMetodiikka 2009 Seppo 61

Page 62: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmien kompakti kuvaus 3

Todennäköisyysotannan perussäännöt esitetään soveltaen luovasti Kishin taksonomiaa, jonka periaatteet ilmenevät oheisesta taulukosta. Käytän tästä kokonaisuudesta nimikettä OTANTA-taulukosta. Käytän tästä kokonaisuudesta nimikettä OTANTAASETELMA (sampling design). Yleensä tämä käsite esitetään suppeampana. Idea on, että otantasuunnitelman laatijan tehtävänä on valita kustakin kohdasta jokin (mieluiten paras) vaihtoehtoon valita kustakin kohdasta jokin (mieluiten paras) vaihtoehto.

Otanta-asetelman osatekijä Vaihtoehtoja A. Kehikon luonne Kehikosta löytyy eksplisiittisesti jokin tutkimusyksikkö

tai vaihtoehtoisesti se löydetään implisiittisesti B. Poimintayksikön (otosyksikön) luonne

Poimittu yksikkö on suoraan keskeinen tutkimusyksikkö, tai poimitun yksikön kautta löydetään tutkimusyksikkö. Tässä on kaksi päävaihtoehtoa: poimitaan ryväs mutta tutkimusyksikkö on ryppään jäsen tai poimitaan ryppään jä tt t tki k ikkö äjäsen mutta tutkimusyksikkö on ryväs.

C. Asteisuus (stage) Kuvastaa hierarkiatasoja, joilla asteittain lähestytään varsinaisten tutkimusyksiköiden valintaa. Asteita voi olla useita, ehkä maksimissaan neljä.

D Vaiheisuus (phase) Poimittu otos käytetään sellaisenaan (yksivaiheinenD. Vaiheisuus (phase) Poimittu otos käytetään sellaisenaan (yksivaiheinen survey) tai tästä poimitaan uusi otos (kaksivaiheinen survey). Puhutaan myös osaotoksesta. Harvemmin useampia kuin kaksi vaihetta. Paneli on erikoistapaus tästä

14.10.2009 SurveyMetodiikka 2009 Seppo 62

tästä.

14.10.2009 62SurveyMetodiikka 2009 Seppo

Page 63: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmien kompakti kuvaus 4

E. Osittaminen (stratification) Otos poimitaan suoraan koko kehikosta tai sen kustakinosajoukosta riippumattomasti. Osajoukkoja kutsutaanositteiksi.

F O k ll k i i li kii iöi i Mi j li kii iöidää li ll k idF. Otoksen allokointi eli kiintiöinti Miten otos jaetaan eli kiintiöidään eli allokoidaanositteisiin. Ennen tätä on kokonaisotos määritelty.

G. Paneli vs. poikkileikkaustutkimus Ajallisesti peräkkäiset otokset voivat olla otosyksiköidenosalta enemmän tai vähemmän päällekkäisiä( l i ) ii j h i ii(overlapping rate), siis johtaa rotatointiin.

H. Poiminta-menetelmä Tapa miten tutkimusyksiköt lopulta valitaan.Perusvaihtoehdot ovat:- poimintatodennäköisyys on sama kaikille- poimintatodennäköisyys vaihtelee, mutta riippuujoistakin tunnetuista tekijöistä (muuttujista)

I. Vastauskadon ja muunpuuttuneisuuden ennakointi

Kun edellä olevat periaatteet on määritelty, mukaanlukien otoskokotavoite (sekä netto-otoskoko ettäefektiivinen otoskoko), on vielä selvitettävä, mitenrealistinen tämä on. Aina aineistoa jää puuttumaan muttasen määrä voidaan ennakoida aikaisemman kokemuksenmukaan. Vastaavasti edetään tavoiteotoskoosta brutto-otoskokoon, joka määritellään sekä koko aineistolle ettäsen osajoukoille.

14.10.2009 SurveyMetodiikka 2009 Seppo 6314.10.2009 63SurveyMetodiikka 2009 Seppo

Page 64: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 1

Otanta-aineistosta siis aina pyritään tuottamaan sekä piste-estimaattiettä väliestimaatti (tästä käytetään termejä: varianssiestimaatti, keskivirhe luottamusväli ja virhemarginaali) mahdollisimmankeskivirhe, luottamusväli ja virhemarginaali) mahdollisimman harhattomasti. Tässä vaiheessa meillä ei ole aineistossa puuttuvuutta vaan kaikki otokseen valitut saadaan estimointiin mukaan. Tällöin

i i k ä h h ki h l i j äi hävoisi uskoa että harhattomuuskin on helpompi saavuttaa, ja näinhän asianlaita onkin, edellyttäen että löytää harhattoman estimaattorinlaskemista auttamaan.

Unohdan hetkeksi myös kokonaan osituksen eli tarkastelemme asioita joko osittamattomassa aineistossa tai kussakin ositteessa jitsenäisesti. Ositetusta aineistostahan piste-estimaatit tuotetaan samoin kuin muustakin mutta varianssiestimaatti ositteiden varianssien summana (keskivirhe on varianssiestimaatin neliöjuuri)varianssien summana (keskivirhe on varianssiestimaatin neliöjuuri), mikä ei ole hetkessä tehty itse ohjelmoimalla. Onneksi sekä SAS:ssa että SPSS:ssä että Statassa on tällainen optio valmiina perustilanteisiin

14.10.2009 SurveyMetodiikka 2009 Seppo 64

perustilanteisiin.

14.10.2009 64SurveyMetodiikka 2009 Seppo

Page 65: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 2Jos lisäksi siirrymme katsomaan tilannetta joltakin asteelta tai vaiheesta, niin otanta on �teknisesti� hyvin yksinkertaista. Tarvitsemme kaksi asiaa:- poimintatodennäköisyyden pk, mikä määräytyy valitusta poimintamenetelmästä- halutun otoskoon n.halutun otoskoon n.Näiden pohjalta voimme muodostaa -ensimmäisen kertaluvun (yhden yksikön) sisältymistodennäköisyys π = n pkπk = n pk

Tämä tarkoittaa todennäköisyyttä että tutkimusyksikkö k sisältyy otokseen Jokaisen tavoiteperusjoukon jäsenelle olisi hyvä päteä:otokseen. Jokaisen tavoiteperusjoukon jäsenelle olisi hyvä päteä: πk >0. (mutta päteekö tämä käytännössä?)Väli- eli varianssiestimointia varten tarvitsemme lisäksi t d äköi d ttä k k i t tki k ikköä k j l htä ik i titodennäköisyyden että kaksi tutkimusyksikköä k ja l yhtäaikaisesti sisältyvät otokseen. On helppo nähdä, että jälkimmäinen on pienempi kuin edellinen. Tätä kutsutaan toisen kertaluvun (kahden yksikön)

14.10.2009 SurveyMetodiikka 2009 Seppo 65sisältymistodennäköisyydeksi.

14.10.2009 65SurveyMetodiikka 2009 Seppo

Page 66: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 3

Jos otanta-asetelmassa on useita asteita tai vaiheita, on kussakin niistä omat sisältymistodennäköisyydet ja kokonaissisältymistodennäköisyys

3

omat sisältymistodennäköisyydet ja kokonaissisältymistodennäköisyys saadaan näiden �agregaattina� mikä monessa asetelmassa on ensimmäisen kertaluvun osalta eri sisältymistodennäköisyyksien tulo ( li j i d äköi d ii i )(eli jos eri todennäköisyydet ovat riippumattomia).

Kun ensimmäisen kertaluvun sisältymistodennäköisyys on saatu aikaan, niin on yksinkertaista tuottaa seuraava keskeinen käsite kussakin ositteessa eli Asetelmapaino ak = 1/ πk (design weight)eli kyseessä on sisältymistodennäköisyyden käänteisluku. y y yyTämä taas tarkoittaa kuinka montaa yksikköä otostutkimusyksikkö kedustaa tutkimusperusjoukossa ja samalla tavoiteperusjoukossa (koska datassa ei oleteta olevan puutteita) käytännössä tämä koskeedatassa ei oleteta olevan puutteita), käytännössä tämä koskee bruttotason perusjoukkoa.

14.10.2009 SurveyMetodiikka 2009 Seppo 66

Page 67: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 4

Näin ollen aineiston käsittelijällä on käytössä otospaino jota voi käyttää painona analyysissä. Asetelmapainojen summa on tavoiteperusjoukon koko (tutkimusyksiköiden määrä) mikä ontavoiteperusjoukon koko (tutkimusyksiköiden määrä), mikä on luonteeltaan estimaatti.

Usein muodostetaan myös toisenlainen paino jota SuomessaUsein muodostetaan myös toisenlainen paino, jota Suomessa kutsutaan analyysipainoksi, jolloin kukin asetelmapaino jaetaan kaikkien painojen keskiarvolla, jolloin siis keskipaino = 1. Niiden

ii b tt t k ksumma on siis brutto-otoskoko.

ESS-datassa on juuri tämä paino, ei edellä esitettyä asetelmapainoa, mutta nimike on silti DWEIGHT (design weight), mutta periaatteessa ne ovat samat. Analyysipainot on kivempia aineiston tavallisessa käsittelyssä, kuten huomaamme myöhemmin. Huomaa y , yettä analyysipaino on hyvä muodostaa kaikille myöhemmin esille tuleville paremmille painoille myös ja ihan samalla tavalla. Niinpä jos se lasketaan netolle, niiden summa on vastaajien määrä.

14.10.2009 SurveyMetodiikka 2009 Seppo 67

jos se lasketaan netolle, niiden summa on vastaajien määrä.

14.10.2009 67SurveyMetodiikka 2009 Seppo

Page 68: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 5

Tyypillisiä esimerkkejä ensimmäisen kertaluvun sisältymistodennäköi-syyksistä eri poimintamenetelmillä (siis jossakin asteessa tai vaiheessa tai ositteessa):tai ositteessa):

1. Satunnaispoiminta Nn

Nnk == 1π

lk1=π2. Yksinkertainen tasavälipoiminta

Jolloin l = poimintaväli, mikä johtaa samannäköiseen laskulausekkeeseen kuin satunnaispoiminnalla, mutta symboli on eri.

mnk=π

3. Satunnaispoiminta siten että tutkimusyksikkö on ryväs ja poimintayksikkö (kehikkoyksikkö) ryppään jäsen

Nk=πryppään jäsen.

Nyt mk tarkoittaa otosyksikön k ympärille muodostuneen ryppään kokoa sillä tavalla kuin tämä informaatio löytyy kehikosta

14.10.2009 SurveyMetodiikka 2009 Seppo 68

tavalla kuin tämä informaatio löytyy kehikosta.

14.10.2009 68SurveyMetodiikka 2009 Seppo

Page 69: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 6Edellisen sivun kaavassa kaikkien ryppäiden (niille voidaan asettaa kaavaan oma alaindeksikin) jäsenten yhteismäärä = N. Kussakin ryppäässä voi olla hyvinkin erilainen määrä jäseniä. Suomen kotitaloustiedusteluissa tämä y jpoiminta on ositteiden sisällä yleinen koska jäsen on helppo poimia väestörekisteristä ja tämän jälkeen katsoa muiden tietojen perusteella keitä muita asuu samassa osoitteessa ja missä suhteessa nämä ovat poimitun j pjäsenen kanssa. Tosiasiassa kaikki rekisterin mukaiset jäsenet eivät enää asu samassa paikassa ja siksi vastaajien osalta tehdään tarpeellinen korjaus. Vastaamattomien osalta tämä on vaikeampi tehdä. pKiinnostava kysymys tässä ratkaisussa on myös se, että poimituksi voi tulla useampikin jäsen samasta ryppäästä (taloudesta) jollei käytetä aidosti otantaa ilman takaisinpainoa eli tavallaan sama ryväs tulisi tutkimukseen p yuseamman kerran. Tästä seuraa pientä harhaa kun ryväs otetaan mukaan vain kerran. Uhritutkimuksessa tuli otokseen muutamia otoshenkilöitä samastaUhritutkimuksessa tuli otokseen muutamia otoshenkilöitä samasta taloudesta. Tilastokeskuksen linjana oli hyväksyä vain yksi heistä puhelintiedustelussa (netissä otettiin kaikki mukaan); siksi kahdesta avioparista yksi jäsen poistettiin satunnaisesti..

14.10.2009 SurveyMetodiikka 2009 Seppo 69

avioparista yksi jäsen poistettiin satunnaisesti..

14.10.2009 69SurveyMetodiikka 2009 Seppo

Page 70: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 6

n

4. Satunnaispoiminta siten että poimintayksikkö on ryväs ja tutkimusyksikkö on ryppään jäsen.

Nmn

kk

Tä ä äi t i d lli ähd Pi ä ää jäTämä on päinvastainen edelliseen nähden. Pienemmän ryppään jäsen tulee suuremmalla todennäköisyydellä tutkimusyksiköksi kuin suuremman ryppään jäsen. Monessa käytännön tilanteessa tämä poiminta ei tapahdu yhdessä asteessa vaan ensin on yksinkertainen satunnaispoiminta eli n/N ja sitten jäsenen poiminta ryppään sisältä. Tästä on ESS-esimerkki pian. p

14.10.2009 SurveyMetodiikka 2009 Seppo 7014.10.2009 70SurveyMetodiikka 2009 Seppo

Page 71: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 6

P t k i i ll

∑=

U k

kk x

nxπ5. Pps takaisinpanolla

Tässä xk viittaa kokomuuttujaan (voi koostua useiden muuttujien koonnelmasta). Sen olisi hyvä olla korreloitunut tärkeimpien y-) y p ymuuttujien kanssa. Summa nimittäjässä lasketaan koko perusjoukon U yli. Käytännössä perusjoukkona on luonnollisestikin viimeisin kehikko yksilötasolla.yksilötasolla.Tämän voi tulkita myös yleistykseksi kahdesta edellisestä kaavasta mutta niissä on kuitenkin perustavoitteena ollut otanta ilman takaisinpanoa mutta tässä siis takaisinpainolla Katso lisää seuraavalta sivultamutta tässä siis takaisinpainolla. Katso lisää seuraavalta sivulta.

14.10.2009 SurveyMetodiikka 2009 Seppo 7114.10.2009 71SurveyMetodiikka 2009 Seppo

Page 72: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 7

Ammattilaiset kutsuvat pps:ää ilman takaisinpanoa πps :ksi(lausutaan suomeksi pii-pee-es) ( p p )

Tämä on teknisesti hankalampi toteuttaa koska edellisen sivunkaava tehdään aina uudelleen kunkin poiminnan jälkeen.kaava tehdään aina uudelleen kunkin poiminnan jälkeen.Tavallinen pps, siis takaisinpanolla, on helppo toteuttaa esimerkiksi asettamalla kehikon jäsenet suuruusjärjestykseen [0,1] janalle tai vastaavalle prosenttijanalle siten että kunkin kehikkoyksikön osuusvastaavalle prosenttijanalle siten että kunkin kehikkoyksikön osuus janalla on koon mukainen. Nyt voidaan soveltaa tasavälipoimintaa aloittamalla sopivasta satunnaiskohdasta janalla ja käymällä koko j lä i J k hikk k ikö k k iittä ä i (t tki itjana läpi. Jos kehikkoyksikön koko on riittävän suuri (tutki miten suuri?), niin sen sisältymistodennäköisyys on suurempi kuin yksi ja yksikkö voi tulla valituksi kaksikin kertaa otokseen. Miten selvittäisit tällaisen ongelman jollet siirry ilman takaisinpanoa -menetelmään?

14.10.2009 SurveyMetodiikka 2009 Seppo 7214.10.2009 72SurveyMetodiikka 2009 Seppo

Page 73: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 8

Kuten todettu, kaikkiin kaavoihin voidaan lisätä osite h = 1,�, H jossaH on ositteiden määrä. Tee tällainen lisäys johonkin kaavaan.

Toisaalta useampiasteisessa ja �vaiheisessa otannassa sisältymistoden-näköisyyksiä on peräkkäin useampi, jotka riippumattomassa tilan-teessa kerrotaan keskenään jotta saataisiin ensimmäisen kertaluvunteessa kerrotaan keskenään jotta saataisiin ensimmäisen kertaluvunkokonaissisältymistodennäköisyys. Esimerkki:

t t k i i ll j ll i lit i ij i i i i t1. aste pps takaisinpanolla, jolloin valitaan ensisijaisia poiminta-yksiköitä psu riittävä määrä n1.

Jos merkitään j:llä psu-ita, xnniin saadaan (summa nimittäjässä yli kaikkien kehikon psu:uiden): ∑

=U j

j

x

xn1

U j

14.10.2009 SurveyMetodiikka 2009 Seppo 7314.10.2009 73SurveyMetodiikka 2009 Seppo

Page 74: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 9

ESS:ssä ensimmäisen asteen ryppäät (ositteiden sisällä) ovat ovat usein pienalueita, joita pitäisi olla ainakin 100.PISA:ssa psu on koulu joita edellytetään olevan minimissäänPISA:ssa psu on koulu, joita edellytetään olevan minimissään 150, ehdoton vaatimus). Kokomuuttujan x kuuluu olla yhteydessä tavoiteperusjoukon kokoon, mieluiten koskea sen jä iä k ki Pi iä ik k i kä ä ö ä k kjäseniä kussakin psu:ssa. Pieniä vaikeuksia on käytännössä koska vastaavaa tilastotietoa ei aina luotettavana saada. Niinpä ESS:ssä psu-tason kokotiedot (15+ -ikäisten määrät) voivat olla hieman vanhoja ja joskus koskevat hieman eri ikäluokkia kuten 18+ -ikäisiä. PISA:ssakin on varmasti hieman karkeata tietoa monissa maissa PISA-ikäisten koululaisten määristä. Koska nyt valitaan yvasta psu:t, ei pieni karkeustaso ole ratkaisevaa kokonaislaadun kannalta. Psu-koot voivat vaihdella surveystä toiseen, joskus liikaakin mikä haittaa otannan hyvää poimintaa Huonoliikaakin mikä haittaa otannan hyvää poimintaa. Huono esimerkki ESS:ssä on ollut Saksa jossa isoimmissa psu:issa on ollut pari miljoonaa, pienimmissä muutama sata 15+ -ikäistä. Tällöin pps ei toimi kunnnolla

14.10.2009 SurveyMetodiikka 2009 Seppo 74

Tällöin pps ei toimi kunnnolla.

Page 75: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 10

Historiatutkimuksessa psu:t ovat suoraan tutkimusyksiköitä eli 15-79 � vuotiaita. Tässä tutkimuksessa muodostettiin neljä ositetta siten että muuttujina olivat suomenkieliset Fi jaositetta siten että muuttujina olivat suomenkieliset = Fi ja ruotsinkieliset = Se sekä alle 25 �vuotiaat = Young ja sen iän täyttäneet. Ohessa Excel-tiedosto josta ilmenevät perustiedot. S l i ä i ä iki k i j i i ikä i i ll llSelvitä mitä mikin tarkoittaa ja mieti mikä voisi olla ollut tavoitteena otoksen allokoinnissa = kiintiöinnissä eli sovitun kokonaisotoskoon =3430 jakamisessa ositteisiin.

Historiatietoisuus Suomessa, brutto-otosVäestö Väestö Suhteellinen

Brutto-Osite määrä suhteet otoskoko

Bruttootoskoko Suhteessa

Fi_Other 3185530 78,2 2682,26 2 160 0,629738

Fi_Young 665868 16,35 560,805 655 0,190962

Se_Other 182810 4,49 154,007 470 0,137026

Se_Young 39423 0,9 30,87 145 0,042274

14.10.2009 SurveyMetodiikka 2009 Seppo 754073631 3430 3430 1

Page 76: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 11Tässä on tämänhetkisen otantatiedoston osa. Jatkossahan otantatiedostoTässä on tämänhetkisen otantatiedoston osa. Jatkossahan otantatiedosto laajenee kun tiedetään ketä vastaavat, ketkä ovat ylipeittoa ym. Myös uusia X-muuttujia lisätään. Ehdota mitä voisi?

14.10.2009 SurveyMetodiikka 2009 Seppo 76

Page 77: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 12

Uhritutkimukseen laitoin tarkoituksella ryppäitä psu:iksi jotta samalla voitaisiin tutkia sitä onko uhriksi joutumisessa lähialuepiirteitä eli kasautuuko uhriutuminen Psu:ita kehitinlähialuepiirteitä eli kasautuuko uhriutuminen. Psu:ita kehitin kuntien ja postinumeroiden avulla noin 450 joista pps:llä poimin tasan sata otokseen (mukava luku). Psu:iden minimikooksi

i i j i li i Näilläasetin noin 1000 ja suurimmat olivat noin 35000. Näillä ehdoilla ei mikään psu tullut kahta kertaa otokseen (aluksi minulla oli liian suuria eikä SAS suostunut tekemään poimintaa, koska sisältymistodennäköisyyden täytyy olla loogisestikin alle yksi). Seuraavalla sivulla tilannetta valaisevia tuloksia. Tässä SAS-ohjelma jossa ositteet ovat neljä aluetta. j j j

proc sort data=psu2; by strata2;proc surveyselect data= psu2 out=otos_psu

seed=5191seed=5191method=pps

sampsize=(19 16 45 20); size Popu_psu; where strata2 ne ' ';by strata2;

run;

14.10.2009 SurveyMetodiikka 2009 Seppo 77

Page 78: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tässä on huvin vuoksi tehty edellisen sivun ohjelman dataan yksi osite lisää Katsopa virheilmoituksia ja opi niistä

ERROR: The sample size, 19, is larger than the number of sampling units, 1.

yksi osite lisää. Katsopa virheilmoituksia ja opi niistä.

NOTE: The above message was for the following stratum: strata2=�Koe '.ERROR: For METHOD=PPS, the relative size of each sampling unit must not exceed (1/SAMPSIZE).( )NOTE: The above message was for the following stratum: strata2=KaupPo.ERROR: The number of values listed for SAMPSIZE= must equal the number of strata There are more strata than SAMPSIZE= valuesnumber of strata. There are more strata than SAMPSIZE values.NOTE: The SAS System stopped processing this step because of errors.WARNING: The data set WORK.OTOS_PSU may be incomplete. When this step was stopped there were 36 observations and 6 variablesthis step was stopped there were 36 observations and 6 variables.WARNING: Data set WORK.OTOS_PSU was not replaced because this step was stopped.

14.10.2009 SurveyMetodiikka 2009 Seppo 78

Page 79: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

UhritutkimuksenUhritutkimuksen 2009ensimmäisen asteeni l isisältymisto-

dennäköisyyksien jakauma

14.10.2009 SurveyMetodiikka 2009 Seppo 79

Page 80: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 11

2. aste Satunnaispoiminta siten että poimintayksikkö on suoraan tai epäsuorasti poimittu haluttu tutkimusyksikkö.

2

22 N

n=π

2

Tässä n2 on tässä vaiheessa sopivaksi määritelty otoskoko. N2 on siis psu:n kiinnostuksen alaisten tutkimusyksiköiden lukumäärä. PISA:ssa tässä asteessa valitaan siis itse oppilaat (joskus voi ollaPISA:ssa tässä asteessa valitaan siis itse oppilaat (joskus voi olla vielä jokin muu valinta ensin jos koulu on iso ja hajallaan). Heitä poimitaan maksimissaan 35. Tämän kokoisista ja

i i ä k l i ii li k ikkipienemmistä kouluista siis valitaan kaikki. ESS:ssä on muutamissa maissa suoraan psu:n sisältä 15+ -ikäisen henkilön poiminta satunnaisesti, mutta monissa muissa valitaan ensin kotitalous tai osoite ja sitten sovelias tutkimushenkilö (esim. viimeisimmäksi syntymäpäivää viettänyt).

14.10.2009 SurveyMetodiikka 2009 Seppo 8014.10.2009 80SurveyMetodiikka 2009 Seppo

Page 81: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 12

1-2. asteJos molempien asteiden sisältymistodennäköisyys otetaan huomioon

d ii k ki t l L k it itä t l j it i ti l itäsaadaan siis kummankin tulo. Laske itse mitä tulee ja erityisesti selvitä itsellesi mikä on lopputulos, jos N2 on sama kuin 1. asteessa esillä ollut kokomuuttuja siinä tapauksesssa että n2 on vakio, kuten on hyvin usein tapana tehdä. Näet kiintoisasti että sisältymistodennäköisyys on vakio kussakin ositteessa ja voi olla kaikissakin ositteissa jos niissä on kaikissa samat poimintasuhteet ja muut poimintaehdot. Tästä siis p j pseuraa että asetelmapainot ovat yhtä suuria, siis brutto-otokselle. Vastauskato toki käytännössä muuttaa tilannetta.

Uhritutkimuksessakin tähtäsin siihen että tuo etu säilyisi mahdollisimman pitkälle eli kustakin alueryppäästä valittiin lähes sama määrä henkilöitä (keskimäärin 78) Kuitenkin otin hiemansama määrä henkilöitä (keskimäärin 78). Kuitenkin otin hieman enemmän alueilta joissa on odotettavissa suurempi vastauskato ja vastaavasti vähensin muista. Saa nähdä kuinka lähellä toisiaan ovat netto otoskoot r ppäissä14.10.2009 SurveyMetodiikka 2009 Seppo 81

netto-otoskoot ryppäissä.14.10.2009 81SurveyMetodiikka 2009 Seppo

Page 82: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 13

Jos 2. asteessa valitaan kotitaloudet ja ne ovat myös tutkimusyksiköitä, d lli llä i ll l il ( h ä i äl i d äköi dedellisellä sivulla oleva tilanne (yhtä suuret sisältymistodennäköisyydet

ja asetelmapainot) ei päde, ellei 1. asteessa painomuuttujana ole myös kotitalouksien määrä. Mieti tilannetta Irakin kuolleiuustutkimuksen kannalta jossa oli sellainen tilanne. Usein tarvitaan siis 3. aste jossa satunnaispoiminta toteutetaan edellisen asteen yksikön sisällä. Jos valitaan vain yksi kuten ESS:ssä, y y ,niin saadaan (mk= kehikkoon kuuluvien tavoiteperusjoukon jäsenten määrä 2. asteen otokseen tulleessa yksikössä) 1=π

km3

π

Tyypillinen tilanne ESS:ssä on että 2. asteessa on poimittuTyypillinen tilanne ESS:ssä on että 2. asteessa on poimittu otokseen osoite tai kotitalous jossa on mk 15+ -vuotiasta (huom. ei siis talouden jäsentä). Koska vain yksi heistä otetaan haastateltavaksi suoritetaan satunnaispoiminta

14.10.2009 SurveyMetodiikka 2009 Seppo 82

haastateltavaksi, suoritetaan satunnaispoiminta.

14.10.2009 82SurveyMetodiikka 2009 Seppo

Page 83: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Tekniikkaa 14

Edellä esitetyt kaavat ovat siis brutto-otokselle jota olen koko otostasolla merkinnyt n:llä, vastaavasti vaikka ositteissa nh :lla. Kun kaikki eivät y h

vastaa, niin tämä määrä pienenee. Olen merkinnyt vastanneiden määriä r:llä, koskien siis yksikkötason vastanneita (kuten kerroin ESS4:ssa Norjan arkisto joka tarkistaa saamiaan datoja, oli siirtänyt muutamiaNorjan arkisto joka tarkistaa saamiaan datoja, oli siirtänyt muutamia vastaajia vastaamattomien ryhmään koska vastausten laatutaso oli huono; näin voidaan tehdä). Jatkan samalla linjalla. On tarpeen muodostaa edellä esitetyt kaavat tältä pohjalta uudelleenOn tarpeen muodostaa edellä esitetyt kaavat tältä pohjalta uudelleen koskemaan vastaajia. Tee tämänmukaiset muunnokset kaavoihin. Älä kuitenkaan ihan suoraviivaisesti vaan mieti missä se on tarpeen, missä taas ei älttämättätaas ei välttämättä.Tuloksena sinulla on myös uusi otospaino jota kutsun peruspainoksi. Sen idea on sama kuin asetelmapainon siten vastaajat eivät poikkea vastaamattomista eli vastaamattomuus on satunnaista ja että �otoskoko� on pienempi. Myöhemmin teemme parempia painoja.

14.10.2009 SurveyMetodiikka 2009 Seppo 8314.10.2009 83SurveyMetodiikka 2009 Seppo

Page 84: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 1y y

Jo edeltä on käynyt ilmi että ositus ja psu voivat sotkeutua mielissä. Molemmathan kattavat (tai niiden tulisi kattaa) koko tavoiteperusjoukon (tietysti kehikon kautta). Ero näissä on siinä, että ositteet valitaan otokseen 100%:sti eli ositteet jakavat perusjoukon osiin, joiden sisältä siis poimitaan otosyksiköt. Psu:ita sen sijaan valitaan allejoiden sisältä siis poimitaan otosyksiköt. Psu:ita sen sijaan valitaan alle 100%:sti, mutta siis yli 0%:sti. Jos psu valitaan 100%:sti, kyse on siis myös ositteesta. Käytännön ratkaisu tilanteessa jolloin sisältymistodennäköisyys psu:lle on 100% tai yli on jokosisältymistodennäköisyys psu:lle on 100% tai yli, on joko-pienentää tällaisen psu:n kokoa sopivalla jaolla tai-muodostaa tästä psu:sta osite.

14.10.2009 SurveyMetodiikka 2009 Seppo 8414.10.2009 84SurveyMetodiikka 2009 Seppo

Page 85: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 2y y

Osittaminen on hyvin yleinen tapa otannassa ja on myös hyödyllinen hyvin toteutettuna. Itse olen jopa sitä mieltä, että aina jokin ositus y j p jon tarpeen. Tässä mielessä olen vastustanut ainakin Suomen, Ruotsin, Viron, Tanskan ja Norjan ESS:ssä käyttämää yksinkertaista satunnaisotantaa mikä ei useimmissa maissa olisi mahdollistakaan.satunnaisotantaa mikä ei useimmissa maissa olisi mahdollistakaan. Rekisterien avulla tehtävä onnistuu teknisesti toki. Tässä strategiassa ei ajatella kenttätyön jälkeiseen aikaan asti sillä vastaaminen vaihtelee tosiasiassa huomattavasti kaikissa näissävastaaminen vaihtelee tosiasiassa huomattavasti kaikissa näissä maissa, ja sitä voidaan myös tutkia taustamuuttujittain. Jos taustamuuttuja voidaan asettaa ositteeksi, voidaan brutto-otoskokoa allokoida m ös odotetta issa ole an astaamisen m kaan Siis ottaaallokoida myös odotettavissa olevan vastaamisen mukaan. Siis ottaa suhteellisesti isompi otos ositteesta jossa odotetaan isompaa vastauskatoa. Tämä on ollut yksi tekijä uhri- ja historiatutkimuksen

ll k i i i i li i kijä liiallokoinnissa, muttei ainoa eli toinen tekijä on liittynyt tutkimustavoitteisiin.

14.10.2009 SurveyMetodiikka 2009 Seppo 8514.10.2009 85SurveyMetodiikka 2009 Seppo

Page 86: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 3y y

Otannan suunnitteluvaiheessa ryvästyminen otetaan huomioon ryvästymisestä johtuvalla otanta-asetelmakertoimella jonka Leslie y y j jKish kehitti 1960-luvulla:

DEFFc = 1+ (b-1)rhoDEFFc 1 (b 1)rho

jossa b = keskimääräinen nettoryväskoko. Jos sisäkorrelaatio on nolla kerroin =1 mutta mitä isompi se on eliJos sisäkorrelaatio on nolla, kerroin =1 mutta mitä isompi se on eli mitä homogeenisempia ryppäät eli psu:t ovat, sitä isompi on DEFFc. Toisaalta havaitset että jos DEFFc pienee keskiryväskoon pienetessä. ESS ssä nämä aihtele at melko paljon br ttotasolla noin 6 staESS:ssä nämä vaihtelevat melko paljon, bruttotasolla noin 6:sta 25:een. Jos ja kun psu-ryväs on pienalue, on käyntihaastattelu halvahkoa tehdä tällä tasolla. PISA:ssa ei kovin pieniä ryppäitä h l k k i j h l li i h i k llii i i ähaluttu, koska tentit ja haastattelut olisivat hyvin kalliita pienissä ryhmissä. Tämä toisaalta siis nostaa DEFFc:n arvoa.

14.10.2009 SurveyMetodiikka 2009 Seppo 8614.10.2009 86SurveyMetodiikka 2009 Seppo

Page 87: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Syrjähyppy:y j yppyEdellisen sivun kaavan kanssa samanhenkinen kaava saadaan haastattelijavaikutuksen mittaamiseen:

DEFF(haast) = 1+ (b-1)rho

Tä ä b k ki ää äi h l j ää ä h lijTässä b = keskimääräinen haastattelujen määrä per haastattelijaja rho analogisesti kuten edellä eli

i iäliij idh t tt l

Ti i ä äki j k h i li ih l

ianssikokonaisianssivälinenijoidenhaastattelrho

var_var__=

Tietysti tämäkin on muuttujakohtainen eli vaihtelee kysymyksestä toiseen. Aihe on kiinnostava jatkotutkittavaksi. Huomaa että haastattelija käyntihaastatteluissa toimii usein saman psu:n alueella joten ei ole suoraan eroteltavissa, onko kyseessä alueellinen vai haastattelijasta johtuva vaikutus.

14.10.2009 SurveyMetodiikka 2009 Seppo 87

j j

Page 88: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 4Toinen tekijä joka vaikuttaa otoskokoon ovat otospainot OhessaToinen tekijä joka vaikuttaa otoskokoon ovat otospainot. Ohessa on kaava jonka Kish esitti ja jota ESS:n otantaryhmä on käyt-tänyt arvioidessaan painojen vaihtelun vaikutusta tarvittavaan

t k k Nä t ttä tä ä tii i iitä ik totoskokoon. Näet että tämä vaatii arvion siitä moniko vastaa sekä arvioidun laskelman painoista wk (tuossa kaavamuodossa painot on skaalattu siten että keskiarvo = 1). Tätä sovelletaan tavallisimman edellä esitetyssä asteessa 3 jolloin kotitalouden tai osoitteen sisältä valitaan yksi vastaajakandidaatti ja on selvä että vastaava paino vaihtelee sen mukaan montako 15+ -ikäistä on

∑= k

2kk wr

rDEFFp

pkoska sisältymis-todennäköisyys vaihtelee 1:stä (yksi henkilö ryppäässä), 0,50:een (kaksi henkilöä), jne.Minkä luulet olevan maksimin?

∑=

kkk )wr(

rDEFFp2

Minkä luulet olevan maksimin?Kaavan karkeampi ja helpomminlaskettava versio on seuraava:DEFFp = 1 + cv(w)2 missä cv(w) = painon vaihtelukerroinDEFFp = 1 + cv(w) missä cv(w) = painon vaihtelukerroinTässä paino voi olla skaalattu tai skaalaamaton kuten tiedät. Esimerkiksi Portugalin ESS2:ssa 3. asteessa = jäsentä valittaessa DEFFp 1 2414.10.2009 SurveyMetodiikka 2009 Seppo 88

valittaessa DEFFp = 1.24.

Page 89: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 5Otantamenetelmät Täydennystä 5

KokonaisDEFF = DEFFc*DEFFpTässä on taulukko ESS:n eräistä maista:Tässä on taulukko ESS:n eräistä maista:

Country DEFFc DEFFp DEFF

Table 2: Estimation of design effects for countries participating in both rounds

AT 1.61 1.24 2.01

BE 1.22 1 1.22

CH 1.27 1.21 1.54

CZ 1.28 1.25 1.61

DE 2.03 1.11 2.26

ES 1.60 1.22 1.95

FR 1 34 1 23 1 65FR 1.34 1.23 1.65

GB 1.40 1.22 1.69

HU 1.36 1 1.36

NL 1 1.19 1.19

NO 1.41 1.43 2.03

PL 1.32 1.02 1.35

PT 1.57 1.83 2.88

14.10.2009 SurveyMetodiikka 2009 Seppo 89SI 1.33 1 1.33

Page 90: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 6

DEFF- kertoimella on suora yhteys tarvittavaan otoskokoon sillä kertoimen taustalla on ajatus verrata tätä varianssiestimaattia yksinkertaisella satunnaispoiminnalla saatuun vastaavaanyksinkertaisella satunnaispoiminnalla saatuun vastaavaan varianssiestimaattiin missä ei siis ole ryppäitä eli DEFFc = 1 = DEFFp. T i l i i h ii bToisaalta varianssit ovat suorassa suhteessa vastaaviin brutto-otoskoihin (jonka opit varmemmin vaikkapa otantakurssilla). Eli tämä kerroin auttaa sopivan brutto-otoskoon määrittelyssä. Siksi DEFF:n hyvä etukäteisarvio helpottaa oikean otoskoon määrittelyssä. On syytä huomauttaa, että tämä on muuttujakohtainen. ESS:ssä on otantaryhmä tuottanut edellisiltä j ykierroksilta laskelmia runsaasta kymmenestä muuttujasta joiden mediaania on pidetty lähtökohtana seuraavan kierroksen otannassa.

Kun aineisto on siis valmis, lasketaan myös DEFF-kertoimia. Ne havainnollistavat otanta-asetelman monimutkaisuuden vaikutusta.

14.10.2009 SurveyMetodiikka 2009 Seppo 90

Page 91: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 7Yhteenvetona brutto-otoskoon määräämisestä saamme seuraavanYhteenvetona brutto otoskoon määräämisestä saamme seuraavan taulukon tilanteessa jossa tavoitteellinen efektiivinen otoskoko on määritelty kuten ESS:ssä. Tämä on koko joka vastaa yksinkertaisen satunnaispoiminnan otoskokoa (mitä metodia ei sinänsä kannata

Toiminto Esimerkkilaskelma

satunnaispoiminnan otoskokoa (mitä metodia ei sinänsä kannata käyttää mutta se on hyvä vertailuun).

1. Efektiivisen otoskoon tavoite (neff) 15002. Odotettu puuttuneisuus johtuen vastauskadosta 30%

eli 1500/.7 = 21433. Odotettu puuttuneisuus johtuen ylipeitosta 5% eli

2143/.95 = 22564. Odotettu ryväsvaikutus sisältäen ennusteen sisä-k l ti t j d t t t t id ää ä tä

DEFFc = 1+(5.3-1)*.025 = 1.112256*1 11 2498korrelaatiosta ja odotetusta vastanneiden määrästä

ryppäässä2256*1.11= 2498

5. Odotettu asetelmavaikutus johtuen eri suuristalopullisista sisältymistodennäköisyyksistä

DEFFp = 1.252498*1 25 = 3123lopullisista sisältymistodennäköisyyksistä 2498 1.25 3123

6. Riskitekijöiden huomioon otto > brutto-otosOdotettu netto-otoskoko

32002128

Laske ryppään bruttokoko

14.10.2009 SurveyMetodiikka 2009 Seppo 91

Laske ryppään bruttokoko.

14.10.2009 91SurveyMetodiikka 2009 Seppo

Page 92: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 8Otantamenetelmät - Täydennystä 8Edellisessä tilanteessa oli siis jo määritelty efektiivisen otoskoon tavoite mutta aina ei ole näin. Silloin on muuta kautta mietittävä

ikä li i ä ä i lli k k K ähä li ää DEFFmikä olisi tämä tavoitteellinen koko. Kun tähän lisää DEFF-tekijät ja puuttuneisuusarviot saadaan brutto-koko. Seuraavaksi esitän muutamia näkökohtia otoskoon määrittämiseksi:

(i) Tavoiteperusjoukon suuruus: pienemmässä riittää pienempi otoskoko saman tarkkuustavoitteen saavuttamiseen. Tämä on yhteydessä ns. äärellisen perusjoukon korjaustekijään, mikä onmuotoa f = (N-n)/N. Tätä tutkimalla havaitset että kun tavoiteperusjoukko kasvaa riittävän isoksi, sanotaan vaikkapa sadoiksi tuhansiksi, ei tällä ole varsinaista merkitystä. Niinpä Kiinan ja Suomen väestölle samansuuruinen otoskoko kelpaa saman tarkkuuden saavuttamiseksi edellyttäen että kaikki muut tekijät ovat pätevät eli lopullinen otos on aidosti todennäköisyysperiaatteisiin pohjautuva. Otanta-asetelman ei tarvitse olla sama.

(ii) Tarkkuustavoite mikä mainittiin jo edellisessä kohdassa. Tämä on helppo, jos surveyssä on yksi mittauskohde eli parametri. Tällöin siis jos asiakas tietää kuinka tarkasti hänen tulisi

estimaattinsa saada, niin otannan asiantuntija voi laskea hänelle oikean otoskoon. Näin ei juuri koskaan ole vaan surveyssä on iso määrä estimoitavia parametrejä (kysymyksiä lomakkeessa) ja estimointien tarkkuus mitä todennäköisimmin vaihtelee, jopa selvästi. Tilanne on helpompi, jos asiakkaalla olisi jokin päämuuttuja ja -estimaatti josta on kiinnostunut, kuten on melko usein yrityssurveyssä, mutta ei henkilösurveyssä

14.10.2009 Kyselytutkimuksen Metodiikkaa 2009 Seppo

92

Page 93: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät Täydennystä 9Otantamenetelmät - Täydennystä 9

(iii) Budjetti on usein määräävä tekijä. Tavoite on tällöin toimia sen puitteissa mahdollisimman hyvin. Näin finanssikriisin aikaan esitetään vaatimuksia kulujen ää tä i k i j t k ( f ktii i ) i tä i k i k i O ö h äsäästämiseksi ja otoskoon (efektiivisen) pienentäminen on yksi keino. On myös hyvä

huomata että hyvän aputiedon hyvällä käytöllä voidaan otoskokoa laskea saman tarkkuuden saavuttamiseksi. Harva tutkija tämän noteeraa. On hyvä huomata, että jos budjetti on liian pieni riittävän tarkkuuden saavuttamiseksi, on turha kuluttaa rahaa huonon tutkimuksen tekoon ollenkaanhuonon tutkimuksen tekoon ollenkaan.

(iv) Aikataulut on myös otettava huomioon. Jos tulos halutaan nopeasti, ei voitane päästä samaan tarkkuuteen kuin tilanteissa joissa kenttätyöhön on aikaa runsaasti (ESS:ssä pääsääntöisesti 3 kk) Pikatutkimuksissa joita mediassa usein esitetään(ESS:ssä pääsääntöisesti 3 kk). Pikatutkimuksissa, joita mediassa usein esitetään, harha voi olla huomattavakin vaikka toiminnot olisikin tehty huolella. Sen suuruuden arviointi on myös hankala.

14.10.2009 Kyselytutkimuksen Metodiikkaa 2009 Seppo

93

Page 94: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otantamenetelmät - Täydennystä 10

(v) Minimiotoskoosta: moni kyselijä haluaa tietää mikä olisi minimiotoskoko. Tämä on ymmärrettävää. Kuten edeltä käy ilmi yksiselitteinen vastaus on mahdoton antaa mutta aikaisempien surveyden kokemusta voi toki ja pitää hyödyntää. Jos löytyy samantapainen toinen survey, on mahdollista j p y y y yy p y,arvioida tarkkuudet yms. ja antaa kyselijälle vastaus tyyliin:- Jos haluat pääpiirteittäisiä tuloksia, ehkäpä 150-200 vastaajaa voisi riittää olettaen että teet kaiken mitä mainioimmin eikä vastauskato ole suuri tai ei ainakaan tuloksia harhauttava. Kun sinulla on aineisto mutta estimaattiesi tarkkuus ei riitä, voithan jatkaa otosta. Tällainen otos on paras poimia heti alussa varastoon ja satunnaisjärjestykseen ettei synny jotain systemaattista harhaa.-Jos ajattelet tutkimustasi pilottina, myös tuollainen 100-300 riittää moneen tarkoitukseen eli saat alustavia tuloksia ja oppia kunnon surveyn tekemiseksi ml. otannan toteuttamiseksi.

( i) E ä kä tä ö t t i Ai i t kä ttäjällä i l ä it i k k t it j kk ö(vi) Eräs käytännön strategia: Aineiston käyttäjällä on mielessä paitsi koko tavoiteperusjoukkoon myös sen osiin liittyviä tarpeita (ihmistiedusteluissa koskien väestöryhmiä kuten ikäryhmittäin ja sukupuolittain, yritystiedusteluissa toimialoittain ja kokoryhmittäin). Koska kustakin osaryhmästä olisi hyvä saada riittävän suuri otos eli riittävä tarkkuus, niin kuhunkin liittyy minimiotos. Jos vaikkapa ehdoton vastanneiden määrä pitäisi olla 30 (bruttona vaikkapa 45) niin 5 ikäryhmän tulostenehdoton vastanneiden määrä pitäisi olla 30 (bruttona vaikkapa 45), niin 5 ikäryhmän tulosten estimointiin riittäisi 150 vastaajaa (bruttona 225), jos kaikista ikäryhmistä olisi samansuuruinen otos. Käytännössä näin ei ole ellei ole hyvä ositus. Vastaavasti muissa yksiulotteisissa tulostustarpeissa pärjättäisiin kohtuudella, myös sukupuolittain. MUTTA: kaksiulotteisiin, kuten sukupuolen jaikäryhmän mukaan, tämä ei riitä. Otoskokoa pitäisi kasvattaa. Useampiulotteissa, monimuuttuja-ikäryhmän mukaan, tämä ei riitä. Otoskokoa pitäisi kasvattaa. Useampiulotteissa, monimuuttujaanalyyseissä, aineisto loppuu vielä helpommin. Otoskokoa täytyisi siis kasvattaa. ESS:n efektiivisen otoskoon määrittelyssä on haluttu mikroaineisto josta voi kohtuullisella tarkkuudella saada myös pienemmistä osajoukoista estimaatteja maatasolla. On selvää, että aineistosta ei kaikkien kiinnostavien taustatekijöiden mukaan voi estimoida hyviä tuloksia silti maatasolla. Osassa

14.10.2009 Kyselytutkimuksen Metodiikkaa 2009 Seppo

94

tapauksista luotettavuus saadaan paremmaksi maaryhmätasolla.

Page 95: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Esimerkki yksinkertaisesta otanta-asetelmastaESS

Target Population, Population coverage

All persons aged 15 and over living in Norway (Norwegian citizens who are not registered living in another country and non-Norwegian citizens who

ESS 4

Population coverage g g y gare registered living in Norway excluding students)

Sampling frame The BEBAS Population Register which is a working copy of the National gPopulation Register from 1st January 1999. This will be updated monthly. For the ESS, the latest updating will be available from July 2008.

Sampling design A one-stage systematic random sampling (= simple random sample).

Design effects DEFF = 1

Target response rate 70%

Remark A bit unrealistic based on R3

Sample size Gross sample = 2 650In-eligibles = 70Target net sample = 1 855 Anticipated net sample = 1686 (based on R3)Anticipated net sample 1686 (based on R3)Minimum net sample = 1 500

Special Features of the design

There will be provided adjusted weights for post-stratification for the variables region, age and gender.

14.10.2009 SurveyMetodiikka 2009 Seppo 95

Page 96: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

m

ast

a

ise

mm

SS

4m

utk

ai

ta,

ES

mo

nim

elm

ast

rkk

i m

a-a

sete

Esi

me

ro

tan

ta

14.10.2009 SurveyMetodiikka 2009 Seppo 96

E o

Page 97: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

u

um

ast

a

Ja

tku

ise

mm

SS

4 _

m

utk

ai

ta,

ES

mo

nim

elm

ast

rkk

i m

a-a

sete

Esi

me

ro

tan

ta

14.10.2009 SurveyMetodiikka 2009 Seppo 97

E o

Page 98: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

HarjoitusosioTable 1: Province populations and cluster allocation

Päätehtävä on muodostaa Irakin kuolleisuustutkimuksen aineistoon otospaino; aivan ihanteellista ei ehkä

Table 1: Province populations and cluster allocation

Baghdad 6 554 126 12Ninewa 2 554 270 5Basrah 1 797 758 3Sulamaniyah 1 715 585 3otospaino; aivan ihanteellista ei ehkä

saa mutta sellainen joka tuottaa uskottavia estimaatteja. Oh ti t j k lk äi ä

Sulamaniyah 1 715 585 3Thi-Qar 1 493 781 3Babylon 1 472 405 3Erbil 1 418 455 3Diyala 1 392 093 3Anbar 1 328 776 3Ohessa on tieto joka on alkuperäisessä

artikkelissa Burnham, G., R. Lafta, S. Doocy and L. Roberts (2006). Mortality after the 2003 invasion of Iraq:

Anbar 1 328 776 3Salah al-Din 1 119 369 2Najaf 978 400 2Wassit 971 280 1Qadissiya 911 640 1T 854 470 1Mortality after the 2003 invasion of Iraq:

a cross-sectional cluster sample survey. The Lancet 368, 1421�1428.Yritetään yhdessä keskustellen ja sittenl k t i it k t hj l id t tt

Tameem 854 470 1Missan 787 072 1Kerbala 762 872 1Muthanna 554 994 0Dahuk 472 238 0

laskutoimitukset ohjelmoiden tuottaajotkin painot dataan. Lisätehtävänä keskustelua kurssimonisteen kohdista joissa on

Total 27 139 584 47

esitetty kysymyksiä. Etsi niitä.

14.10.2009 SurveyMetodiikka 2009 Seppo 98

Page 99: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Yksinkertaista estimointia 1

Asetelmapainoa ja myöhemmin aivan vastaavalla tavalla muita otospainoja voidaan käyttää otosaineiston estimoinnissa. Tämä on periaatteessa varsin yksinkertaista jos kyse on piste estimaatista Otossurveyden tyypillisiäyksinkertaista jos kyse on piste-estimaatista. Otossurveyden tyypillisiä kiinnostuksen kohteita ovat totaali eli kokonaissumma tai kokonaismäärä ja keskiarvo, mutta toki myös monet muut kuten mediaani ja muut kvantiilipisteet Huomaa että kenties kaikkein käytetyin tunnuslukukvantiilipisteet. Huomaa, että kenties kaikkein käytetyin tunnusluku suhteellinen frekvenssi on luonteeltaan keskiarvo (esim. jos koodattu 1=kiinnostuksena oleva kategoria, 0=muut).

Niinpä totaalin τ estimaatti tulosmuuttujalle y on yksinkertaisesti asetelmapainoilla painotettu summa yli otoksen s kk yat ∑=pa otettu su a y oto se s

s

Kaikki ohjelmistot antavat oikean tuloksen, kun muistaa laittaa mukaan i tt j k i ik i Oh i kitt ll ikä l k ipainomuuttujaksi oikean painon. Ohessa painoa on merkitty a:lla mikä aluksi on

asetelmapaino mutta käytännössä eli vastaajien aineistossa sen suoraviivainen muunnelma eli peruspaino. Myöhemmin tarkastelemme parempia painoja. Laskentatapa on silti sama

14.10.2009 SurveyMetodiikka 2009 Seppo 99

Laskentatapa on silti sama.

14.10.2009 99SurveyMetodiikka 2009 Seppo

Page 100: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Yksinkertaista estimointia 2

Vastaavasti voidaan laskea keskiarvon estimaatti jakamalla totaali painojen summalla eli kyseessä on tavallinen painotettu keskiarvo. ∑

sk ya

∑=

sk

s

ay

Piste-estimaattien lisäksi on siis välttämätöntä tuottaa myös väliestimaatteja (en vaadi kokeessa näiden yksityiskohtia mutta voit osoittaa pätevyytesi silti) . Lähtökohtana on p yyestimoida piste-estimaatille varianssi ja sen jälkeen ottamalla tästä neliönjuuri saadaan keskivirhe ja edelleen tästä voidaan edetä luottamusväleihin. Varianssiestimaatin peruskaava y:n totaalille voidaan esittää muun muassa seuraavassa muodossa: )()var( 2 ayfnst =

Tässä s2(ay) on tavallinen otosvarianssi sulkeissa olevalle muuttujalle (siis otospainon ja tulosmuuttujan tulomuuttujalle) laskettuna siis otoksesta, ja f on äärellisen perusjoukon korjauskerroin = (N-n)/N, joka voidaan j f p j j / jisommissa perusjoukoissa jättää huomioimatta. Lisäksi keskivirheeseen vaikuttavat ryvästys ja ositus mutta niiden tekniikkaa en tarkemmin käsittele. Ohjelmat hoitavat soveltajalle asian.

14.10.2009 SurveyMetodiikka 2009 Seppo 10014.10.2009 100SurveyMetodiikka 2009 Seppo

Page 101: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Yksinkertaista estimointia 3

Jos otanta-asetelma perustuu ositteisiin, niin lauseke on muodostettava kullekin ositteelle erikseen, vaikkei niissä ole sovellettu erilaista asetelmaa. Tämä johtuu , jsiitä että kussakin ositteessa otos poimitaan riippumattomasti toisen ositteen poiminnasta. Tämä riippumattomuus toisaalta helpottaa jatkoa sillä koko totaalin varianssi saadaan yksinkertaisena ositevarianssien summana. Sama ei päde keskiarvon varianssiestimaatille. Siis keskiarvon varianssiestimaatti ei ole ositteiden varianssiestimaattien summa. Jos tavoiteperusjoukon koko N on tunnettu, niin keskiarvon varianssiestimaattori ositetussa otannassa on ositteiden totaalien varianssien summa jaettuna N2:lla. Ja yleisenä kaavana:

[ k t llä t id d t ö d llä]2

2_ )(

)var(N

aysnf hhh

h

y∑

=[n korvataan r:llä vastanneiden datassa, myös edellä]

Huomaa kuitenkin, että piste-estimaatti on suoraan tuotettavissa vaikka sisältymistodennäköisyys ja sitä kautta asetelmapaino perustuisi ositteisiin jasisältymistodennäköisyys ja sitä kautta asetelmapaino perustuisi ositteisiin ja yhteen tai useampaan asteeseen tai vaiheeseen. Käyttäjä siis vain sisällyttää oikean painomuuttujan analyysiin eikä hänen siis tarvitse perusteellisesti tietää miten se on muodostettu

14.10.2009 SurveyMetodiikka 2009 Seppo 101

miten se on muodostettu.

14.10.2009 101SurveyMetodiikka 2009 Seppo

Page 102: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Näkökohta joka unohtui edeltä:

Käytetään myös termiä implisiittinen ositus, missä tapauksessa ei siis eksplisiittisesti määritellä ositteita ja poimita niiden sisältä p j potosta, kutakin riippumattomasti. Vaan implisiittisyys syntyy siitä, että aineisto on jossain järjestyksessä tunnettujen muuttujien mukaan kuten ainakin alueen ja usein myös iän ja ehkä sukupuolenmukaan, kuten ainakin alueen ja usein myös iän ja ehkä sukupuolen tai perheen=osoitteen. Jos poiminta on tasavälistä, syntyy otos jossa on melko tarkasti samoissa suhteissa havaintoja noiden implisiittisten ositusmuuttujien mukaan Käytännössä siisimplisiittisten ositusmuuttujien mukaan. Käytännössä siis sisältymistodennäköisyydet ovat lähes samoja. Tätä voi käyttää hyväksi myös estimoinnissa. Painot voisi hyvä heti

i ih l k i i d j li ii iperuspainovaiheessa laskea sopivasti muodostettujen explisiittisten ositteiden mukaan, siis käyttäen implisiittisen osituksen muuttujia tyyliin:wh = Nh/rh missä h on esimerkiksi sopiva alue tai alueen ja ikäryhmän muodostama �osite.�

14.10.2009 SurveyMetodiikka 2009 Seppo 102

Page 103: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Otosaineiston estimointi käytännön kannaltaOt t ii itä k i k t i i itä äh ä t it t i ih it ii äOtanta on siis sitä yksinkertaisempi, mitä vähemmän asteita tai vaiheita siinä on. Ositus ei lisää piste-estimoinnin monimutkaisuutta mutta varianssiestimointiin se vaikuttaa. Osittamisesta voidaan tuottaa oma DEFF jos halutaan jolloin nähdään pienentääkö se keskivirhettä vai suurentaako sejos halutaan, jolloin nähdään pienentääkö se keskivirhettä vai suurentaako se sitä. Ihmissurveyssä osittamisen vaikutus ei yleensä ole suuri mutta yrityssurveyssä on, erityisesti jos ositus perustuu yrityksen kokoon kuten yleensä on asianlaitayleensä on asianlaita.

Otosten poimintaa helpottavat ohjelmat, kuten SAS:n SurveySelect, hoitavat otannan tekniikan jos tietää mitä haluaa mutta ei useampiasteisessa (-otannan tekniikan jos tietää mitä haluaa, mutta ei useampiasteisessa (vaiheisessa) otannassa yhdellä kertaa, vaan on edettävä aste (vaihe) kerrallaan ja hoidettava näiden yhteenveto itse. Eli ei asia hoidu täysin automaattisesti. Vastaavasti analyysivaiheessa, johon on käytettävissä SAS:n SurveyMeans, yy , jo o o y S S S vey ea s,SurveyFreq ja SurveyLogistic ja SPSS:n vastaavat modulit Complex Sampleskohdasta, ohjelma ymmärtää hyvin yhden ryvästymisen muttei kahta, se on varianssiestimoinnin kannalta hoidettava itse. Piste-estimointihan hoituu oikeaa painoa käyttämällä. Yksi ositus ohjelmistoissa on onneksi mukana.

Puuttuneisuuden erityispiirteitä nämä ohjelmat eivät hoida automaattisesti.

14.10.2009 SurveyMetodiikka 2009 Seppo 10314.10.2009 103SurveyMetodiikka 2009 Seppo

Page 104: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 1Mallivaihtoehtoja survey datalla tai muilla datoilla on niin paljon etten tässäMallivaihtoehtoja survey-datalla tai muilla datoilla on niin paljon, etten tässä yritäkään kattaa koko kirjoa. Siksipä havainnollistan kolmella erilaisella analyysitypillä (ml. mallityypillä) ja erikompleksisilla datoilla, miten survey ja nimenomaan otossurvey vaikuttaa analyysiinnimenomaan otossurvey vaikuttaa analyysiin.

Ensimmäinen analyysityyppi on perusestimointi, joka voi tuottaa piste- ja väliestimaatteja koko tutkimusperusjoukolle kerrallaan tai sen osajoukoille taiväliestimaatteja koko tutkimusperusjoukolle kerrallaan tai sen osajoukoille tai osaryhmille. Englanninkielessä osaryhmiä kutsutaan sanalla �domain� mikä on myös ohjelmistoissa usein käytetty (tämä vastaa mallissa selittäjää). Yleiset periaatteet, jotka sopivat myös muille malleille:p , j p y- Otospainojen käyttämättömyys takaa, että piste- ja väliestimaatteihin tulee harhaa, mutta sen suuruus ei aina ole valtaisa. Otospainon tulee myös olla oikea eli kuhunkin tilanteeseen parhaiten soveltuva. Analyysipaino on usein kätevämpi jos estimoidaan suhteita ja muita rakenteita, muttei totaaleja (henkilömääriä, rahasummia tms.).- Muut otanta-asetelman ja sen jälkeen tehdyt toiminnot on syytä myös sisällyttää analyysiin (ositus, ryväs, ryväskoko, haastattelija), jos suinkin mahdollista eli jos on ohjelmisto tähän tarkoitukseen olemassa. Tämä takaaparemman onnistumisen väliestimoinnissa (keskivirheet, luottamusvälit, p-

i h i li i i i i h lli i i b l i i )14.10.2009 SurveyMetodiikka 2009 Seppo 104

arvot, virhemarginaalit, varianssiestimaatit; suhteellisina tai absoluuttisina).14.10.2009 104SurveyMetodiikka 2009 Seppo

Page 105: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 2

Aloitetaan esimerkeillä joissa ei ole ryväsvaikutusta ja käytännössä siis vain tilanteista joissa keskivirheestä ei erityisemmin huolehdita vaan

i ää iipyritään siispiste-estimaatin hyvään tuottamiseen. Tämä siis vaatii vain sen, että ohjelmaan asetetaan (sopiva) painomuuttuja.

ESS-datassa on siis painomuuttujana DWEIGHT jonka keskiarvo kussakin maassa on = 1. Suomen ja muutaman muun maan jintegroidussa datassa kaikki painot ovat valitettavasti = 1 eli painomuuttujalla ei ole vaikutusta suhteellisiin tuloksiin. Jos haluaa estimoida määriä, on muodostettava oma paino mutta en tässä niin tee.estimoida määriä, on muodostettava oma paino mutta en tässä niin tee.

Tein ajon onnellisuus = happy-muuttujalle jolloin poistin puuttuvat tiedot ennen tätä SAS ajoa (Valitsin muutaman maan):tiedot ennen tätä SAS-ajoa (Valitsin muutaman maan):

proc means n mean stderr; class cntry essround; var happy ;

eight d eight r n

14.10.2009 SurveyMetodiikka 2009 Seppo 105

weight dweight; run;

14.10.2009 105SurveyMetodiikka 2009 Seppo

Page 106: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 3The MEANS ProcedureThe MEANS ProcedureAnalysis Variable : HAPPY How happy are youESS

Country round N Obs N Mean Std Error

DK 1 1506 1489 8.3243788 0.03686022 1487 1481 8.3119514 0.03692103 1505 1490 8.3261745 0.03611354 1610 1603 8.3674361 0.0334804

EE 2 1989 1978 6.2654196 0.04631313 1517 1484 6.7843666 0.05081614 1661 1644 6.6995134 0.0482318

FI 1 2000 1995 8.0300752 0.03276352 2022 2018 8.0564916 0.03137813 1896 1894 8.0036959 0.03270514 2195 2191 8.0187129 0.0305431

RU 3 2437 2390 6.0125917 0.04652324 2512 2475 6.1861183 0.0437582

SPSS:n ohjelmissa paino asetetaan kohdasta �weight cases�SPSS:n ohjelmissa paino asetetaan kohdasta weight casesennen kuin mennään itse ohjelmaan. Osiossa Complex Samples on laajempia mahdollisuuksia.

14.10.2009 SurveyMetodiikka 2009 Seppo 10614.10.2009 106SurveyMetodiikka 2009 Seppo

Page 107: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 4

SPSS:llä onnistuin

Report

How happy are you

saamaan seuraavan tuloksen käyttäen Compare

Country Gender Mean N Std. Error of Mean

DK 1 8,32 3003 ,025

2 8,35 3059 ,026

Total 8,33 6062 ,018

means-osiota.

Tässä on sukupuoli

EE 1 6,42 2152 ,043

2 6,66 2954 ,037

Total 6,56 5106 ,028pmukana, edellisessä ESS-kierros. Tulkitse tulokset ml

FI 1 7,87 3898 ,023

2 8,17 4200 ,021

Total 8,03 8098 ,016

RU 1 6,15 2041 ,049Tulkitse tulokset ml. katsoen tilastollisesti merkitsevät erot.

2 6,07 2820 ,042

Total 6,10 4861 ,032

Total 1 7,39 11094 ,018

2 7,41 13033 ,018

Total 7,40 24127 ,013

Perusestimointiin otanta-asetelman puitteissa palataan

14.10.2009 SurveyMetodiikka 2009 Seppo 10714.10.2009 107SurveyMetodiikka 2009 Seppopuuttuneisuus- jakson jälkeen.

Page 108: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuus 1Puuttuneisuus 1Tässä tunnettujen survey-tutkijoiden Bob Grovesin ja Mick Couperin kirjan pohjalta modifioimani kuvaus vastaamistilanteesta käyntihaastattelussa

Yht i k lli j S l

Surveyn organisoijan kontrolloitavissa EI KYLLÄ

käyntihaastattelussa.

Yhteiskunnallinen ja sosiaalinen ympäristö- Survey-ilmasto- Taloudellise t ehdot- Verkostoituminen

Survey-asetelma- Aihe- Organisointi- ja hallinnointitapa- Tekniikka- Vastaajien valinta

Vastaajakandidaatti- Rakenne (esim. kotitalous, yritys)- Sosio-demograafise t tekijät- Psykologinen asenne

Vastausrasite

Haastattelija- Sosio-demograafise t tekijät- Kokemus/Osaaminen- Odotukset

- Vastausrasite

Haastateltavan ja haastattelijan vuorovaikutus

j k ki äi l ttja keskinäinen luottamus

Päätös osallistuatai kieltäytyä

14.10.2009 SurveyMetodiikka 2009 Seppo 108

y y(osittain tai kokonaan)

14.10.2009 108SurveyMetodiikka 2009 Seppo

Page 109: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Mitähän tästä puuttuu? Vastaus löytyy kun selailet eteenpäinMitähän tästä puuttuu? Vastaus löytyy kun selailet eteenpäin.

14.10.2009 SurveyMetodiikka 2009 Seppo 10914.10.2009 109SurveyMetodiikka 2009 Seppo

Page 110: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon ja muun puuttuneisuuden syyt 1j p yy

Seuraavassa esitän eri lähteistä kokoamani luokittelun vastauskadon sekä muun puuttuneisuuden syille tai taustatekijöille Luokittelun koodit ovatmuun puuttuneisuuden syille tai taustatekijöille. Luokittelun koodit ovat mahdollisimman pitkälle ongelman esiintymis- tai ilmaantumisjärjestyksen mukaisia.

0. Peittävyysongelmista johtuva puuttuneisuus: tämä on numeroitu 0:lla siksi, että se on hieman eri kategoriassa kuin tätä seuraavat syyt. Kysymys on alussa esitetyistä ylipeitosta ja alipeitosta, jotka on hyvä nähdä edelleen y y p j p , j ypuuttuneisuuden lajeiksi. Ylipeitto on suhteellisen ongelmaton jos se havaitaan ja vastaavasti käsitellään oikein. Mutta alipeitto on oleva aina hyvin kiusallinen, erityisesti jos siihen ei saada otetta. Usein ylipeitto kertoo myös alipeitosta jotakin eli siis siitä, kuinka puutteellinen käytetty kehikko oli eli ali- ja ylipeiton suuruusluokka voi olla sama, mutta yleensä nämä kehikkovirheet kohdistuvat hyvin erilaisiin osaryhmiin (kuolleet vs. syntyneet; ulosmuuttaneet vs. sisäänmuuttaneet; exit vs. entry).

14.10.2009 SurveyMetodiikka 2009 Seppo 11014.10.2009 110SurveyMetodiikka 2009 Seppo

Page 111: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon ja muun puuttuneisuuden syyt 2j p yy1. Osoite- tai muu yhteystieto ei ole oikea eikä vastaajaa tavoiteta missään tapauksessa. Yksikkövastauskato sattuu siis väistämättömästi. Tällöin ei ehkä tiedetä onko kohde enää tavoiteperusjoukon jäsen joten kyse voi ollaehkä tiedetä onko kohde enää tavoiteperusjoukon jäsen, joten kyse voi olla myös ylipeitosta.

2. Vastaajakandidaatti on väliaikaisesti tavoittamattomissa mutta häntä ei2. Vastaajakandidaatti on väliaikaisesti tavoittamattomissa mutta häntä eitavoiteta useista yrityksistä huolimatta tiedusteluun käytettävissä olevanajan kuluessa. Ongelmat ovat suurin piirtein samat kuin edellisessä, muttausein voidaan helpommin saada selville kuuluuko yksikkö vieläp ytavoiteperusjoukkoon.

3. Vastaajakandidaatti tavoitetaan mutta tämä on osittain tai kokonaankykenemätön antamaan vastauksia tai ei halua niitä antaa. Syynä voi ollamyös kieli- tai muu yhteydenpito-ongelma vastaajan tai haastattelijanvälillä. Monet kyselyt, myös yrityskyselyt, ovat hyvin monimutkaisia, eivätkäkaikki kykene vaivattomasti antamaan oikeita tietoja. Seurauksena ontäydellinen vastaamattomuus eli yksikkövastauskato, tai osittainenvastaamattomuus eli erävastauskato. Myös raportointivirheitä esiintyy

iihi i ik ää ä kii i14.10.2009 SurveyMetodiikka 2009 Seppo 111

mutta niihin on usein vaikea päästä kiinni.14.10.2009 111SurveyMetodiikka 2009 Seppo

Page 112: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon ja muun puuttuneisuuden syyt 3j p yy4. Vastaajakandidaatti kieltäytyy osallistumasta tiedusteluun.Kieltäytyminen voi olla laadultaan tiukempi tai pehmeämpi. Syyt näihinvoivat olla hyvin moninaiset mutta niihin ei tässä tarkemmin puututavoivat olla hyvin moninaiset mutta niihin ei tässä tarkemmin puututa.Tiukka kieltäytyjä ei tavallisesti vastaa mihinkään kysymykseen(yksikkövastauskato), mutta pehmeämpi antaa joitakin vastauksia taikieltäytyy vain herkistä kysymyksistä (erävastauskato). Toisaalta herkätkieltäytyy vain herkistä kysymyksistä (erävastauskato). Toisaalta herkätkysymykset voisi toteuttaa niinkin anonyymisti siten ettei edes haastattelijatiedä vastauksia. Tämä tapahtui ennen tietokoneaikaa tiputtamallavastaukset �vaaliuurnaan� mutta nykyään voitaisiin ne �näpytellä� suoraany y pytietokoneelle.

5. Epäkelpo vastaus joko kokonaan tai osittain, mikä havaitaanjälkikäteisessä tarkastuksessa ja tapaus katsotaan parhaaksi sijoittaavastauskadoksi. Tähän ryhmään voidaan sijoittaa myös muut edelläesiintymättömät tapaukset, kuten vastauksen katoaminen tai atk-käsittelyssä sattunut erehdys, joita ei toki saisi tulla. Myöstiedonkeruulaitteen rikkoutuminen voisi olla syy sisällyttää puuttuneisuustähän ryhmään (esim. liikennevirtatutkimuksissa näin tapahtuu aika usein).

14.10.2009 SurveyMetodiikka 2009 Seppo 11214.10.2009 112SurveyMetodiikka 2009 Seppo

Page 113: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon ja muun puuttuneisuuden syyt 4

6. Yhteystieto vastaajasta taustatietoihin kadotetaan, johtuen vastaajanyksilöintitunnuksen katoamisesta jommallakummalla puolella (siisotoskehikkotiedostossa tai keruutiedostossa) tai että jommassakummassaotoskehikkotiedostossa tai keruutiedostossa) tai että jommassakummassaon virhe eikä tietoja voida yhdistää. Tätä ongelmaa ei juuri voi ollakäyntihaastatteluin tehdyissä tutkimuksissa mutta sen sijaanpostitiedusteluissa on hyvinkin mahdollinen (ja usein tahallinen).postitiedusteluissa on hyvinkin mahdollinen (ja usein tahallinen).Seurauksena on puutteellinen analyysi.

7. Epäselvät tapaukset, kuten epäselvyys siitä, onko kyseessä vastauskato7 p p , p yy , yvai ylipeitto. Vastaajan kykenemättömyys vastata (syy 3) tai pitkäaikainenpoissaolo esimerkiksi ulkomailla voi oikeuttaa sijoittamaan tapauksen jokovastauskatoon tai ylipeittoon. Vastaavasti voidaan tarkentaatavoiteperusjoukon ja sitä kautta tutkimusperusjoukon käsitettä.

14.10.2009 SurveyMetodiikka 2009 Seppo 11314.10.2009 113SurveyMetodiikka 2009 Seppo

Page 114: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon ja muun puuttuneisuuden syyt 5

8. Vastaus ei koske tutkimusyksikköä. Tämä ongelma on yleisempi yritystiedusteluissa kuin kotitaloustiedusteluissa, ja koskee lähinnä monitoimipaikkaisia kotimaisia ja vielä enemmän kansainvälisiä yrityksiämonitoimipaikkaisia kotimaisia ja vielä enemmän kansainvälisiä yrityksiä. Tässä on kaksi tyypillistä tilannetta: (i) saadut tiedot koskevat vain osaa toimipaikkoja, (ii) tiedot koskevat isompaa joukkoa, kuten toimipaikkakyselyssä koko yritystä tai yrityskyselyssä koko konsernia.toimipaikkakyselyssä koko yritystä tai yrityskyselyssä koko konsernia. Kummatkin ongelmat ovat erityishankalia eriteltäessä kansainvälisen yrityksen toimintaa tietyssä maassa.

9. Tarkoituksellinen puuttuneisuus. Aina ei ole järkevää kohdistaa tiettyjä tiedustelun osasia kaikille, vaan ottaa otos. Tilanne on tavallisin silloin, kun itse kysymyspatteristo on hankala mutta itse kysymysaihio ei ole kyselyn keskeisin. Osa-aineistosta tiedot saatetaan vastaavasti saada paremmin, koska tiedonkeruuoperaatiot voidaan resurssien puitteissa kohdistaa sinne paremmin. Myös voidaan osalle kohteista antaa suppeampi lomake jolloin tietty osa tiedoista jää puuttumaan. Yritystiedusteluissa pienille yrityksilleannetaan monissa maissa suppeampi lomake kuin isoille (esim. tarkat kuluerittelyt kysytään vain isoilta).

14.10.2009 SurveyMetodiikka 2009 Seppo 11414.10.2009 114SurveyMetodiikka 2009 Seppo

Page 115: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 1

Kun aineisto koottu (tai myös jossain välivaiheessa), ja puuttuneisuus on koodattu siten, että kaikki erilaiset tapaukset (ks. edellinen luettelo, , p ( ,jolle voi tuottaa survey-spesifejä alajakoja) ovat eroteltavissa, niin on järkevää ryhtyä myös tuottamaan siitä lukuja sopivia mittareita käyttäen Luvut ovat tässä vaiheessa laatumittareita joita on kiintoisaakäyttäen. Luvut ovat tässä vaiheessa laatumittareita, joita on kiintoisaa verrata aikaisempiin mahdollisiin saman alan surveyhin esimerkiksi.

Kuten kaikkia lukuja näitäkin voidaan tuottaaKuten kaikkia lukuja, näitäkin voidaan tuottaa - absoluuttisinaja suhteellisina (rate, logit ym).

En nyt käsittele tarkemmin absoluuttisia, koska oletan niiden olevan selviä kaikille. Suhteellisista luvuista yleensä, katso Liite 1.

Ja tässä yhteydessä seuraavilta sivuilta jotka sisältävät puuttuneisuuden �ydinmittarit.�

14.10.2009 SurveyMetodiikka 2009 Seppo 115

p y

14.10.2009 115SurveyMetodiikka 2009 Seppo

Page 116: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 2

(1) Aloitan perussuhdeluvuista (rates), jolloin puuttuneisuus suhteutetaan �riskijoukon�määrään, mikä (i) yksinkertaisimmassa vaihtoehdossa toteutetaan ilman painoja(i) yksinkertaisimmassa vaihtoehdossa toteutetaan ilman painoja- yksikkövastauskadon tapauksessa on tavoiteperusjoukkoon kuuluvien tutkimus-yksiköiden määrä (merkitty havaintomatriisissa n:llä, siis ei ylipeittoa n(D) )

erävastauskadon tapauksessa yksikkötason vastanneiden määrä ( r )- erävastauskadon tapauksessa yksikkötason vastanneiden määrä ( r ). Näin ollen siis kokonaisvastausaste = r/n.Ylipeittoluku taas suhteutetaan n + n(D) -lukuun. Erävastausasteet ovat siis kullekin muuttujalle erikseen nimittäjänä luku rErävastausasteet ovat siis kullekin muuttujalle erikseen, nimittäjänä luku r.Kaikki luvut on hyvä tuottaa myös vastaamattomuuden syyn mukaan. Tavallisestitällöin käytetään kolmea pääryhmää: tavoittamattomat, kieltäytyneet ja muut.Voidaan myös tuottaa kokonaisvastaamattomuuslukuja, jolloin muodostetaanVoidaan myös tuottaa kokonaisvastaamattomuuslukuja, jolloin muodostetaanyksikkövastauskadon ja erävastauskadon sopiva summa ja suhteutus n:ään. (ii) monimutkaisemmassa vaihtoehdossa painojen kanssaSamat luvut kuin edellä mutta painot ovat laskennassa mukana:p- joko asetelmapainot tai asetelmapainojen ja jonkin yksikön tärkeyttä kuvaavan x-muuttujan yhdistelmä. Jälkimmäinen on hyödyllinen yrityssurveyssä, jolloinvastaamattomuus painotetaan yrityksen kokomuuttujalla. Silloin ilmenee puuttuneisuuden

14.10.2009 SurveyMetodiikka 2009 Seppo 116vaikuttavuus myös.

14.10.2009 116SurveyMetodiikka 2009 Seppo

Page 117: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 3

(2) Perussuhdeluvut taustatekijöiden mukaan, jolloin edellä esitetyt luvutlasketaan erilaisissa taustaryhmissä. Yksikkövastauskadon tilanteessa nämä ovatx muuttujia mutta erävastauskadon tapauksessa myös sellaiset y muuttujat joissa eix-muuttujia, mutta erävastauskadon tapauksessa myös sellaiset y-muuttujat joissa eiole puuttuvuutta (tai on vähemmän puuttuvuutta) voivat tulla kyseeseen. Esimerkiksi - henkilösurveyssä sukupuoli ikäryhmä alue koulutus- henkilösurveyssä sukupuoli, ikäryhmä, alue, koulutus, �- yrityssurveyssä toimiala, yrityksen koko, alueellinen sijainti (rekisterin mukaan).

(3) Monimuuttuja-analyysi jolloin vastausindikaattori (R=1 jos vastannut =0 jollei)(3) Monimuuttuja analyysi jolloin vastausindikaattori (R 1 jos vastannut, 0 jollei) on selitettävänä muuttujana ja selittäjinä sellaisia joista kaikki tiedot ovat käytettävissä. Tähän tarkoitukseen sopivia malleja ovat erityisesti:- Logistinen (eli Logit-) regressiog ( g ) g- Probit-regressio(katso myös Cloglog ja loglog Liitteestä). Monimuuttuja-analyysi on mitä hyödyllisin yksinkertaisten perustunnuslukujenj yy y y y p jlaskemisen lisäksi. Pyri aina siihen, jos sinulla on useampia x-muuttujia käytettävissä.Huomaa, että oikeaoppisin tilanne on sellainen, jossa mallissa käytetään otospainoa(yksikkövastauskadon mallittamisessa asetelmapainoa, erävastauskadon mallittamissa

14.10.2009 SurveyMetodiikka 2009 Seppo 117peruspainoa).

14.10.2009 117SurveyMetodiikka 2009 Seppo

Page 118: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 4 - Esimerkkejä 1aEnsin erävastauskato viiden muuttujan patterissa ESS-kierroksella 2. Vastaava harjoitus kierrokselta 4 luennolla demona käyttäen 5 opiskelijan valitsemia muuttujia.Tässä kullekin muuttujalle on tehty vastausindikaattori siten että jos muuttujan j y j jarvo on yli 10, niin arvo = 0, muuten = 1. Siis eri puuttuneisuuden ryhmät on yhdistetty. Analysoi ja Vertaa tuloksia tältä ja seuraavalta sivulta!

Erävastauskato Suomessa ESS:n muutamassa muuttujassa kierroksella 2 23Erävastauskato Suomessa ESS:n muutamassa muuttujassa kierroksella 2 23

Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT

1 0 0 0 0 0 0 1 0.0495 2 0 0 0 1 1 1 1 0.0495 3 0 0 1 1 0 1 1 0.0495 4 0 0 1 1 1 1 1 0.0495 5 0 1 0 0 0 0 1 0.0495

6 0 1 1 0 0 0 15 0.7418 6 0 1 1 0 0 0 15 0.7418 7 0 1 1 0 0 1 3 0.1484 8 0 1 1 0 1 0 8 0.3956 9 0 1 1 0 1 1 8 0.3956 10 0 1 1 1 0 0 17 0.8408 11 0 1 1 1 0 1 21 1.0386 12 0 1 1 1 1 0 31 1.5331 13 1 1 1 1 1 1 1914 94.6588

14.10.2009 SurveyMetodiikka 2009 Seppo 11814.10.2009 118SurveyMetodiikka 2009 Seppo

Page 119: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 5 - Esimerkkejä 1bErävastauskato ESS:n muutamassa muuttujassa kierroksella 2 25

Obs R happyres stfliferes stfecores stfgovres stfdemres COUNT PERCENT

1 0 0 0 0 0 0 32 0.0673 2 0 0 0 0 1 0 1 0.0021 3 0 0 0 0 1 1 3 0.0063 4 0 0 0 1 0 0 4 0.0084 5 0 0 0 1 0 1 2 0.0042 6 0 0 0 1 1 0 1 0.0021 7 0 0 0 1 1 1 13 0.0273 8 0 0 1 0 0 0 18 0.0379 9 0 0 1 0 0 1 5 0.0105 10 0 0 1 0 1 0 6 0.0126 11 0 0 1 0 1 1 9 0.0189 12 0 0 1 1 0 0 9 0.0189 13 0 0 1 1 0 1 14 0.0295 14 0 0 1 1 1 0 13 0.0273

1 0 0 1 1 1 1 1 0 3303 15 0 0 1 1 1 1 157 0.3303 16 0 1 0 0 0 0 46 0.0968 17 0 1 0 0 0 1 5 0.0105 18 0 1 0 0 1 0 7 0.0147 19 0 1 0 0 1 1 12 0.0252 20 0 1 0 1 0 0 10 0.0210

21 0 1 0 1 0 1 3 0 0063 21 0 1 0 1 0 1 3 0.0063 22 0 1 0 1 1 0 18 0.0379 23 0 1 0 1 1 1 69 0.1452 24 0 1 1 0 0 0 450 0.9466 25 0 1 1 0 0 1 188 0.3955 26 0 1 1 0 1 0 193 0.4060

27 0 1 1 0 1 1 485 1 0203 27 0 1 1 0 1 1 485 1.0203 28 0 1 1 1 0 0 525 1.1044 29 0 1 1 1 0 1 973 2.0468 30 0 1 1 1 1 0 1163 2.4465 31 1 1 1 1 1 1 43103 90.6725

14.10.2009 SurveyMetodiikka 2009 Seppo 11914.10.2009 119SurveyMetodiikka 2009 Seppo

Page 120: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 6 - Esimerkkejä 2aKoska ESS:stä ei ole yksikkövastauskatotietoja käytettävissä, teen monimuuttuja-mallin jossa selitettävänä on sellainen vastausindikaattori R, joka = 1 jos henkilövastasi kaikkiin edellä esitettyihin viiteen kysymykseen ja = 0 jos johonkin vastaustaei tullut. Seuraavassa tulostusta logistisella regressiolla. Kokeile myös probitilla.

CNTRY AT 1 1.1826 0.0869 1.0123 1.3530 185.06 <.0001

Standard Wald 95% Chi- Parameter DF Estimate Error Confidence Limits Square Pr > ChiSq

CNTRY BE 1 2.1670 0.1257 1.9206 2.4134 297.09 <.0001 CNTRY CH 1 1.6931 0.1018 1.4937 1.8926 276.78 <.0001 CNTRY CZ 1 1.2457 0.0803 1.0883 1.4030 240.75 <.0001 CNTRY DE 1 1.8518 0.0962 1.6632 2.0404 370.38 <.0001 CNTRY DK 1 1.5107 0.1120 1.2912 1.7301 182.06 <.0001CNTRY EE 1 0 9064 0 0830 0 7437 1 0691 119 22 0001CNTRY EE 1 0.9064 0.0830 0.7437 1.0691 119.22 <.0001

CNTRY ES 1 1.2058 0.0976 1.0145 1.3971 152.59 <.0001 CNTRY FI 1 1.9396 0.1126 1.7189 2.1604 296.63 <.0001 CNTRY GB 1 1.7189 0.1064 1.5103 1.9274 260.86 <.0001 CNTRY GR 1 1.8924 0.1010 1.6944 2.0905 350.84 <.0001CNTRY HU 1 1 7758 0 1181 1 5443 2 0074 225 97 < 0001CNTRY HU 1 1.7758 0.1181 1.5443 2.0074 225.97 <.0001

CNTRY IE 1 1.5366 0.0949 1.3506 1.7225 262.33 <.0001 CNTRY IS 1 1.2826 0.1571 0.9747 1.5905 66.65 <.0001 CNTRY LU 1 0.6014 0.0868 0.4313 0.7715 48.00 <.0001 CNTRY NL 1 2.2358 0.1287 1.9835 2.4880 301.75 <.0001CNTRY NO 1 2.6659 0.1639 2.3447 2.9870 264.66 <.0001

CNTRY PL 1 1.3889 0.1006 1.1918 1.5860 190.79 <.0001 CNTRY PT 1 1.7964 0.1037 1.5931 1.9998 299.82 <.0001 CNTRY SE 1 1.5841 0.1029 1.3824 1.7858 236.93 <.0001 CNTRY SI 1 1.1068 0.0989 0.9131 1.3006 125.37 <.0001 CNTRY SK 1 1.1385 0.1000 0.9426 1.3345 129.66 <.0001

14.10.2009 SurveyMetodiikka 2009 Seppo 120

CNTRY TR 1 0.9441 0.0872 0.7733 1.1149 117.36 <.0001CNTRY UA 0 0.0000 0.0000 0.0000 0.0000 . .

14.10.2009 120SurveyMetodiikka 2009 Seppo

Page 121: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mittaaminen 7 - Esimerkkejä 2b

Jatkoa edelliseen (analysoi tulosta): Standard Wald 95% Chi-Parameter DF Estimate Error Confidence Limits Square Pr > ChiSqParameter DF Estimate Error Confidence Limits Square Pr ChiSq

agegr 15 1 -0.0501 0.1139 -0.2734 0.1731 0.19 0.6598 agegr 20 1 0.5923 0.0983 0.3996 0.7851 36.27 <.0001 agegr 28 1 0.7347 0.0861 0.5660 0.9035 72.82 <.0001 agegr 40 1 0.7959 0.0807 0.6378 0.9540 97.35 <.0001agegr 55 1 0.6931 0.0757 0.5447 0.8414 83.82 <.0001

agegr 63 1 0.5434 0.0697 0.4069 0.6799 60.86 <.0001 agegr 70 0 0.0000 0.0000 0.0000 0.0000 . . MARITAL 1 1 1.2570 0.4089 0.4557 2.0584 9.45 0.0021MARITAL 2 1 0.9113 0.4298 0.0688 1.7538 4.49 0.0340

MARITAL 3 1 1.1410 0.4141 0.3294 1.9527 7.59 0.0059 MARITAL 4 1 0.7132 0.4115 -0.0934 1.5198 3.00 0.0831 MARITAL 5 1 1.1333 0.4098 0.3301 1.9366 7.65 0.0057 MARITAL 7 1 0.1009 0.4717 -0.8235 1.0254 0.05 0.8305MARITAL 8 1 -0.3832 0.6012 -1.5615 0.7950 0.41 0.5238

MARITAL 9 0 0.0000 0.0000 0.0000 0.0000 . . activity disabled 1 -0.4342 0.1679 -0.7633 -0.1051 6.69 0.0097 activity education 1 0.2505 0.1356 -0.0152 0.5162 3.42 0.0646 activity employed 1 0.2546 0.1198 0.0198 0.4895 4.51 0.0336activity housework 1 -0 2443 0 1276 -0 4943 0 0058 3 67 0 0555activity housework 1 -0.2443 0.1276 -0.4943 0.0058 3.67 0.0555

activity missing 1 -0.5706 0.4603 -1.4728 0.3316 1.54 0.2151 activity other 1 -0.5475 0.1630 -0.8669 -0.2280 11.28 0.0008 activity retired 1 0.0463 0.1315 -0.2114 0.3041 0.12 0.7246 activity unemployed1 1 0.0201 0.1442 -0.2625 0.3027 0.02 0.8891

ti it l d2 0 0 0000 0 0000 0 0000 0 0000

14.10.2009 SurveyMetodiikka 2009 Seppo 121

activity unemployed2 0 0.0000 0.0000 0.0000 0.0000 . .

14.10.2009 121SurveyMetodiikka 2009 Seppo

Page 122: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuskuvan vastaus löytyy täältä. i ii iMitä siis puuttui?

14.10.2009 SurveyMetodiikka 2009 Seppo 122

Kuva on Canberran survey-tutkimuslaitoksen läheltä

14.10.2009 122SurveyMetodiikka 2009 Seppo

Page 123: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mekanismit 1

Surveyhin osallistuminen, mieluiten korkealla tasolla tai ainakin siten että osallistumattomuus olisi mahdollisimman harmitonta on luonnollisesti tavoitteena Tästä ilmiöstä käytetään nimeä mekanismi (mechanism) Setavoitteena. Tästä ilmiöstä käytetään nimeä mekanismi (mechanism). Se voidaan käsitellä joko positiivisesta suunnasta tai negatiivisesta suunnasta, mitkä kumpikin johtavat käytännössä samaan tulokseen. Positiivisesti ajatellen puhutaan vastausmekanismista (responsePositiivisesti ajatellen puhutaan vastausmekanismista (response mechanism), kun taas toisin päin ajatellen joko puuttuneisuusmekanismista tai vastaamattomuusmekanismista.

Mekanismin luonteen hahmottaminen on hyvin tärkeä tietää kun lähdetään imputointiin ja uudelleenpainotukseen. Jos ja kun sitä ei hyvin ti d tä j d t t k ää hd lli i h ät l t k ttiedetä, joudutaan tekemään mahdollisimman hyvät oletukset sen luonteesta. Seuraavassa esitetään tärkeimmät perinteiset käsitteet tältä alueelta. Esitän ne tässä ilman kaavoja. Jos kiinnostaa, löydät helposti

t t k ivastaavat kaavoina.

14.10.2009 SurveyMetodiikka 2009 Seppo 12314.10.2009 123SurveyMetodiikka 2009 Seppo

Page 124: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mekanismit 2

• Puuttuneisuus on täysin satunnaista, MCAR (Missing Completely AtRandom):

Tällöin siis puuttuneisuus on täysin satunnaista tai ajatellaan sellaiseksivaikka ei olisikaan. Puuttuneisuus ei siis riipu mistään muuttujista (x-eikä y-) tilastollisesti merkitsevästi. Näin monissa survey-tutkimuksissavalitettavasti toimitaan.

• Puuttuneisuus satunnaista otanta-asetelman puitteissa, MARS (MissingAt Random Under Sampling Design):

Tällöin puuttuneisuus riippuu vain otanta-asetelman muuttujista.Tyypillisin tilanne lienee se, että oletetaan ositetun otannan tapauksessaettä ositteiden sisällä puuttuneisuus on satunnaista muttei ositteidenpvälillä. Tämä on edellistä paljon järkevämpi oletus. Jos otannassa on hyväositus, myös riittävän laaja ja ottaa huomioon odotettavissa olevanpuuttuneisuuden, niin tämä strategia voi olla oikeinkin hyvä.

14.10.2009 SurveyMetodiikka 2009 Seppo 124

p , g y

14.10.2009 124SurveyMetodiikka 2009 Seppo

Page 125: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mekanismit 3• Puuttuneisuus on satunnaista ehdollisesti MAR (Missing At Random)

Huomaat että en ole kääntänyt MAR:ia suoraan vaan laittanutHuomaat että en ole kääntänyt MAR:ia suoraan vaan laittanutehdollisuuden mukaan. Tämä on edellisen täydennys. Nyt oletetaan ettäpuuttuneisuus riippuu (tai voi riippua) sekä otanta-asetelman muuttujistaettä muista mahdollisista saatavissa olevista apumuuttujista X Tämäettä muista mahdollisista saatavissa olevista apumuuttujista X. Tämästrategia tarkoittaa käytännössä sitä, että puuttuneisuus mallitetaan jamallin tulosta käytetään hyväksi imputoinnissa jauudelleenpainotuksessauudelleenpainotuksessa.

• Puuttuneisuus ei ole satunnaista MNAR (Missing Not At Random)

Käytännön elämässä ei voida kuvitella että kaikki puuttuneisuus voidaanselittää eli jäljelle jää epäsatunnaista puuttuneisuutta. Toki tämänosuuden soisi olevan mahdollisimman vähäistä ja näin onkin jos riittäväosuuden soisi olevan mahdollisimman vähäistä ja näin onkin jos riittävävalikoima apumuuttujia löytyy puuttuneisuutta mallittamaan.Faktamuuttujien osalta mallittaminen on yleensä helpompaa kuinasennemuuttujien osalta

14.10.2009 SurveyMetodiikka 2009 Seppo 125

asennemuuttujien osalta.

14.10.2009 125SurveyMetodiikka 2009 Seppo

Page 126: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puuttuneisuuden mekanismit 4

Näitä käsitteitä esitetään myös muissa muodoissa kuin edellä, ja MARSpuuttuu kokonaan, koska on oma täydennykseni. Tämän käsitteentarpeellisuus on mielestäni ilmeinen koska usein luonnostaan toimitaantarpeellisuus on mielestäni ilmeinen, koska usein luonnostaan toimitaanniin, että puuttuneisuus voidaan hahmottaa otanta-asetelman sisäisenäasiana. Tyypillinen esimerkki on ositettu otanta, jolloin ensivaiheessamelkein automaattisesti oletetaan että puuttuneisuus on satunnaistamelkein automaattisesti oletetaan, että puuttuneisuus on satunnaistaositteiden sisällä, muttei välttämättä ositteiden välillä.

Ensimmäinen p tt den laji MCAR on har oin tote t a m tta tokiEnsimmäinen puuttuvuuden laji MCAR on harvoin toteutuva mutta tokisen pohjalta on hyödyllistä tehdä esimerkiksi imputointeja, ainakin siksi,että saisi alustavan näkökulman tilanteeseen. Otanta-asetelmassak tt h i id tt i d iht l Sii k tt ll k idkannattaa huomioida puuttuneisuuden vaihtelu. Siis kannattaa allokoidabrutto-otos eli alkuperäinen otos mieluiten ottaen huomioonodotettavissa oleva vastauskato ja muu puuttuneisuus. Jos tämä vielä

li it kä tä ö ä ii MARS irealisoituu käytännössä, niin MARS on voimassa.Huom. Kaikki eivät käytä aktiivisti em. termejä. Sanat informatiivinen(eli sellainen jota voidaan selittää) vs. epäinformatiivinen ovat myöskä

14.10.2009 SurveyMetodiikka 2009 Seppo 126

käytetyt.14.10.2009 126SurveyMetodiikka 2009 Seppo

Page 127: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 5äAnalyysiä survey-datalla

Tee Suomen datalla jokin oma kokeilu käyttäen tätä malliaEsimerkki PISA 2006:sta SAS:lla

proc surveymeans data=pisa.impuoecd; where cnt='FIN' or cnt='DEU' or cnt='USA' or cnt='CAN' ornt 'ITA'cnt='IT ';

var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01;title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan';title 'Yso: Keskiarvot viidelle maalle sukupuolen mukaan'; run;proc surveymeans data=pisa.impuoecd; where nt='FIN' or nt='DEU' or nt='USA' or nt=' AN' orwhere cnt= FIN or cnt= DEU or cnt= US or cnt= C N or cnt='ITA';var meanscie meanread SCIEFUT WEALTH; domain cnt ST04Q01; strata stratum;Q ; ;cluster schoolid; weight w_fstuwt; title 'Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan'; run;

14.10.2009 SurveyMetodiikka 2009 Seppo 127

p

14.10.2009 127SurveyMetodiikka 2009 Seppo

Page 128: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 6Analyysiä survey-datalla

Tehtävänäsi on vertailla tuloksia (seuraavat sivut) ja jos haluat voit laskea myös DEFF-luvut.

Analyysiä survey datalla

yMuistat että DEFF vertaa varianssiestimaattia kullakin asetelmallayksinkertaisella satunnaisotannalla saatuun varianssiin, mikä nähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taasnähdään ensimmäisestä tulosteesta. Toisesta tulosteesta taas saadaan PISA:n asetelman keskivirheet. Muistanet että DEFF on varianssien suhde. Tuloksissa on sen sijaan keskivirheet, joiden neliö on varianssion varianssi.

Muuttujat:SCIEFUT Future-oriented science motivation PISA 2006 (WLE) WEALTH Family wealth PISA 2006 (WLE)meanscie Luonnontieteellisen osaamisen keskiarvo oppilastasollameanread luetun tekstin ymmärtämisen keskiarvo oppilastasolla

14.10.2009 SurveyMetodiikka 2009 Seppo 12814.10.2009 128SurveyMetodiikka 2009 Seppo

Page 129: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 7Analyysiä survey-datalla

Yso: Keskiarvot viidelle maalle sukupuolen mukaan 6

Domain Analysis: Country code 3-character

yy y

Country code Std Error3-character Variable Mean of Mean 95% CL for Mean�����������������������������������������������������������������������������������Canada meanscie 522.523293 0.613824 521.320195 523.726390

meanread 512.318449 0.632880 511.077998 513.558899SCIEFUT 0.257585 0.007095 0.243678 0.271492WEALTH 0.085487 0.004586 0.076499 0.094475

Germany meanscie 516.206675 1.388157 513.485882 518.927469meanread 496.530138 1.543957 493.503970 499.556306SCIEFUT -0.153333 0.015136 -0.182998 -0.123667WEALTH 0.241345 0.011343 0.219114 0.2635770 3 5 0 0 3 3 0 9 0 635

Finland meanscie 563.379017 1.196954 561.032982 565.725052meanread 547.080464 1.118021 544.889135 549.271793SCIEFUT -0.166362 0.012596 -0.191049 -0.141674WEALTH 0.400162 0.010679 0.379232 0.421092

Italy meanscie 487.153036 0.632060 485.914197 488.391876meanread 477 008107 0 695491 475 644939 478 371275meanread 477.008107 0.695491 475.644939 478.371275SCIEFUT 0.112834 0.006259 0.100566 0.125103WEALTH -0.162371 0.004848 -0.171873 -0.152869

United States meanscie 488.290911 1.366549 485.612470 490.969353meanread 478.515607 1.257594 476.050717 480.980497 SCIEFUT 0.212386 0.012976 0.186952 0.237820WEALTH 0.150960 0.010691 0.130006 0.171914

�����������������������������������������������������������������������������������

14.10.2009 SurveyMetodiikka 2009 Seppo 12914.10.2009 129SurveyMetodiikka 2009 Seppo

Page 130: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 8Analyysiä survey-datalla

Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8Data Summary

Number of Strata 135

Analyysiä survey datalla

Number of Strata 135Number of Clusters 2242Number of Observations 59635Sum of Weights 5433873.59

Domain Analysis: Country code 3-character

Country code Std ErrorCountry code Std Error3-character Variable Mean of Mean 95% CL for Mean�����������������������������������������������������������������������������������Canada meanscie 534.469777 2.096610 530.358234 538.581321

meanread 527.011295 2.266225 522.567129 531.455462SCIEFUT 0.202674 0.014836 0.173579 0.231768WEALTH 0.155705 0.014736 0.126808 0.184603

Germany meanscie 515.649130 5.082070 505.683073 525.615186meanread 494.944418 5.800636 483.569236 506.319600SCIEFUT -0.150840 0.020130 -0.190315 -0.111364WEALTH 0.241042 0.020835 0.200185 0.281900

Finland meanscie 563 322834 2 012347 559 376564 567 269104Finland meanscie 563.322834 2.012347 559.376564 567.269104meanread 546.868281 2.222051 542.510776 551.225787SCIEFUT -0.170775 0.015194 -0.200570 -0.140979WEALTH 0.396974 0.014315 0.368901 0.425046

Italy meanscie 475.397220 2.309913 470.867341 479.927100meanread 468.523109 2.629278 463.366935 473.679282SCIEFUT 0 196975 0 016020 0 165559 0 228392SCIEFUT 0.196975 0.016020 0.165559 0.228392WEALTH -0.120927 0.012365 -0.145176 -0.096678

United States meanscie 488.906837 4.893079 479.311395 498.502279meanread 478.850105 4.409943 470.202105 487.498104SCIEFUT 0.201740 0.014077 0.174134 0.229347WEALTH 0.150898 0.031162 0.089788 0.212008

14.10.2009 SurveyMetodiikka 2009 Seppo 13014.10.2009 130SurveyMetodiikka 2009 Seppo

Page 131: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Perusestimointi 9Analyysiä survey-datalla

Yso: Keskiarvot viidelle maalle sukupuolen mukaan Domain Analysis: Gender Q4

Gender Std Error

Analyysiä survey datalla

Q4 Variable Mean of Mean 95% CL for Mean����������������������������������������������������������������������������Female meanscie 508.021161 0.534470 506.973597 509.068724

meanread 520.685393 0.563625 519.580682 521.790103SCIEFUT 0.093977 0.005756 0.082695 0.105259WEALTH -0.008827 0.004236 -0.017129 -0.000525WEALTH 0.008827 0.004236 0.017129 0.000525

Male meanscie 510.189483 0.577763 509.057065 511.321900meanread 478.456622 0.630157 477.221510 479.691733SCIEFUT 0.174581 0.005830 0.163153 0.186008WEALTH 0.085481 0.004362 0.076931 0.094030

����������������������������������������������������������������������������

Ositettu kaksiasteinen ryväsotanta: Keskiarvot viidelle maalle sukupuolen mukaan 8Domain Analysis: Gender Q4

Gender Std ErrorGender Std ErrorQ4 Variable Mean of Mean 95% CL for Mean����������������������������������������������������������������������������Female meanscie 494.890425 3.203572 488.607931 501.172919

meanread 515.892143 2.903679 510.197768 521.586519SCIEFUT 0.069997 0.013949 0.042641 0.097352WEALTH 0 114305 0 022265 0 070641 0 157969WEALTH 0.114305 0.022265 0.070641 0.157969

Male meanscie 497.131693 3.956830 489.371990 504.891396meanread 475.987262 3.359295 469.399379 482.575145SCIEFUT 0.211679 0.015411 0.181457 0.241901WEALTH 0.169271 0.023587 0.123015 0.215528

����������������������������������������������������������������������������

14.10.2009 SurveyMetodiikka 2009 Seppo 13114.10.2009 131SurveyMetodiikka 2009 Seppo

Page 132: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Kolmiulotteinen pylväs- ym. diagrammi

CAED

14.10.2009 SurveyMetodiikka 2009 Seppo 132

Page 133: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä surveydatalla - Mallittamisesta 1

Tällä kurssilla ei ole käydä mallittamista läpi laajasti, joten kiinnostuneen on tarpeen osallistua muillekin kursseille ja/tai opiskella asioita kirjallisuudesta Oikean datan kanssa kokeilu auttaa erityisen paljonkirjallisuudesta. Oikean datan kanssa kokeilu auttaa erityisen paljon avartamaan mallittamista. Edellä on jo kuvattu mallityypit. Kun mallittamisen käyttö on selvitetty, on mietittävä, mikä malli sopii ao. tilanteeseen Vaihtoehtojahan on Tässä keskustelen lähinnä lineaarisistatilanteeseen. Vaihtoehtojahan on. Tässä keskustelen lähinnä lineaarisista tai linearisoiduista malleista. Linearisointi viittaa siihen, että jos aineisto ei näytä sellaiselta että lineaarinen malli sopisi (eli selitettävän jakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovatjakaumafunktio on normaalinen ja yhteydet siitä selittäjiin ovat lineaarisia), niin on tehtävä operaatioita joilla nämä saadaan aikaan. Puhutaan yleistetyistä lineaarisista malleista (Generalized Linear Models)Models). * Ohjelmistoissa on tällaiseen hyviä vaihtoehtoja, osa siten että silläsaa yhden ratkaisun aikaan (kuten Proc Logistic SAS:ssa tai vastaava SPSS ssä) Tässä linkkif nktio logit ja jaka ma on binäärinen TämäSPSS:ssä). Tässä linkkifunktio = logit ja jakauma on binäärinen. Tämä oli jo esillä vastaamisen mallittamisessa. * Toinen strategia on käyttää yleisempää ohjelmistoa, johon voi valita k h ki til t i t li kit j j k t (SAS P G d)

14.10.2009 SurveyMetodiikka 2009 Seppo 133

kuhunkin tilanteeseen sopivat linkit ja jakaumat (SAS:ssa Proc Genmod). 14.10.2009 133SurveyMetodiikka 2009 Seppo

Page 134: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä surveydatalla - Mallittamisesta 2

Kuten on jo todettu, uusissa ohjelmistoissa on mahdollista sisällyttää malliin myös ryväs jos sellainen on otanta-asetelmassa ja osite jos sellaista on käytetty Kuten keskiarvoesimerkissä edellä on havaittusellaista on käytetty. Kuten keskiarvoesimerkissä edellä on havaittu, ryväs-vaikutus on usein suurempi kuin osite-vaikutus. SAS:ssa voi nämä mallit tehdä SurveyLogistic:lla ja SPSS:ssä on logistic Complex Samples ohjelmassa Siten tämän tyypin malli on varsin helppoSamples -ohjelmassa. Siten tämän tyypin malli on varsin helppo surveyaineistolla.

SAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallinSAS:ssa on myös SurveyREG jolla saa tavallisen lineaarisen mallin estimaatit oikein keskivirheiden osalta. Se toimii ihan samoin kuin perusSAS:in GLM jossa on kuitenkin vain otospainon mahdollisuus. SPSS:ssä GLM:ää vastaa General Linear Model joka on samallaSPSS:ssä GLM:ää vastaa General Linear Model joka on samalla nimellä sekä perusSPSS:n että Complex Samples:n puolella. Kysehän on monimuuttujaisesta regressiomallista, jossa on yksi selitettävä ja

oit asettaa selittäjiksi sekä jatk ia että l okitelt ja (kategorisia)voit asettaa selittäjiksi sekä jatkuvia että luokiteltuja (kategorisia) muuttujia. Muuttujan luonne on ilmaistava (SAS:ssa asettamalla luokitellut CLASS-ryhmään, SPSS:ssä asettamalla nämä Factors-l tikk )

14.10.2009 SurveyMetodiikka 2009 Seppo 134

laatikkoon).14.10.2009 134SurveyMetodiikka 2009 Seppo

Page 135: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Mallittamisesta 3

Kuten edeltä ilmenee, ei kaikkiin ohjelmistoihin ole SAS:ssa eikä SPSS:ssä kaikkia monimutkaisen surveyn optioita, mutta painopuuttuja on eli minimi Voi olla myös niin ettei aineistossa olepainopuuttuja on eli minimi. Voi olla myös niin, ettei aineistossa ole niitä, vaikka otanta olisi perustunut ryppäisiin yms. Miten tällöin menetellä. Piste-estimointi siis tulee oikein. Mi i i lä MITEN?Mieti vielä, MITEN?Entäpä keskivirheet, luottamusvälit ja p-arvot?

En kykene antamaan tyhjentävää vastausta, mutta jotakin:- Ole konservatiivinen eli älä vedä suuria johtopäätöksiä vähäisestätilastollisesta merkitsevyydestä.yy- Arvioi vaikkapa SurveyMeans:n kautta kuinka suuri voisi DEFF olla. On onneksi usein niin että mallissa DEFF on pienempi (lähempänä ykköstä) kuin keskiarvolaskelmissa ja erityisesti jos otanta-ykköstä) kuin keskiarvolaskelmissa, ja erityisesti jos otantaasetelmamuuttujia on mukana mallin selittäjissä tai muissa osioissa.

14.10.2009 SurveyMetodiikka 2009 Seppo 13514.10.2009 135SurveyMetodiikka 2009 Seppo

Page 136: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 1

Kurssin lopun mallitusharjoitukset tehdään yleisellä lineaarisella (regressio)mallilla. Teknisesti muut ohjelmat (vaikkapa logit tai probit tai monitasovaihtoehdot) toimivat samaan tapaan Yleinenprobit tai monitasovaihtoehdot) toimivat samaan tapaan. Yleinen lineaarinen tilanne on ehkä yleisin tilanne eikä välttämättä monimutkainen, joten valinta tehtiin tästä syystä. Muilla kursseilla

i l j i ä ä i ö i l k lvoit laajentaa tietämystäsi, myös teoreettiselta kannalta.

Regressiotyyppisessä mallissa selitettävän tulee olla jatkuva muuttuja tai sellaisena käsitelty. ESS:ssä on esimerkiksi runsaasti järjestysasteikollisia muuttujia joita voi siten asettaa selitettäviksi malliin ja etsiä selittäjät teorian ja yleisen tietämyksen mukaan. j j j y yPISA:n osaamismuuttujat näyttävät jatkuvilta vaikka ovat nekin järjestysasteikollisia. Ne ja monet muut sopivat siis selitettäviksi.

Seuraavaksi otan esimerkin kummastakin. Ensin PISA.

14.10.2009 SurveyMetodiikka 2009 Seppo 13614.10.2009 136SurveyMetodiikka 2009 Seppo

Page 137: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 2 (PISA)

Otan esimerkkiin melkoisen yksinkertaisen selitettävän eli PISA2006:n päämuuttujan = luonnontieteellisen osaamisen. Koska se on laskettua 5 eri �uskottavan eli osin imputoidun�Koska se on laskettua 5 eri uskottavan eli osin imputoidun osaamisarvon keskiarvona, se on nimetty pvmeanscie

Al i lli i lk ll llii li äjiäAloitan mallittamisen melko nollasta asettamatta malliin selittäjiä ollenkaan. SAS-ohjelma on seuraava:

proc surveyreg data=pisa.fi; model pvmeanscie =/solution;/solution;cluster schoolid; strata stratum; weight w_fstuwt;title 'Luonnontieteellisen osaamisen malli 1: vakio';run;

Näet että otanta-asetelmatekijät on sijoitettu malliin samoin kuin edellä SURVEYMEANS:ssa

run;

14.10.2009 SurveyMetodiikka 2009 Seppo 137

edellä SURVEYMEANS:ssa.

14.10.2009 137SurveyMetodiikka 2009 Seppo

Page 138: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 3 (PISA)

Luonnontieteellisen osaamisen malli 1: vakio The SURVEYREG Procedure

Regression Analysis for Dependent Variable pvmeanscieData Summary

Tällainen �pohja-malli� voi ollahNumber of Observations 4714

Sum of Weights 61387.0Weighted Mean of pvmeanscie 563.32283Weighted Sum of pvmeanscie 34580690

Design Summary

hassu mutta näet kuitenkinettä se tuottaa

Design SummaryNumber of Strata 12Number of Clusters 155

Fit StatisticsR-square 0.97910.97910.97910.9791

Intercept:n elivakion jokaon tasan sama

Root MSE 82.2705Denominator DF 143

Tests of Model Effects

Effect Num DF F Value Pr > F

o asa sa akuin keskiarvo.Lisäksi saatkeskivirheenEffect Num DF F Value Pr > F

Model 0 . .Intercept 1 78362.6 <.0001

NOTE: The denominator degrees of freedom for the F tests is 143.

E ti t d R i C ffi i t

keskivirheen (noin 2 pistettä)ja tavalliset tunnusluvutEstimated Regression Coefficients

StandardParameter Estimate Error t Value Pr > |t|

Intercept 563.322834 2.01234725 279.93 <.0001

tunnusluvutjotkaolivat täysin

d14.10.2009 SurveyMetodiikka 2009 Seppo 138

odotetut14.10.2009 138SurveyMetodiikka 2009 Seppo

Page 139: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 4 (PISA)

Tässä on kaksiselittäjää,taustatekijöitä.

Fit StatisticsR-square 0.043000.043000.043000.04300Root MSE 80.0972Denominator DF 143taustatekijöitä.

Nyt selitysasteellaon mieltä, päinvastoin

Class Level InformationClassVariable Label Levels ValuesST04Q01 Gender Q4 2 Female Male

Tests of Model Effectspäinvastoinkuin edellisessä.Vanhempienk l t i

Effect Num DF F Value Pr > FModel 2 88.36 <.0001Intercept 1 3801.67 <.0001ST04Q01 1 1 06 0 3054koulutusvuosien

määrä PAREDon merkittävä

ST04Q01 1 1.06 0.3054PARED 1 176.63 <.0001

NOTE: The denominator degrees of freedom for the F tests is 143.

i d i C ffi iselittäjä. Onkosukupuoli?Huom.

Estimated Regression CoefficientsStandard

Parameter Estimate Error t Value Pr > |t|

Intercept 462.848247 7.73360330 59.85 <.0001

Tulosteon supistettu.

pST04Q01 Female 2.587664 2.51562093 1.03 0.3054ST04Q01 Male 0.000000 0.00000000 . .PARED 6.900300 0.51919624 13.29 <.0001

14.10.2009 SurveyMetodiikka 2009 Seppo 13914.10.2009 139SurveyMetodiikka 2009 Seppo

Page 140: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 5 (PISA)Luonnontieteellisen osaamisen malli 1: koulumuuttujia myös

R-square 0.1302The SURVEYREG ProcedureThe SURVEYREG Procedure

Regression Analysis for Dependent Variable pvmeanscieEstimated Regression Coefficients

StandardParameter Estimate Error t Value Pr > |t|

Intercept 457.127120 8.12594084 56.26 <.0001ST04Q01 Female 0.766337 2.35962872 0.32 0.7458ST04Q01 Male 0.000000 0.00000000 . .PARED 6.312026 0.48769981 12.94 <.0001student_discussion -0.093062 0.04806734 -1.94 0.0548student_debate -0.899094 0.05486628 -16.39 <.0001student_ideas 0.045172 0.05902113 0.77 0.4453teacher_explain 0.569431 0.09131187 6.24 <.0001practical work 0.379530 0.07060081 5.38 <.0001

Tässä on estimaatteja kun malliin on lisätty joukko koulutason muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden

practical_work 0.379530 0.07060081 5.38 .0001

muuttujia eli koulun opetuksen toimintatapoja mutta oppilaiden näkemyksen mukaan. Et ehkä ymmärrä täysin muuttujan merkitystä mutta nimi on annettu kuvaamaan itse asiaa ja selittävän muuttujan k l [ ]

14.10.2009 SurveyMetodiikka 2009 Seppo 140

skaala on [0, 100]. 14.10.2009 140SurveyMetodiikka 2009 Seppo

Page 141: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 1 (ESS)Tässä osastossa kokeilen mallittaa ESS-datalla 15+ -ikäisten onnellisuutta, mikä on viime vuosina noussut kiintoisaksi aiheeksi taloustieteilijöiden, psykologien ja sosiaalitieteilijöiden tutkimuksissa. En ratkaise tässä tätä vaan esitän muutamia hahmotuksia mallin rakentamiseksi. Lue lisää vaikkapa Blanchflowerin, Oswaldin, Easterlinin ja Narsin julkaisuista. ESS-datasta tuotin painottamattoman frekvenssijakauman pohjakatselua ja mallinpainottamattoman frekvenssijakauman pohjakatselua ja mallin hahmottelua varten. Tein alkuperäiseen skaalaan[0 10] lineaarisen[0,10] lineaarisenmuunnoksen siten että tässä skaala

[ ]on [0,100]. Painotettukeskiarvo =71,7,ja cv=28,2

14.10.2009 SurveyMetodiikka 2009 Seppo 14114.10.2009 141SurveyMetodiikka 2009 Seppo

Page 142: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 2 (ESS)

Onnellisuusjakauma ei ole erityisen normaalinen mutta tässä en kanna siitä huolta, koska tutkimusten valtavirtakaan ei ole niin tehnyt. Mieti kuitenkin voisitko kokeilla jotain muuta mallia?

Jo edellisestä esimerkistä olet oppinut että jos selität onnellisuuttaJo edellisestä esimerkistä olet oppinut että jos selität onnellisuutta maalla, saat maakohtaiset onnellisuuden keskiarvot (vakioon kun lisäät maan estimaatin). Vastaavasti jos selität onnellisuutta muuttujien maa = CNTRY ja ESS-kierroksen = ESSROUNDmuuttujien maa = CNTRY ja ESS-kierroksen = ESSROUND vuorovaikutusmuuttujalla, saat kunkin maan ESS-kierroksittaiset keskiarvot. Tässä en näin tehnyt vaan käytin ESS-kierrosta 4 jossaon siis mukana 18 maata tässä vaiheessaon siis mukana 18 maata tässä vaiheessa.

Otin kurssilaisten esille tuomista muuttujista muutaman sekä lisäksi i i iä äid k i k i ää SAS llperinteisiä. Näiden tarkempi kuvaus esitetään SAS:n avulla.

14.10.2009 SurveyMetodiikka 2009 Seppo 14214.10.2009 142SurveyMetodiikka 2009 Seppo

Page 143: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Analyysiä survey-datalla - Malliesimerkit 3 (ESS)

Tests of Between-Subjects Effectsb

Dependent Variable:onnellisuus

Type III Sum of Partial Eta

Tässä on kaikkien

li ji

Tulkitse tuloksia

Source Squares df Mean Square F Sig. Squared

Corrected Model 1,087E6 43 25279,066 81,106 ,000 ,150

Intercept 789928,749 1 789928,749 2534,438 ,000 ,114

siviilisaaty 159396,485 9 17710,721 56,824 ,000 ,025

selittäjienmerkitsevyyttä ym kuvaava

tuloksia tällä yleisellä tasolla

INWTM 25,112 1 25,112 ,081 ,777 ,000

vas_oik 20542,628 1 20542,628 65,910 ,000 ,003

ika2 59878,955 1 59878,955 192,118 ,000 ,010

SPSS-tuloste.PoikkeaaSAS:n

tasollasekä jatka seuraavan i

ika 78899,475 1 78899,475 253,144 ,000 ,013

rukoilu 12,264 1 12,264 ,039 ,843 ,000

personal20 19611,701 1 19611,701 62,923 ,000 ,003

liika_etu 552,149 1 552,149 1,772 ,183 ,000 S Svastaavasta mutta samat asiat ovat

sivun tarkemmankuvauksen

CNTRY 482619,826 16 30163,739 96,779 ,000 ,073

GNDR 5837,948 1 5837,948 18,731 ,000 ,001

INWMME 5629,140 10 562,914 1,806 ,054 ,001

asiat ovat mukana.

kanssa. Error 6163433,718 19775 311,678

Total 1,321E8 19819

Corrected Total 7250433,539 19818

a. R Squared = ,150 (Adjusted R Squared = ,148)

14.10.2009 SurveyMetodiikka 2009 Seppo 14314.10.2009 143SurveyMetodiikka 2009 Seppob. Weighted Least Squares Regression - Weighted by Design weight

Page 144: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Dependent Variable:onnellisuus

Parameter B Std. Error t Sig.

95% Confidence Interval

Partial Eta SquaredLower Bound Upper Bound

Intercept 72,451 1,166 62,154 ,000 70,167 74,736 ,158

Tä tä ti ttitINWTM ,001 ,005 ,186 ,853 -,008 ,010 ,000

vas_oik ,055 ,006 9,563 ,000 ,044 ,066 ,004

ika2 ,003 ,000 7,353 ,000 ,002 ,004 ,003

ika - 326 035 -9 264 000 - 394 - 257 004

Tästä estimaattitason tulosteesta on jätetty kaksi muuttujaa pois koska oli

ika -,326 ,035 -9,264 ,000 -,394 -,257 ,004

rukoilu ,004 ,003 1,037 ,300 -,003 ,010 ,000

personal20 ,031 ,004 7,165 ,000 ,022 ,039 ,002

liika_etu ,004 ,005 ,773 ,439 -,006 ,014 ,000

vaikeuksia saada tuloste jonnekin mahtumaan. Nytkin sulla lienee

[CNTRY=BE] 7,712 ,795 9,702 ,000 6,154 9,270 ,005

[CNTRY=BG] -10,510 ,783 -13,419 ,000 -12,046 -8,975 ,009

[CNTRY=CH] 10,709 ,724 14,785 ,000 9,289 12,128 ,011

[CNTRY=CY] 9,880 ,841 11,750 ,000 8,232 11,528 ,007

yvaikeuksia hahmottaa kaikkea hyvin. Yritä kuitenkin. Muuttujan nimi

[CNTRY=DE] 5,357 ,721 7,426 ,000 3,943 6,771 ,003

[CNTRY=DK] 14,106 ,853 16,541 ,000 12,434 15,777 ,013

[CNTRY=EE] ,599 ,887 ,675 ,500 -1,141 2,338 ,000

[CNTRY=ES] 9,722 ,748 13,004 ,000 8,257 11,188 ,008

kuitenkin. Muuttujan nimi paria poikkeusta lukuunottamatta asetettu mahdollisimman hyvin

[CNTRY=FI] 11,532 ,740 15,591 ,000 10,082 12,982 ,012

[CNTRY=FR] 4,844 ,739 6,554 ,000 3,395 6,292 ,002

[CNTRY=GB] 6,660 ,705 9,443 ,000 5,277 8,042 ,004

[CNTRY=NO] 11,279 ,813 13,869 ,000 9,685 12,873 ,009

mahdollisimman hyvin kuvaamaan sen luonnetta. Skaalat ovat usein [0,100] k t k il j i [CNTRY=PL] 4,516 ,828 5,451 ,000 2,892 6,139 ,001

[CNTRY=PT] ,913 ,774 1,180 ,238 -,604 2,431 ,000

[CNTRY=RU] -5,272 ,809 -6,520 ,000 -6,857 -3,687 ,002

[CNTRY=SE] 10,008 ,782 12,791 ,000 8,474 11,541 ,008

kuten rukoilu jossa iso arvo merkitsee tiheämpää rukoilemista ja arvo = 0

[CNTRY=SI] 6,125 ,903 6,782 ,000 4,355 7,895 ,002

[CNTRY=SK] 0a . . . . . .

[GNDR=1] -1,004 ,243 -4,137 ,000 -1,480 -,528 ,001

[GNDR=2] 0a

ettei koskaan rukoile.

Page 145: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Harjoitusosio

Edellä on jo tuotu esille harjoitusmahdollisuuksia. Omakohtaiset mutta mikroluokassa ohjatut harjoitukset sisältävät seuraavaa:-Näytän Nielsenin tiedonkeruussa käytettävän skannerin toimintatavan.-Itsekukin tekee estimointeja Irak-datalla koskien kuolleiden jlukumääriä yms. estimaatteja koko maan tasolla; mukana voi olla taustamuuttujia. Nyt panostetaan keskivirheisiin ja luottamusväleihin edellisessä vaiheessa tehdyn pohjalta.luottamusväleihin edellisessä vaiheessa tehdyn pohjalta. -Itsekukin tekee minimissään kolmenlaisten estimointien kokeilun PISAn Suomi-datalla itse valitsemilleen muuttujille ja mahdollisille taustamuuttujille: (i) keskiarvoja (ii) frekvenssejämahdollisille taustamuuttujille: (i) keskiarvoja, (ii) frekvenssejä, (iii) monimuuttujainen regressiomalli. Keskivirheet eri tavoilla laskettuna (huonommilla ja paremmilla) ovat tärkeitä myös.

SAS-ajojen ohjeet on edellä näytetty. Seuraavilla sivuilla on lähtökohdat SPSS:lle.

14.10.2009 SurveyMetodiikka 2009 Seppo 145

Page 146: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 1

14.10.2009 SurveyMetodiikka 2009 Seppo 146

Page 147: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 2

14.10.2009 SurveyMetodiikka 2009 Seppo 147

Page 148: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 3

14.10.2009 SurveyMetodiikka 2009 Seppo 148

Page 149: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 4

14.10.2009 SurveyMetodiikka 2009 Seppo 149

Page 150: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 5

14.10.2009 SurveyMetodiikka 2009 Seppo 150

Page 151: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

SPSS-ajon lähtökohdat 6Hieman tuloksiakin tässä tulkitseHieman tuloksiakin tässä, tulkitse

14.10.2009 SurveyMetodiikka 2009 Seppo 151

Page 152: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 1

Kertaus:Otospaino kuvaa sitä kuinka monta tilastoyksikköä yksi otosyksikkö p y y yvastaa tutkimusperusjoukossa joka toivon mukaan on lähellä tavoiteperusjoukkoa. Jos paino on yksi, on taustalla kokonaistutkimus, osite josta kaikki on valittu tai erityishavaintoarvo. Tällaisia painoja on j y p juseinkin yhteisötyyppisissä tiedusteluissa eli jos esimerkiksi kaikki isot yritykset ja kunnat ovat mukana otoksessa. Kotitaloustyyppisissä tiedusteluissa painot ovat hyvinkin isoja, satoja tai tuhansia tai jopa p y j , j j pkymmeniä tuhansia. Siten yksi vastaaja edustaisi perusjoukossa painon ilmoittaman määrän yksikköjä. Ideaalitilanteessa kaikki hänen edustamansa yksiköt olisivat samanlaisia kuin hän, silloin saataisiin y ,täysin luotettava tulos. Näin ei tietenkään juuri koskaan ole. Mutta vaihtelun tässä alaryhmässä tulisi ainakin olla pientä eli painon edustaman ryppään tulisi olla mahdollisimman homogeeninen.edustaman ryppään tulisi olla mahdollisimman homogeeninen.

Seuraavaksi esitän Neljä keskeistä uutta otospainoa aikaisemmin esitetynasetelmapainon (symboli ak) lisäksi (Kertaa sen idea!).

14.10.2009 SurveyMetodiikka 2009 Seppo 152

asetelmapainon (symboli ak) lisäksi (Kertaa sen idea!).

14.10.2009 152SurveyMetodiikka 2009 Seppo

Page 153: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 2

(b) Perusotospainot tai lyhyemmin peruspainot jotka vastaavat edellisiäpainoja mutta nyt toimitaan vain vastaajien tasolla. Näiden avullal k tt t ti tit t ik ll t ll j l t tt i jlaskettavat estimaatit ovat oikealla tasolla ja luotettavia, josvastaamattomuus on harmitonta eikä kehikko-ongelmia ole (vastaa siismekanismia MARS). Käytetään näistä painoista kuitenkin eri symbolia,

j k i kik i it t t i t til t (kwk, joka on esimerkiksi ositetun satunnaisotannan tilanteessa (kun nh

vaihdetaan rh :een)wk = Nh/rh

On hyvä huomata, että tämä saadaan otanta-asetelmapainostaseuraavasti: wk = ak (nh/rh )

Painojen summa kussakin ositteessa on sama kuin asetelmapainoillalaskettuna. Painojen jakauma pysyy samana mikäli ylipeiton javastaamattomien summa on kussakin ositteessa suhteellisesti sama Sitenvastaamattomien summa on kussakin ositteessa suhteellisesti sama. Sitensiis jos vastauskadon ja ylipeiton summa vaihtelee, myös painojenjakauma muuttuu.

14.10.2009 SurveyMetodiikka 2009 Seppo 15314.10.2009 153SurveyMetodiikka 2009 Seppo

Page 154: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 3

(c) Jälkiositukseen perustuva painotus (post-stratification). Tässätapauksessa uusinta kehikkoa hyväksikäyttäen muodostetaan uusi ositusp y y(jos on jo esiositus niin sen päälle), jossa tavoitellaan löytäämahdollisimman homogeenisia osajoukkoja.

Siis käytetään päivitettyä kehikkoa jos sellainen on olemassa mutta y p y jtoimintaa voi toki toteuttaa myös alkuperäiselle kehikolle, jolloin harhan oikaiseminen on rajoitetumpaa.

Jälkiositustiedon kehikosta tulisi olla laadukasta, muutoin menetelmä voi,heikentää estimaattien tarkkuutta. Tavallisimmin jälkiositus perustuuhelposti saatavissa oleviin taustamuuttujiin kuten kotitaloussurveyssäalueeseen, ikään, sukupuoleen ja ehkä sosioekonomisen aseman karkean, , p jmuotoon. Yrityssurveyssä voidaan mennä esimerkiksi esiositustatarkemmalle toimialatasolle. Jälkiositus on erityisesti kehikkovirheestäjohtuvan harhan oikaisumenetelmä, mutta usein se myös oikaiseejohtuvan harhan oikaisumenetelmä, mutta usein se myös oikaiseevastauskadosta johtuvaa harhaa. Sen avulla voidaan myös tarkentaaestimaatteja mutta taattua onnistuminen ei ole.

14.10.2009 SurveyMetodiikka 2009 Seppo 15414.10.2009 154SurveyMetodiikka 2009 Seppo

Page 155: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 4Teknisesti jälkiosituspaino toimii seuraavasti tilanteessa jossa on joesiositteet h (h=1,..,H). Merkitään jälkiositteita vaikkapa g:llä (g=1,�,G).Jälkiositus voidaan tehdä vain esiositteiden sisälle, eli jälkiositteita on, jmaksimissaan H*G kappaletta. Jos tätä otospainoa merkitään wk(post),niin se saadaan vastaavalla tavalla kuin esiosituspohjainen paino eli

wk(post)= Nhg/rhg

Kuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukonKuten kaavasta havaitaan, jälkiosituksen ehtona on tuntea perusjoukonkoko Nhg esi- ja jälkiositteiden muodostamissa soluissa. Jollei näitä tietojaole riittävän luotettavasti saatavissa, ei jälkiositusta voi tehdä.Käytännössä harvoin jälkiositus voidaan pienotosongelmista johtuenKäytännössä harvoin jälkiositus voidaan pienotosongelmista johtuentoteuttaa siten, että kaikki H*G ositetta lopulta tulee käyttöön. Siis osaanesiositteista ei toteuteta jälkiositusta. Jälkiositus on helpomminmahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei olemahdollista, jos esiositteita on vähän tai varsinaista esiositusta ei oleollenkaan, tai siis on vain yksi kappale, kuten yksinkertaisensatunnaisotannan tai implisiittisen osituksen tapauksessa.

14.10.2009 SurveyMetodiikka 2009 Seppo 15514.10.2009 155SurveyMetodiikka 2009 Seppo

Page 156: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Jälkiositusesimerkki

Historiatietoisuus Suomessa, brutto-otos

Tämä on alkuosaltaan sama kuin aikai-semmin esitetty osite-esimerkki mutta vasemmassa taulukossa ovat myös asetelma

Väestö

Osite määräBrutto-otoskoko

Asetelmapaino

Fi Other 3185530 2 160 1474 782

vasemmassa taulukossa ovat myös asetelma-painot. Alempi tilanne on fiktiivinen jossa olen kuvitellut vastausaktiivisuuden

ih l i llä ll Ol iFi_Other 3185530 2 160 1474,782Fi_Young 665868 655 1016,592Sv_Other 182810 470 388,9574Sv_Young 39423 145 271,8828

4073631 3430

vaihtelevan tietyllä tavalla. Olen sitten tutkinut vastanneiden aineistoa ja muodostanut 12 jälkiositetta.

Jälkiosite ikäryhmä*sukupuoli*kieli

Ikäryhmä Sukupuoli Kieli Väestö VastanneetJälkiositettu otospaino

Brutto-otos

Vastausprosentti ylipeitto mukana

15-24 1 fi 321313 119 2700,109244 317 37,5394315 24 1 19306 29 665 7241379 75 38 66667

Näiden jälkiositteiden vastausaktiivisuus ilme-

l k ik15-24 1 sv 19306 29 665,7241379 75 38,6666715-24 2 fi 309045 130 2377,269231 285 45,6140415-24 2 sv 18290 29 630,6896552 63 46,0317525-50 1 fi 806154 317 2543,072555 583 54,3739325-50 1 sv 44333 58 764,362069 109 53,2110125-50 2 fi 784507 273 2873 652015 523 52 19885

nee taulukon oikeasta sarakkeesta. Vastaavasti olen laskenut rekisteristä 25 50 2 fi 784507 273 2873,652015 523 52,19885

25-50 2 sv 41009 61 672,2786885 111 54,9549551+ 1 fi 777126 311 2498,797428 510 60,9803951+ 1 sv 49268 71 693,915493 132 53,7878851+ 2 fi 853636 245 3484,228571 598 40,969951+ 2 sv 49644 52 954,6923077 125 41,6

kunkin jälkiositteen väestömäärät minkä jälkeen onkin helppo

14.10.2009 SurveyMetodiikka 2009 Seppo 156

4073631jä ee o e ppomuodostaa painot.

Page 157: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 5(d) Kalibrointi joka on jälkiosituksen laajennus eli jälkiositus onkalibroinnin perusmuoto.

Kehikkoperusjoukkotason muuttujia voi olla useita eikä niitä tarvitsesoveltaa ristiinluokittelemalla kuten jälkiosituksessa. Ristiinluokittelunongelmanahan ovat usein liian pienet solut mitattuna vastaajien määrilläongelmanahan ovat usein liian pienet solut, mitattuna vastaajien määrillä.Vastaavasti painot voivat olla liian epäluotettavia. Kalibroinnin mukavinpuoli on siinä, että sen avulla voidaan tietyt reunajakaumat (sellaiset jotkakäyttäjä valitsee) määritellä juuri halutuiksi mieluiten oikeiksi joskäyttäjä valitsee) määritellä juuri halutuiksi, mieluiten oikeiksi, jossellaiset on tiedossa. Tavallisimmin tätä sovelletaan siten että surveystäsaadaan väestön karkeat ikäjakaumat isohkoilla aluejaoilla sukupuolittainviimeisimmän väestötilaston (eli benchmark aineiston) mukaiseksi Tämäviimeisimmän väestötilaston (eli benchmark-aineiston) mukaiseksi. Tämäluo luottamusta käyttäjissä. Muilla tasoilla ei yhteensopivuuttakuitenkaan voida taata kuin sellaisilla jotka on kalibrointimalliinsijoitettusijoitettu.

14.10.2009 SurveyMetodiikka 2009 Seppo 15714.10.2009 157SurveyMetodiikka 2009 Seppo

Page 158: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 6

Kalibrointi voidaan toteuttaa minkä tahansa muun painotuksen pohjalle, jos ja kun toiminto toteutetaan riippumattomasti niistä. Olkoot seuraavassa nämä painot w. Jos vastaavasti kalibroituja otospainoja merkitään w(cal): lla niin seuraava kalibrointiyhtälö täytyy päteä:

p

merkitään w(cal): lla, niin seuraava kalibrointiyhtälö täytyy päteä:

∑∑ =U kk xx

krw(cal) ∑∑ Ukr

Siis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samatSiis käyttämällä tuntemattomia kalibrointipainoja vastanneiden aineistossaon on saatava samat �estimointitulokset� benchmark-totuuden kanssa eli käyttäjän valitsemien reunajakaumien mukaiset estimointitulokset. On varsin helppo päätellä, että löytyy useita vaihtoehtoja yhtälön toteutumiselle. Siksi täytyy löytää lisäehtoja ja mielellään sellaisia joista on hyötyä varsinaiseen estimointiin eli y-muuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapamuuttujista tuotettuihin vaihtoehtoihin alkaen kokonaissummista ja keskiarvoista ja edeten vaikkapa malliestimaatteihin.

Klassinen lähestymistapa on käyttää etäisyysmittaa. Tässä muodostetaan etäisyysmitta aloituspainojen ja haluttujen painojen välille ja minimoidaan se siten että edellä mainittu ehto pätee. p j j j p j j pSiten siis painot ovat sellaiset että erot aloituspainojen ja kalibroitujen painojen välillä ovat tietyssä mielessä mahdollisimman pienet eli alkutila ei muutu liikaa mutta benchmark-etu saavutetaan eli tietyt estimaatit ovat sellaisia kuin käyttäjä on halunnut.

14.10.2009 Painotusmenetelmät 2009, Seppo 158

Page 159: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 7(e) Vastauskatomalliin (response propensity modelling) perustuva uudelleenpainotus.

Tässä mallitetaan vastausmekanismi logistisella tai probitregressiolla, mallista otetaan ennustearvot kullekin vastaajalle ja näiden käänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopivakäänteisluvuilla kerrotaan edeltävät painot sekä suoritetaan sopiva skaalaus. Oletuksena on siis että vastausmekanismi on MAR. Menetelmä toimii sitä paremmin mitä parempaa tietoa vastaamattomista on käytössä vastausmekanismin kannalta (siis koskien sekä vastanneita ettävastausmekanismin kannalta (siis koskien sekä vastanneita että vastaamattomia yksikkötasolla). Yleensä aputietoa tähän on enemmän käytettävissä kuin esimerkiksi jälkiositukseen, joka edellyttää perusjoukkotason agregoitua aputietoa Tämä on menetelmän selkeä etuperusjoukkotason agregoitua aputietoa. Tämä on menetelmän selkeä etu. Etuna on myös, että se suoraan pureutuu vastauskatoon.

Itse käyttäisin tätä ainakin isoissa otoksissa sehän voi sisältääItse käyttäisin tätä ainakin isoissa otoksissa, sehän voi sisältää parhaimmillaan myös jälkiosituksen ja/tai kalibroinnin. Huomaa, että pieniin aineistoihin, erityisesti isoja yrityksiä koskeviin, ei oikein mikään painotusmenetelmä sovi hyvin Imputointi olisi parempi

14.10.2009 SurveyMetodiikka 2009 Seppo 159

painotusmenetelmä sovi hyvin. Imputointi olisi parempi.

14.10.2009 159SurveyMetodiikka 2009 Seppo

Page 160: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 8

Teknisesti vastaustodennäköisyysmallia hyödyntävä painotus toteutetaan seuraavasti Koska tämä on riippumaton muista uudelleenpainotuksistaseuraavasti. Koska tämä on riippumaton muista uudelleenpainotuksista, menetelmä voidaan toteuttaa mihin aikaisempaan painoon tahansa kytkettynä. Olkoon seuraavassa meillä ensin paino wk ja logistinen regressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydetregressio antoi kullekin vastaajalle k estimoidut vastaustodennäköisyydet pk. Tällöin uudet painot saadaan seuraavasti:

w (res)= (w /p )qwk(res)= (wk/pk)qc ,

jossa qc = skaalaustekijä, jonka avulla painot täsmäytetään halutun benchmark ryhmän c tasolle Tämä on usein helpointa tehdä ositustasollabenchmark-ryhmän c tasolle. Tämä on usein helpointa tehdä ositustasolla (esiositus jollei jälkiositusta ole tehty, muuten jälkiositus) mutta voim myös muuta kalibrointia soveltaa.

14.10.2009 SurveyMetodiikka 2009 Seppo 16014.10.2009 160SurveyMetodiikka 2009 Seppo

Page 161: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 9 - Keskustelua 1ESS:ssä on tällä hetkellä käytössä asetelmapaino-nimellä kulkeva skaalattu paino. Se ei vastaa minun asetelmapaino-käsitettäni, vaan kysymys on osin perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta.perusotospainosta tai sen keskiarvoistetusta versiosta eli analyysipainosta. On mahdollista, että paremmat painot tulevat käyttöön jos testausprojektit tuottavat riittäviä tuloksia. Nämähän voidaan melko helposti tuottaa jos on käytössä eri maiden väestötiedot (eli 15-vuotiaiden määrät) ikäryhmän, y ( ) y ,sukupuolen, alueen ja koulutustason mukaan (tämä on maksimimäärä mitä on kokeiltu). Uudet painot saadaan vertaamalla alkuperäisten painojen antamia tuloksia näihin �oikeisiin� tietoihin ja tämän jälkeen tehdään suhteellinen muunnos painoihin eli ositustyyppinen kalibrointi.

Vastaustodennäköisyyksiä olisi myös mahdollista hyväksi käyttää, muttei kaikissa maissa, koska ne eivät kykene antamaan vastaamattomista hyödyllistä aputietoa (samat muuttujat kuin edellä ja mielellään vaikkapa talouden koosta jotain tai mitä vain vastaamattomuutta selittävää löytyy). Y itä ik tt iih ttä täll i t ti t k ättäi ii S t R t i tYritän vaikuttaa siihen, että tällaista tietoa kerättäisiin. Suomesta, Ruotsista, ym. sellaista löytyy aika paljon rekistereistä, kysymys on vain vaivannäöstä että se linkattaisiin brutto-otokseen.

14.10.2009 SurveyMetodiikka 2009 Seppo 16114.10.2009 161SurveyMetodiikka 2009 Seppo

Page 162: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Uudelleenpainotus 10 - Keskustelua 2Edellä esitetyt näkökohdat sopivat melkoisen moniin muihinkin surveyhin. Apumuuttujia pitäisi hankkia tarkoituksella aineistoihin, jotta puuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatiopuuttuvuutta ensin analysoitaisiin ja sitten siitä saatava informaatio liitettäisiin uuspainoihin.

Käyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosinKäyttäjän kannalta hyvien ja huonojen painojen kanssa toimitaan pääosin samalla lailla, ainakin piste-estimoinnissa. Siten käyttäjän tulisi vaatia kunnon painoja, vaikkei osaisi sanoakaan miten ne on paras milloinkin tuottaa Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny Oletuottaa. Ilman vaativia käyttäjiä ei parannusta muutoinkaan synny. Ole siis tiukkana vastaanottamasi datan kanssa.

Olen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olenOlen ollut itseni kanssa ainakin toistaiseksi tiukkana kun olen rakentanut otantatiedostoja uhritutkimukseen ja historiatutkimukseen. Tiedät että käytössä on oleva paljon apumuuttujia. Nyt on sitten

k ll h h öd ää h i K äällä 2010 lporukallamme haaste hyödyntää ne hyvin. Keväällä 2010 olemme menestyksemme kanssa viisaampia sillä kenttädatat saadaan loppuvuodesta valmiiksi.

14.10.2009 SurveyMetodiikka 2009 Seppo 16214.10.2009 162SurveyMetodiikka 2009 Seppo

Page 163: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Esimerkki: Vastauskadon mallitus ja d ll i T k ESS d lluudelleenpainotus Tanskan ESS-datalla

Tanskasta oli paras apumuuttujavalikoima käytettävissä ja i kki ik i i l ä S h i j hi i ki k iesimerkki on siksi sieltä. Suomen uhri- ja historiatutkimuksissa

apumuuttujia on siis vielä selvästi enemmän ja uudelleenpainotukselle tarjoutuu entistä paremmat edellytykset. Tarvekin on suuri, koska ainakin uhritutkimuksen nettiosassa on odotettavissa huomattavaa vastauskatoa ja sen valikoituneisuus on ilmeinen. Tanskan datassa käytin seuraavia muuttujia: sukupuoli, y j p ,ikäryhmä, alue (varsin laaja), siviilisääty ja onko tausta tanskalainen vai muu. Mukana oli muutama yhdysvaikutustermi.

Logistinen regressiomalli oli varsin tuloksekas mutta sen yksityiskohdat sivuutetaan tässä. Seuraavan sivun tulosteesta ilmenee muutamia kiintoisia seikkoja

14.10.2009 SurveyMetodiikka 2009 Seppo 163

ilmenee muutamia kiintoisia seikkoja.

Page 164: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Esimerkki vastaustodennäköisyyksistä, Tanskan ESS data 3. kierros

1Ennus-tettu

0,8

0,9todennäköisyys

0,5

0,6

0,7

Tanskalais-taustaiset

Naimisissa olevat

0,3

0,4

0,5

Ulk l i t t i t

Lesket

0

0,1

0,2Ulkomaalaistaustaiset

00 20 40 60 80 100

Kertymä

14.10.2009 Kyselytutkimuksen Metodiikkaa 2009 Seppo

164

Page 165: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Vastauskadon mallitus ja uudelleenpainotus TanskanVastauskadon mallitus ja uudelleenpainotus Tanskan ESS-datalla 3

Kuten edellisestä osiosta olet oppinut näiden ennustettujenKuten edellisestä osiosta olet oppinut näiden ennustettujen vastaustodennäköisyyksien käänteisluvuilla kerrotaan peruspaino ja painot skaalataan tämän jälkeen tavoiteperusjoukon tasolle käyttäen 1 ti id ä tö ää iä Oh k k i t t l k t k hd t15-vuotiaiden väestömääriä. Ohessa on keskeiset tulokset kahdesta otospainosta. Tulkitse niiden anti. Mieti myös mikä vaikutus eri painoilla on itse estimaatteihin.

Tanskan kaksi otospainoa: peruspaino ja adjustoitu paino p p p j j p The MEANS Procedure Coeff of Variable N Sum Mean Variation Minimum Maximum ������������������������������������������������������������������������������������������ w_basic2 1505 3900980.12 2592.01 10.2865442 2222.47 3053.80 w_adj 1505 3900980.12 2592.01 31.1934487 1378.93 15536.55 ������������������������������������������������������������������������������������������!

14.10.2009 SurveyMetodiikka 2009 Seppo 165

Page 166: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 1

Tilastollinen editointi on surveyn aikaa ja rahaa vievimpiä vaiheita. Jos siitä mahdollisimman iso osa on sijoitettu jo keruun yhteyteen, sen ei kui-tenkaan tarvitse olla olennainen hidaste koko surveyprosessissa. Paperilo-makkeisessa postitiedustelussa tämä vaihe voi viedä hyvinkin kauan ja rahaa kuluu. Tässä sessiossa esitän tilastollisen editoinnin periaatteet psekä valikoiman keinoja ja menetelmiä niiden käytännön toteuttamiseen.

Tilastollisen editoinnin keskeisiä tehtäviä ovat: � Arvioida ja kehittää surveyn tuotantoprosessia oppien virheistä ja puutteista sekä seuraten muissa� Arvioida ja kehittää surveyn tuotantoprosessia, oppien virheistä ja puutteista sekä seuraten muissa surveyssä ja laitoksissa tehtyä kehittämistyötä. � Kehittää järjestelmää virheiden havaitsemiseksi, tarkistamiseksi ja korjaamiseksi erityisesti painottaen lopputulosten kannalta olennaisia puutteita (valikoiva editointi).p pp p ( )� Havaita, tarkistaa ja korjata mikrotason virheet riittävän hyvin, ja myös siten, että makrotason (eri agregaattitasojen) tulokset ovat uskottavia ja luotettavia. � Puuttuvan tiedon käsittelyä, erityisesti imputointia, ei voida kokonaan hoitaa irrallaan editoinnista,

i l i ä ä t i i t i t id t i iimieluummin nämä toiminnot integroidaan toisiinsa. � Keskeisistä osioista tuotetaan indikaattoreita, joilla voidaan seurata aineiston alkuperäistä ja parannettua laatua sekä editoinnin määrää ja siihen kulunutta työmäärää.

14.10.2009 SurveyMetodiikka 2009 Seppo 166

14.10.2009 166SurveyMetodiikka 2009 Seppo

Page 167: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 2

Tilastollinen editointi on siis keskeinen osa laadun varmistusta, koskien sekä käsillä olevan surveyn prosessia että tulevaisuuden kehittämistarpeita.

ä k i ä ö i k i i i i i d k ä li iTärkeitä ovat myös tietotekniset aineiston ominaisuudet kuten, että se tulisi olla esimerkiksi helposti käyttöönotettavissa erilaisissa ohjelmistoissa.

- Kaikista prosessissa tehdyistä muutoksista tulisi jäädä jälki ja mielelläänmyös perustelu toteutetulle operaatiolle. Tällöin voidaan myös jälkikäteenarvioida kuinka perusteltu operaatio on ollut ja kenties muuttaa ratkaisua,jos se myöhemmän tiedon valossa katsotaan tarpeelliseksi.- Editointiprosessissa havaitut virheet on hyvä luokitella niidenkokonaismerkityksen mukaan ja vastaavasti tuottaa kustakin luokastavirhelukuja (suhteellisia ja absoluuttisia sekä painotettuja). Usein kolmekinvirheluokkaa riittää:(a) fataalit eli hyvin keskeiset virheet,(b) pienet virheet,(c) varoitukset siitä että tähän on tarvittaessa kiinnitettävä huomiota (voisi olla osa paradataa).

14.10.2009 SurveyMetodiikka 2009 Seppo 16714.10.2009 167SurveyMetodiikka 2009 Seppo

Page 168: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 3

Editoinnin keskeinen käsite on �editointisääntö� (edit rule).Editointisäännöt asetetaan mikäli mahdollista etukäteen ja sisällytetään

i llii ää ö ä l lli i ll jsurveyprosessin tuotantomalliin. Säännöt täytyy luonnollisesti perustella jadokumentoida siten, että myös käyttäjät voivat saada tästä tietoa.

Tavallisesti esitetään kolmenlaisia editointisääntöjä koskien:Tavallisesti esitetään kolmenlaisia editointisääntöjä, koskien:(i) validiteettiä(esim. jos kysytään ikää ja vastaus on 311, kun on tarkoitettu lukua 31; tai jos on ilmoitettusellainen vastausvaihtoehto jota ei voi olla).(ii) ht i tt(ii) yhteensopivuutta(esim. lasten määrä perheessä = 2 ja aikuisten määrä =2, mutta perheen kooksi ilmoitetaanepäyhteensopiva luku = 5; jos yrityksen tulojen ja menojen erotus ei vastaa �kokonaistulosta�;yrityksessä työssäolovuosien määrän tulee olla jossakin suhteessa ikään, esimerkiksi siten että

l l h l i ä ll ähi ää 16 i lk j i i ikk h äpalvelussuhteen aloittaessaan täytyy olla vähintään 16-vuotias; palkan ja ammattinimikkeen on hyväolla jossakin suhteessa toisiinsa _ missä? ),ja(iii) jakaumaa(esim. asetetaan että kokoaikaisen työntekijän viikkotyöajan tulee olla vähintään 30 tuntia; taiyrityksen liikevaihdon kasvu edellisestä tiedustelusta ehdolla että yritys on koostumukseltaansäilynyt ennallaan, ei saa olla alle -50% eikä yli 100% mikä on symmetrinen sääntö).

14.10.2009 SurveyMetodiikka 2009 Seppo 16814.10.2009 168SurveyMetodiikka 2009 Seppo

Page 169: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 4

Editointisäännöt määrittelevät ns. �veräjät� tai ovet (gates).Editointisysteemiä luotaessa on pyrkimys löytää mahdollisimman järkevätk i i äill l i kik i j k i l j d d h äkriteerit näille ml. esimerkiksi jakaumien laajuuden. Ideahan on, ettämikäli saatu vastaus tai muu tieto ei mahdu tästä veräjästä sisään, se tulee�virhelistalle� eli tarkistettavaksi. Tarkistuksessa voidaan tulos korjata taimyös hyväksyä sellaisenaan, mikäli havaitaan oikeaksi.

On hyvä havaita, että veräjän kapeus vs. leveys vaikuttaatarkistusprosessiin. Leveästä veräjästä mahtuu paremmin läpihuonompikin tapaus. Siten mitä leveämpi veräjä, sitä nopeampi jahalvempi tarkistusprosessi. Toisaalta laatu helposti heikkenee. Veräjä taiveräjien joukko on siis paras määritellä optimaalisen leveäksi, mutta tämäon helpommin sanottu kuin toteutettu. Kokeilut erilaisilla vaihtoehdoillaauttavat asiaa.

14.10.2009 SurveyMetodiikka 2009 Seppo 16914.10.2009 169SurveyMetodiikka 2009 Seppo

Page 170: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 5Tilastollinen Editointi 5 Lista keskeisistä toiminnoista 1(i) On syytä aloittaa tunnistimista eli identifioijista Virheet näissä eivät(i) On syytä aloittaa tunnistimista eli identifioijista. Virheet näissä eivät haittaa jos survey-aineisto on täysin itsenäinen kokonaisuus eli aineisto käytetään sellaisenaan kuin on saatu. Mutta jos on tarvetta yhdistää tiedosto toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa.toiseen, on tunnistimen oltava sama ja oikea molemmissa aineistoissa. Muuten tulee puuttuvaa tietoa. Käytännössä on myös niinkin että sama tunnistin on kahteen kertaan aineistossa mutta ei tarkoita samaa yksikköä. Tällaiset tuplat ovat editoijalle kuisallisia.p j

(ii) Toinen, jo edellä esitetty tarkistusmenetelmä on määritellä kullekin muuttujalle arvoalue ja katsoa ovatko vastaukset tällä arvoalueella. Tämä on j jsyytä sisällyttää datan sisäänlukuun jolloin ongelmaan kiinnitetään ajoissa huomiota. Korjaaminen ei toki aina ole helppoa.

(iii) Erikoishavaintoarvojen läpikäynti on selkeätä jatkoa edelliselle vaiheelle. Hyväksyttävällä alueella sijaitsevat havaintoarvot voivat olla kiusallisia, jos niiden vaikutus tuloksiin on liian suuri. Tämä koskee ns. ää i j i i ikk i j14.10.2009 SurveyMetodiikka 2009 Seppo 170

ääriarvoja tai muita poikkeavia arvoja.14.10.2009 170SurveyMetodiikka 2009 Seppo

Page 171: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 6Tilastollinen Editointi 6 Lista keskeisistä toiminnoista 2

Miten tulisi menetellä ääriarvojen kanssa? (a) Jos arvo on virheellinen tai väärään tulkintaan perustuva, se on pyrittävä korjaamaan mahdollisimman oikeaksi. (b) P i t h i t li kitä tt k i (t i )(b) Poistaa havainto eli merkitä puuttuvaksi (trimmaus). (c) Merkitä erityishavainnot omaan osajoukkoonsa ja päättää niiden käsittelystä myöhemmin ja mielellään tiimissä.(d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi)(d) Siirtää havainto lähemmäksi muuta joukkoa (winsorointi).(e) Soveltaa analyysissä sellaisia menetelmiä joihin ääriarvot eivät vaikuta tai vaikuttavat vähän (robustointi).(f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää)(f) Muuttaa yksikön painoa oheistiedon perusteella (yleensä pienentää). Tavallista otospainojen kautta.(g) Muuntaa muuttuja epätasavälisesti luokitelluksi, jolloin iso arvo kuuluu esimerkiksi ryhmään �Tätä suuremmat �esimerkiksi ryhmään Tätä suuremmat.

14.10.2009 SurveyMetodiikka 2009 Seppo 17114.10.2009 171SurveyMetodiikka 2009 Seppo

Page 172: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 7 Li t k k i i tä t i i i t 3

(iv) Neljäntenä editointitehtävänä haluan tuoda esiin ongelman puuttuvan, nollatiedon ei soveltuvan ja mahdottoman tiedon välillä Eli on syytä löytää

Lista keskeisistä toiminnoista 3

nollatiedon, ei-soveltuvan ja mahdottoman tiedon välillä. Eli on syytä löytää fiksu koodi kullekin. ESS-standardit ovat tyyppiä 8, 9, 88, 99 tai 6666, monet käyttävät myös negatiivisia koodeja kuten -1, -8 ja -9 (erottuvat paremminkuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia) Äläkuin positiiviset koska kunnon havaintoarvot tai koodit ovat positiivisia). Älä siis käytä esimerkiksi koodia = 0 puuttuvalle havainnolle vaan vain jos arvo on tosiaan nolla (vaikkapa ettei ole kuluttanut rahaa lautapinoihin).

(v) Kun edellä esitetyt perustarkistukset on tehty, voi siirtyä ristikkäis- eli yhteensopivuustarkistuksiin. Tällöin aloittaa voi ristiintaulukoista tai katsella vastaavia asioita jatkuvien muuttujien tapauksessa hajontakuviosta. j j p j

(vi) Monimuuttuja-analyyseihin perustuvat tarkistukset, jotka luontevimmin tehdään aidon tutkimusasetelmaan sopivan mallin avulla, vaikkapa p pregressiomallin avulla. Residuaalit paljastavat outouksia ja toki kaikkea voidaan katsella graafisesti myös = graafinen editointi. Nyt on yhä enemmän monidimensionaalisia grafiikkoja tietokoneellistettu.

14.10.2009 SurveyMetodiikka 2009 Seppo 17214.10.2009 172SurveyMetodiikka 2009 Seppo

Page 173: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastollinen Editointi 8 KommenttejaTilastollinen Editointi 8 - Kommentteja

Editointi on siis yksi osa datan puhdistamista. Olisi hyvä, jos se olisi mahdollisimman automaattinen eli tarkistukset ja korjaukset tulisivat a do s a auto aatt e e ta stu set ja o jau set tu s atfiksusti mutta automaattisesti. Valikoiva editointi on eräs ratkaisu tähän. Siinä virheelle määritellään todennäköisyys. Suurin työpanos keskitetään ison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattistaison todennäköisyyden tapauksiin joissa ei yleensä tehdä automaattista korjausta. Pienen virhetodennäköisyyden tapaukset sen sijaan hoidetaan automaattisesti tai kaikkia ei edes korjata koska niiden vaikutus kokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijankokonaisuuden kannalta on vähäinen. Jätetään siis jatkoanalysoijan huoleksi.

Hyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteitaHyvinkin editoidussa datassa vaativa käyttäjä aina löytää puutteita. Esimerkiksi ESS-datat on johonkin rajaan asti editoituja, mutta voimme tutkia kurssin demossa löydämmekö jotain epäilyttää. Luulen että arvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmastiarvoalueet ovat kunnossa mutta yhteensopivuuksissa on varmasti epäilyttävyyksiä. Katsomme tätä muutaman ristiintaulukoinnin kautta. Mieti mitä olisi hyvä katsoa.

14.10.2009 SurveyMetodiikka 2009 Seppo 17314.10.2009 173SurveyMetodiikka 2009 Seppo

Page 174: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 1Imputointi 1Imputointi on puuttuvan tai epäkelvon tiedon paikkaamista korvikearvolla. Sen käyttö on lisääntynyt huomattavasti viime aikoina. Syyt ovat monia.

Yksi lienee se ikävä tosiasia, että kerättyihin aineistoihin on jäänyt yhä enemmän puuttuvuutta ja vastaavasti estimaattien laatu on heikentynyt. Jotta laatu paranisi imputoimalla, on imputointitoiminnon oltava riittävän hyvää. Huonolla imputoinnilla laatu voi heiketä.

Toinen syy imputointitekniikkojen lisääntymiseen on ollut tietotekniikan kehittyminen, mikä antaa edellytyksiä hyvinkin vaativille ratkaisuille. Ohjelmistojakin on ilmaantunut yhä enemmän, mutta yhtään yleispätevää j j y y y pohjelmistoa ei ole olemassa. Kuhunkin tilanteeseen on löydettävä omansa tai ohjelmoida itse sopiva ratkaisu.

Kolmas syy on imputointitutkimuksen lisääntyminen. Se on usein haasteellista, koska vaatii kovaa teoriaa, hyvää tietotekniikkaa ja datan ymmärtämistä.

14.10.2009 SurveyMetodiikka 2009 Seppo 174

y

14.10.2009 174SurveyMetodiikka 2009 Seppo

Page 175: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 2Imputointi 2

Imputointi on tekniikka jonka tarkoitus on korvata puuttuvia tai muutoin epätäydellisiä havaintoarvoja sellaisilla joiden epätäyde s ä a a toa oja se a s a jo de

(i) odotetaan mieluiten olevan mahdollisimman lähellä oikeita arvoja,tai jos tämä ei ihanteellisesti onnistu, niintai jos tämä ei ihanteellisesti onnistu, niin(ii) näiden imputoitujen arvojen olisi hyvä olla mahdollisimman lähellä oikeiden arvojen jakaumaa, mutta jos tässäkin on vaikeuksia, niin (iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla(iii) imputointeihin perustuvien agregoitujen arvojen tulisi olla mahdollisimman lähellä vastaavia oikeita arvoja. Tavoitteena voi olla myös,(iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä(iv) että imputoitujen arvojen järjestys olisi mahdollisimman lähellä oikeata järjestystä.

14.10.2009 SurveyMetodiikka 2009 Seppo 17514.10.2009 175SurveyMetodiikka 2009 Seppo

Page 176: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 3Imputointi 3

Ensimmäinen on vaativin. Jos siinä onnistutaan hyvin, niin samalla yhteydet eri muuttujien välillä � enemmän tai vähemmän imputoitujen �y teydet e uuttuj e ä ä e e ä ta ä e ä puto tujeovat lähellä oikeita yhteyksiä. Jos tämä ei onnistu, on mahdollisuus pyrkiä toteuttamaan imputointi niin, että yhteydetkin ovat mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille.mahdollisimman oikeita. Olkoon tämä viides (v) vaatimus imputoinnille. Jos siis vaatimus (i) toteutuu hyvin, niin myös muut vaatimukset toteutuvat hyvin. Mutta vaatimukset (ii) ja (iii) ja siis myös vaatimus (iv) voivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakinvoivat toteutua hyvin, vaikka vaatimus (i) ei toteutuisikaan. Kussakin imputointitilanteessa on syytä miettiä ensin, mikä on minimivaatimus ja rakentaa imputoinnin strategia siten, että tämä vaatimus tulisi vähintäänkin täytetyksivähintäänkin täytetyksi.

Vaatimattoman minimivaatimuksen toteuttaminen voi onnistua yksinkertaisellakin imputointimenetelmällä Vaativa minimivaatimus eiyksinkertaisellakin imputointimenetelmällä. Vaativa minimivaatimus ei kuitenkaan automaattisesti merkitse monimutkaisen menetelmän käyttöä, vaan fiksun.

14.10.2009 SurveyMetodiikka 2009 Seppo 17614.10.2009 176SurveyMetodiikka 2009 Seppo

Page 177: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 4Imputointi 4

Yleisin imputointimenetelmä (jota kaikki eivät kutsu imputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyväimputointimenetelmäksi) on asettaa puuttuvalle havainnolle hyvä koodi. Editoinnin yhteydessä oli jo puhetta hyvistä koodeista. Idea on asettaa mahdollisuuksien mukaan eri koodi kullekin puuttuvuuden lajille Näin koodattua (imputoitua) muuttujaa ei voi käyttäälajille. Näin koodattua (imputoitua) muuttujaa ei voi käyttää jatkuvana muuttujana eli laskien esimerkiksi keskiarvoja, keskihajontoja tai desiilipisteitä. Sen sijaan frekvenssityyppisiä

ti tt j täll i t i tt tiestimaatteja tällaisesta saa vaivattomasti.

Jatkuva muuttuja voidaan toisaalta kategorisoida jolloin vaikkapa tulot luokitellaan tason mukaan järjestykseen ja lisäksi tulee puuttuvuusluokkia. Kategorista tai kategorisoitua muuttujaa voi käyttää selittäjänä malleissa jos ei vedä �vääriä� johtopäätöksiä y j j j ppuuttuvuuskoodilla �imputoiduista� selittäjistä. Voimme tässä mielessä sanoa että puuttuvat havaintoarvot on �imputoitu.� Se ei ole tietystikään varsinaista imputointia.

14.10.2009 SurveyMetodiikka 2009 Seppo 177

tietystikään varsinaista imputointia.

14.10.2009 177SurveyMetodiikka 2009 Seppo

Page 178: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 4 Tässä on tulosteImputointi 4"##!$%&'()!!!!!!!!!!

*+,!-."/!0$%1,(&$,02$34!5%3,(!6%$!7'!8293!'237%'28!,8,137%':!-7'82'(

Tässä on tuloste jossa puuttuvat tiedot on �i t it � li0.*;*<-=!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!-$,>&,'14!!!!!!0,$1,'3!!!!!!!!

*+,!?237%'28!@%28737%'!02$34!!!!!!!!!!!!!!!!!!!!!!!!!ABC!!!!!!!!!!!!!!!!DEFAE!!!!25,8*+,!#G,(79+!0,%H8,I9!02$34!J#00K!!!!!!!!!!!!!!!!!!L)!!!!!!!!!!!!!!!!!AFAL!!!!!!!5,3

�imputoitu� eli koodattu useammalla

M7N,$289:!J*+,!87N,$28!H2$34!%6!-7'82'(K!!!!!!!!!!!!D!!!!!!!!!!!!!!!!!OFOB! 0,1*+,!@,'3$,!02$34!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!PCE!!!!!!!!!!!!!!!!DAF)C!!!!!21,3

*$&,!-7''9!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!B)!!!!!!!!!!!!!!!!!!!PF)E! 3,93 2

ilmaisimella. Arvioi mitä mikäkin puuttuvan tiedon

@+$79372'!Q,R%1$239!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!))!!!!!!!!!!!!!!!!!!PFOO!!!!!!!3,2

*+,!S$,,'!M,2T&,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DAD!!!!!!!!!!!!!!!!!!BFCL! 9,4

-7''79+!#%1728!Q,R%1$2371!02$34!!!!!!!!!!!!!!!!!!ADB!!!!!!!!!!!!!!!D)FAB! 22,6

koodi merkitsee.

Arvioi lisäksi mitä*+,!M,63!<8872'1,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!CB!!!!!!!!!!!!!!!!!)FAA! 6,8@%RR&'793!02$34!%6!-7'82'(!!!!!!!!!!!!!!!!!!!!!!!!!!!!)!!!!!!!!!!!!!!!!!OFDU!!!!!!!! 0,3*+,!@%RR&'793!V%$W,$9X!02$34!%6!-7'82'(!!!D!!!!!!!!!!!!!!!!!OFOB!!!!!!!!!0,1Y3+,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DL!!!!!!!!!!!!!!!!!OFLL!!!!!!!!!1,2

Arvioi lisäksi mitä oikealla oleva sarake merkitsee.Ja mikä on sen?%3!2HH8712N8,!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!)UC!!!!!!!!!!!!!!!PPFPU!!!!!!!!!!

.,6&928!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!!!!!!!Q%'X3!W'%G!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOC!!!!!!!!!!!!!!!!)FCL!!!!?%!2'9G,$!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!!DOA!!!!!!!!!!!!!!!!)FEC!!!!

Ja mikä on sen puuttuvuus-teoreettinen tausta.

14.10.2009 SurveyMetodiikka 2009 Seppo 17814.10.2009 178SurveyMetodiikka 2009 Seppo

Page 179: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Puolue p10Keskiarvo p90S jäh j k ä Puolue p10 arvo p90

Kaikki 3 5,7 8The National Coalition Party 6 7,6 9The Swedish People´s Party (SPP) 5 7 8

Syrjähyppy jonka syynä on opiskelijan kiinnostus verrata puoluekannatusta

The Swedish People s Party (SPP)

Liberals, (The liberal party of Finland) 7 7 7The Centre Party 5 6,7 9True Finns 3 5,4 8

vasemmisto-oikeistoakselin mukaan. Ohessa on sellainen

Christian Democrats 4 5,7 8The Green League 3 4,8 7Finnish Social Democratic Party 3 4,5 7

0 2 7 5

taulukko. Voinet arvioida jotakin myös puuttuvia tietoja antaneista.

The Left Alliance 0 2,7 5Communist Party of Finland 0 1,5 3The Communist Workers' Party of

Finland 0 0 0

tietoja antaneista.

Finland

Other 4 6 8Not applicable 4 5,4 8Refusal 3 5,5 8Don't know 3 5,4 7,5No answer 3 5,6 8

14.10.2009 SurveyMetodiikka 2009 Seppo 179

Page 180: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 5Imputointi 5 Yksikertainen ja monikertainen imputointi

Tavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvoTavallisinta on imputoida puuttuvan arvon tilalle yksi imputoitu arvo. Tätä kutsutaan yksikertaiseksi imputoinniksi tai yksittäisimputoinniksi (SI = single imputation). Voi olla myös perusteltua imputoida useampi arvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moniarvo puuttuvan paikalle jolloin puhutaan monikertaisesta tai moni-imputoinnista (MI = multiple imputation). Moni-imputoinnissa on kaksi strategiaa itse aineiston muodostamisen kannalta:

(i) muodostetaan useita havaintoaineistoja joissa kussakin on siis omat imputoidut arvot, t itai (ii) laajennetaan yhtä havaintoaineistoa siten, että siellä on siis samat tilastoyksiköt useampia kertoja imputoidun aineiston osalta.

Tällä kurssilla en käsittele monikertaista imputointia vaikka se on muotia monissa sovellustieteissä.

14.10.2009 SurveyMetodiikka 2009 Seppo 18014.10.2009 180SurveyMetodiikka 2009 Seppo

Page 181: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 6Imputointi 6Imputointi on prosessi joka tässä katsotaan koostuvan seuraavista 6 osatehtävästä:

(i) Datan editointi

(ii) Aputiedon hankinta ja huolto

(iii) Imputointimallin rakentaminen

(iv) Imputointitehtävä tai imputointitoiminto

(v) Estimointi sisältäen piste-estimoinnin, otantavarianssin ja imputointivariansssin

(vi) Täydennetyn aineiston luonti, sisältäen myös metatietona sen mitkä arvot on imputoitu (liputus).Näistä keskityn seuraavaksi kohtiin (iii) ja (iv).

14.10.2009 SurveyMetodiikka 2009 Seppo 181

Näistä keskityn seuraavaksi kohtiin (iii) ja (iv).

14.10.2009 181SurveyMetodiikka 2009 Seppo

Page 182: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 7 Imputointimalli 1Imputointi 7 Imputointimalli 1

Imputointimalli voi perustua viisaaseen tietoon ja hyviin oletukseen. Tällöin sitä ei estimoida vaan malli on sopiva funktiomuoto (imputoitu arvo = f(x)) tai loogisten päättelyjen kokonaisuus (jos näin ja niin, niin imputoitu arvo=noin). Mutta jos se estimoidaan, niin j , p ) j ,

Selitettävä muuttuja imputointimallissa voi olla kahta tyyppiä:

(i) Muuttuja jonka arvoja imputoidaan (voi olla jatkuva tai epäjatkuva ml. binäärinen tai multinomiaalinen, ks. Liite; vastaavasti imputointimallin tulee sopia tilanteeseen )vastaavasti imputointimallin tulee sopia tilanteeseen.)

Tämä malli rakennetaan ja estimoidaan vastaajien aineistosta mutta i i i i ii ill M lli li äjiitse imputointi toteutetaan siis vastaamattomille. Mallin selittäjien tulee olla tunnettuja vastaamattomille. Malli voi olla tuotettu myös eri aineistosta kuin imputoitavasta mutta mallin muuttujien tulee

14.10.2009 SurveyMetodiikka 2009 Seppo 182tietysti olla samoja. 14.10.2009 182SurveyMetodiikka 2009 Seppo

Page 183: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 8 Imputointimalli 2Imputointi 8 Imputointimalli 2

(ii) Puuttuneisuuden indikaattori koskien imputoitavaa muuttujaa (binäärinen: 1=ei puutu tai on kelpo ja 0=puuttuu/epäkelpo).

Tällainen malli on tyypillisesti estimoitu logistisella tai probit-yyp g pregressiolla. Olet jo aikaisemmin nähnyt tällä kurssilla tällaisia malleja (kertaa näitä kohtia). Tuloksena on siis todennäköisyyksiä puuttuneisuudelle siinä joukossa jossa imputointia toteutetaanpuuttuneisuudelle siinä joukossa jossa imputointia toteutetaan, vastaavasti todennäköisyyksiä imputoidulle arvolle.

14.10.2009 SurveyMetodiikka 2009 Seppo 18314.10.2009 183SurveyMetodiikka 2009 Seppo

Page 184: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 9 Imputointimalli 3p pTavallisten mallien (regressio, logistinen) lisäksi malli voi olla myös epälineaarinen ja ei-parametrinen. Jälkimmäisistä kiinnostavia imputoinnissa ovat esimerkiksi puumallit ja neuroverkot Puumalleja onimputoinnissa ovat esimerkiksi puumallit ja neuroverkot. Puumalleja on kahdenlaisia, luokittelupuussa selitettävänä on (moni-)kategorinen muuttuja, kun taas regressiopuussa jatkuva muuttuja. Puumalli ja neuroverkko antavat mahdollisuuden luoda osaryhmiä klustereitaneuroverkko antavat mahdollisuuden luoda osaryhmiä, klustereita, ryppäitä, neuroneja tai millä nimellä niitä milloinkin halutaan kutsua. Pyrkimys on että nämä osaryhmät ovat homogeenisia selitettävän muuttujan suhteenmuuttujan suhteen.

Imputointien kannalta klusterit ovat hyödyllisiä. Niitä kutsutaan joko imputointiluokiksi tai imputointisoluiksi Idea on että kunkin tällaisenimputointiluokiksi tai imputointisoluiksi. Idea on että kunkin tällaisen sisällä toteutetaan itse imputointi. Tämä parhaimmillaan tehostaa imputointia, erityisesti jos kunkin tällaisen luokan sisällä ehto MCAR pätee Tehostusta tulee sitä enemmän mitä homogeenisempiapätee. Tehostusta tulee sitä enemmän, mitä homogeenisempia imputointisolut ovat.

14.10.2009 SurveyMetodiikka 2009 Seppo 18414.10.2009 184SurveyMetodiikka 2009 Seppo

Page 185: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 10 Imputointitoiminto 1p p

Imputointitoiminnot voidaan jakaa vain kahteen isoon pääryhmään, kumpikin on ehdollinen käytetylle mallille:kumpikin on ehdollinen käytetylle mallille:

(i) Malliluovuttaja-menetelmässä (model-donor method) i t id t t t t lli t t i ti id timputoidut arvot otetaan suoraan mallista tai estimoidusta jakaumasta tai viisaan arvauksen funktiosta, eli eivät siis välttämättä havaittuja.

(ii) Vastaajaluovuttaja-menetelmässä (real-donor method) imputoidut arvot ovat viimeisessä vaiheessa peräisin joltakin p p jvastaajalta tai muulta aineiston yksiköltä, ja siis arvot ovat aina havaittuja arvoja.

14.10.2009 SurveyMetodiikka 2009 Seppo 18514.10.2009 185SurveyMetodiikka 2009 Seppo

Page 186: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 11 Imputointitoiminto 2

Termi luovuttaja on suora käännös sanasta donor mikä on latinalaispohjainen viitaten myös antamiseen Ajoittain esiintyy

p p

latinalaispohjainen viitaten myös antamiseen. Ajoittain esiintyy myös sana lainata. On syytä korostaa, että kun jokin yksikkö luovuttaa tai antaa arvon toiselle yksikölle, niin tämä yksikkö ei menetä omaa arvoaan Siinä on siis kyse kopioinnista Käytänmenetä omaa arvoaan. Siinä on siis kyse kopioinnista. Käytän kuitenkin termiä luovuttaja, koska tämä ei sulje pois sitä, että luovuttaessaan jotakin toiselle, ei itse menetä mitään. Pikemminkin molemmat tai jokin kokonaisuus jossa molemmat toimivat voivatmolemmat tai jokin kokonaisuus, jossa molemmat toimivat, voivat hyötyä. Aivan kuten imputoinnissakin hyvä luovuttaminen tuottaa hyötyä estimaatin laadun parantumisen myötä. Näinhän on monissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutatmonissa tilanteissa elävässäkin elämässä, kun vaikkapa luovutat omaa osaamistietoasi toisille. Et menetä mitään, pikemminkin ymmärrät osaamistasi paremmin, ja toiset hyötyvät annistasi.

14.10.2009 SurveyMetodiikka 2009 Seppo 186

Page 187: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 12 Imputointitoiminto 3

Kummassakin imputointitoiminnossa voi olla satunnaisuutta tai se on puhtaasti deterministinen. Jälkimmäisessä imputoitu arvo on ä i ää i l i (k k i k i)

p p

täysin määritelty, mutta satunnaisessa (kutsutaan stokastiseksi) vaihtoehdossa eri imputointi voi tuottaa eri arvon.

Malliluovuttaja �menetelmässä imputoitu arvo on joko(i) mallin ennustama arvo (deterministinen ratkaisu), tai se on (ii) mallin ennustama arvo plus virhetermi (stokastinen ratkaisu).

14.10.2009 SurveyMetodiikka 2009 Seppo 18714.10.2009 187SurveyMetodiikka 2009 Seppo

Page 188: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 13 Imputointitoiminto 4

Vastaajaluovuttaja �menetelmässä imputoitu arvo on vastaajalta lainattu. Jos etsinnän taustalla on satunnaisuutta, kyseessä on

p p

ystokastinen, muuten deterministinen ratkaisu. Vastaaja (vastaajat monikertaisessa imputoinnissa) valitaan mieluiten sellaisten joukosta jotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinenjotka ovat samankaltaisia vastaamattoman kanssa. Siten keskeinen tehtävä tässä lähestymistavassa on löytää jokin läheisyysmitta, jolla samankaltaisia etsitään. Läheisyysmitta voi olla peräisin mallista (ja myös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitämyös malliluovuttaja-menetelmällä imputoiduista arvoista) tai siitä riippumaton (jolloin hyvällä viisaudella etsitään läheisyyden kriteerit). Hyvä imputointisolu antaa erinomaisen lähtökohdan läheisten

astaajien etsintään koska sen sisällä on s rella todennäköis dellävastaajien etsintään, koska sen sisällä on suurella todennäköisyydellä samankaltaisia yksiköitä. Eli siis jos imputointisolut ovat homogeenisia, niin voidaan jopa toimia niin, että mikä tahansa solun vastaaja voi l ll li i iluovuttaa arvonsa vastaamattomalle; paras valita satunnaisesti. Edellytys on luonnollisesti se, että solussa on riittävästi vastaajia. Jos siis sisältää vain vastaamattomia tai vähän vastaajia, tilanne on hankala.

14.10.2009 SurveyMetodiikka 2009 Seppo 188

Page 189: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 14 Malli vs toiminto

Mallivaihtoehtoja on siis kaksi. On hyvä huomata että jos vaihtoehto (ii), puuttuneisuuden binäärinen indikaattori, on käytetty,

p

p y yimputointitoiminto voi olla vain vastaajaluovuttajamenetelmä.

Sen sijaan jos malli (i) on pohjana, voidaan edetä jokoSen sijaan jos malli (i) on pohjana, voidaan edetä joko malliluovuttaja- tai vastaajaluovuttajamenetelmällä kohti varsinaista imputointia. Malliluovuttajamenetelmällä imputointi tapahtuu suoraan joko deterministisesti tai stokastisesti muttatapahtuu suoraan, joko deterministisesti tai stokastisesti, mutta vastaajaluovuttajamenetelmällä mallin ennustetut arvot käytetään läheisyyden mittareina.

14.10.2009 SurveyMetodiikka 2009 Seppo 189

Page 190: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi ekstra

Mitä marjoja ja montako on täällä?

Imputoi!Imputoi!

Mikä metodi?

Mitätässätässä

14.10.2009 SurveyMetodiikka 2009 Seppo 190

Page 191: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 14

En käy laajasti imputoinnin yksityiskohtia läpi. Aluksi huomautan siitä, että imputoinnin siis pitäisi tuottaa etua vaihtoehtoiseen il i i id ll i i id id

p

tilanteeseen ettei imputoida verrattuna. Jollei imputoida, voidaan havaintomäärissä menettää paljonkin ja myös estimaatit voivat olla liian harhaisia. Imputoinnin avulla siis harhaa pitäisi saada pienennettyä ja mielellään siten ettei estimaatin keskivirhe kasva.

Valitettavasti imputoimalla saatetaan tuottaa harhainen keskivirhe, p ,erityisesti jollei sen estimoinnissa oteta huomioon imputoinnista johtuvaa epävarmuutta eli imputointivarianssia. Näin tapahtuu jos aineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla ettäaineistosta tuotetaan estimaatit tavalliseen tapaan eli olettamalla että imputoitu arvo on oikea havaintoarvo. Tosielämässä emme tiedä kuinka lähellä oikeaa se on mutta osaamme arvioida epävarmuuden ainakin periaatteessa Stokastisessa imputoinnissa syntyy enemmänainakin periaatteessa. Stokastisessa imputoinnissa syntyy enemmän varianssia ja siksi keskivirheen harha on sellaisessa pienempi ilman erikoistoimenpiteitä.

14.10.2009 SurveyMetodiikka 2009 Seppo 19114.10.2009 191SurveyMetodiikka 2009 Seppo

Page 192: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 15 Yhteenvetop

Deterministinen Stokastinen

Imputointi-menetelmät

idDeterministinen StokastinenYksikertainen Yksikertainen

Monikertainen

ttaja

voidaan tiivistää näin, siis sisältäen

ajal

uovu

tperiaatteessa neljänlaisia vaihtoehtoja.

Vas

taaa oe oja

Kaikissa kohdissa voi

vutta

ja kohdissa voi

taustalla olla myös sama imputointi

Mal

liluovimputointi-

malli (kuten regressio).

14.10.2009 SurveyMetodiikka 2009 Seppo 19214.10.2009 192SurveyMetodiikka 2009 Seppo

Page 193: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 16 Esimerkkip

Tein keinotekoisella datalla pienen testin. Imputointia vaatinut muuttuja yon jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisenon jatkuva. Käytettävissä oli yksi selittäjä x. Näiden välillä oli melkoisen selkeä yhteys, korrelaation ollessa 0,92. Havaintoja 40. Vastaamattomien määräksi tuli 13. Se ei ollut satunnaista, pienillä ja suurilla y-arvoilla todennäköisyys oli keskiarvoja korkeampaa Edellytykset hyvällekintodennäköisyys oli keskiarvoja korkeampaa. Edellytykset hyvällekin imputoinnille olivat olemassa. Yksinkertaisin imputointimalli on y=keskiarvo, mutta neljässä muussa regressiomalli y=x. Tätä kokeilin myös

t i t i li ä k llä T l k i ll j ll i llsatunnaistermin lisäyksellä. Tuloksia on alla ja seuraavalla sivulla on kuvioiden muodossa imputoituja arvoja eri menetelmillä.

Havaintoja Keskiarvo KeskihajontaHavaintoja Keskiarvo KeskihajontaOikea 40 507 317Vastaajat 27 587 292MalliluovuttajaMalli y=keskiarvo 40 587 238Malli y=x 40 519 279Malli y=x+e 40 516 295VastaajaluovuttajaMalli y=x 40 499 299Malli y=x+e 40 534 299

14.10.2009 SurveyMetodiikka 2009 Seppo 19314.10.2009 193SurveyMetodiikka 2009 Seppo

Malli y=x+e 40 534 299

Page 194: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 16 Esimerkki 2

Oikeat Malliluovuttaja y=keskiarvo Malliluovuttaja y=x

Malliluovuttaja y=x+e Vastaajaluovuttaja y=x Vastaajaluovuttaja y=x+e

14.10.2009 SurveyMetodiikka 2009 Seppo 194

Page 195: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 17Yksinkertaiset metodit esitetyssä kehikossaEdellä on jo viitattu keskiarvoimputointiin jossa puuttuva tieto korvataankeskiarvolla. Esittämäni kehikon puitteissa keskiarvopaikkaus merkitsee ettäi i i lli d i hd ä i ä k jimputointimalli muodostuu vain yhdestä parametristä, kun taas joskeskiarvopaikkaus toteutetaan erikseen kussakin imputointisolussa, kyseessäon imputointimalli jossa on kategorinen muuttuja selittäjänä. Vastaavasti jos

tt k t h itt j j di ill h tpuuttuva arvo korvataan havaittujen arvojen mediaanilla, puhutaanmediaani-imputoinnista. Myös moodi-imputointia voidaan käyttää muttalähinnä vain kategorisille tai kategorisoiduille muuttujille. Nämä ovatdeterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaadeterministisiä ja voivat aiheuttaa kiusallista systemaattista harhaa.

Keskiarvoimputoinnin erityistapaus on ns. suhdeimputointi, jossaimputointimallin selittäjänä on suhde Tämä sopii vain suhdeasteikonimputointimallin selittäjänä on suhde. Tämä sopii vain suhdeasteikonmuuttujille.

Jos mikroaineistossa on paneli- tai muu pitkittäisaineisto pohjalla, käytetäänJos mikroaineistossa on paneli tai muu pitkittäisaineisto pohjalla, käytetäänyleisesti malliluovuttajaimputointia jossa malli on joko y_imp=y_edellinentai y_imp=y_edellinen*inflaattori (tai deflaattori). En suosittele tätä paitsijos tästä johtuvan harhan uskotaan olevan vähäisen.

14.10.2009 SurveyMetodiikka 2009 Seppo 195

j j

14.10.2009 195SurveyMetodiikka 2009 Seppo

Page 196: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi 19 - Kommenttip

Usein imputoinnissa on tavoitteena menestyä hyvin myös muuttujienvälisten yhteyksien kuvaamisessa. Tämä onnistuu jos kuhunkin muuttujaansovellettu imputointi onnistuu hyvin Monet menetelmät eivät kuitenkaansovellettu imputointi onnistuu hyvin. Monet menetelmät eivät kuitenkaantakaa tätä. Seuraavanlaisia ratkaisuja on sovellettu:(i) Ei imputoida ollenkaan vaan puuttuvat tiedot jätetään analyysistä pois.Tässä on ongelmana havaintomäärän supistuminen ja tästä johtuvaTässä on ongelmana havaintomäärän supistuminen ja tästä johtuvatarkkuuden heikkeneminen sekä muussa kuin MCAR-tilanteessa myöstulosten vääristyminen.(ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana.(ii) Käytetään analyysimenetelmää, jossa puuttuvuus on mukana.(iii) Puuttuvuudesta johtuva harha oikaistaan uudelleenpainotuksella(iv) Sovelletaan vastaajaluovuttaja -menetelmää siten, että samaltaluovuttajalta otetaan tiedot kaikille kiinnostuksen kohteena olevillejmuuttujille. Tämä menetelmä vastaa uudelleenpainotusta, mutta rajoitettuunjoukkoon.(v) Sovelletaan ns. jaksottaista imputointia jossa ensin imputoidaan yksij p j p ymuuttuja, sitten seuraava läheinen käyttäen edellistä imputoitua arvoaapumuuttujana, ja niin edespäin.

14.10.2009 SurveyMetodiikka 2009 Seppo 19614.10.2009 196SurveyMetodiikka 2009 Seppo

Page 197: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyn vaiheet 1 Eli lyhyt kertaus pääkohdista

A.Tavoitteiden määrittely tutkimukselle ja sen pohjalta tarvittavalle surveylle ja aineistolle. On huomattava että useimmat tutkimukset sisältävät paljon

t ki k i Eli i ll i i i tt tä k ä k kmuutakin kuin surveyn. Eli survey voi olla vain pieni mutta tärkeä osa koko hanketta.

B Survey asetelman määrittely johon sisältyvät periaatteessa kaikkiB.Survey-asetelman määrittely, johon sisältyvät periaatteessa kaikki jatkossa olevat kohdat, osa ei vielä kovin tarkasti.

C Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimmanC.Tavoiteperusjoukon määrittely: tämä on tehtävä mahdollisimman täsmällisesti ja asiakkaan tarpeisiin mahdollisimman hyvin vastaten ja tämän kanssa keskustellen. Tätä ennen tutkijalla on mielessään kiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksikiinnostusperusjoukko joka realisoidaan tavoiteperusjoukoksi.

14.10.2009 SurveyMetodiikka 2009 Seppo 19714.10.2009 197SurveyMetodiikka 2009 Seppo

Page 198: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyn vaiheet 2

D.Kehikkoperusjoukkopohjan määrittely ja itse kehikon luonti ml. tarvittavien apumuuttujien luonti ja niiden arvojen sisällyttäminen kehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinenkehikkoon tai muuhun tiedostoon jatkokäyttöä varten. Hyvin tyypillinen ongelma on, ettei heti aluksi kerätä mahdollisia potentiaalisesti hyödyllisiä apumuuttujia aineistoon. Myöhemmin niiden hakeminen samastakin lähteestä voi tulla kalliimmaksi ja käytännössä hankalammaksi. j yKehikkoperusjoukko päivitetään mikäli mahdollista estimointivaiheessa.

E.Otanta-asetelman määrittely. Pyrkimys on saada kuhunkin tilanteeseen mahdollisimman yksinkertainen ja hyvin hallittavissa oleva asetelma. Tämä ei tarkoita sitä, etteikö olisi hyvä fokusoida otosta surveyn tavoitteiden mukaan. Taustalla on efektiivisen otoskoon käsite. Tältä pohjalta määritellään brutto-otos.

F.Tiedonkeruun suunnittelu mukaan lukien tarvittava kenttätyö, i d k d k k i j k k j k k itiedonkeruumuodot, kustannukset, tietosuojakysymykset ja onko tarkoitus

toistaa tutkimusta. Toistaa voidaan sekä poikkileikkaus- että pitkittäismielessä. Jälkimmäinen on vaativampi.

14.10.2009 SurveyMetodiikka 2009 Seppo 19814.10.2009 198SurveyMetodiikka 2009 Seppo

Page 199: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyn vaiheet 3

G. Tietosisällön määrittely ja operationalisointi lomaketasolle ottaen huomioon ajatellun tiedonkeruutavan tai useita samallekin surveylle. Tämä tapahtuu tutkimustiimissä mikä voi olla laaja verkko mutta vielä eitapahtuu tutkimustiimissä mikä voi olla laaja verkko, mutta vielä ei kontaktoida tutkimusyksikköjä.

H. Lomakkeen ja tiedonkeruujärjestelmän testaus (pilottitutkimukset) sekä j j j (p )parannukset tiedonkeruujärjestelmään ja lomakkeeseen. Alkutestaus tehdään omassa piirissä mutta myöhemmin kontaktoidaan tutkimusyksiköitä sekä keruuta toteuttavia tahoja. y j

I.Otanta ja otanta-aineiston luonti: tähän siis sisältyy myös kaikki

Muistametadatanexpertit

saatavissa oleva aputiedon kerääminen otoskehikkolähteestä.

i d k i id i jJ.Tiedonkeruu organisoidusti ja tehokkaasti, tarvittaessa virheitä korjaten saadun palautteen( i h t tt lij ilt ) hj lt

14.10.2009 SurveyMetodiikka 2009 Seppo 199

(esim. haastattelijoilta) pohjalta.

14.10.2009 199SurveyMetodiikka 2009 Seppo

Page 200: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyn vaiheet 4

K.Tiedontallennus (jos mahdollista yhtäaikaisesti tiedonkeruun kanssa) ainakin siten, ettei mahdottomia tietoja tiedostoon synny � siis tallennukseen yhdistetään mikäli mahdollista ensi vaiheen tilastollinen yeditointi, ja mikäli mahdollista kohtuullisesti automatisoituna (tallennusohjelma on siis intelligentti).

L. Otantatiedoston viimeistely. Tiedosto kattaa brutto-otoksen ja sisältää otanta-asetelmassa käytettyjen muuttujien lisäksi muuta ulkopuolelta saatua aputietoa sekä kenttätyön yhteydessä kerättyä. Luonnollisesti myös surveyn

l i d k li k kä i k kä i ä j i ä ä kätulostiedot ovat mukana eli ketkä vastasivat, ketkä eivät ja mistä syystä sekä ylipeiton. Aputietoa voidaan kerätä vielä lisää vaikkapa rekistereistä tai tilastoista. Myös kehikon päivitystiedot on syytä sisällyttää otantatiedostoon.

M. Tilastollisen editoinnin systemaattiset muodot. Toteutetaan yleensä integroidusti imputoinnin kanssa. Tähän liittyy myös linjaus siitä mihin editointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkeaeditointi painottuu ellei resurssien puitteissa ole mahdollista tehdä kaikkea yhtä laadukkaasti. Edelleen sen yhteydessä saadaan tietoa koko survey-prosessin evaluointiin, ja siis oppimiseen seuraavia surveytä varten.

14.10.2009 SurveyMetodiikka 2009 Seppo 20014.10.2009 200SurveyMetodiikka 2009 Seppo

Page 201: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Surveyn vaiheet 5

N. Puuttuvien tietojen käsittely siten että erottuvat muiden muassa nollatieto, puuttuva tieto ja mahdoton tieto.

O. Imputointi eli puuttuvien tietojen paikkaus ja lisäeditointi jos tarpeen.

P. Otos- ja muiden painojen muodostaminen aputietoja hyödyntäen.j p j p j y y

Q. Aineiston asentaminen mahdollisimman käyttökelpoiseen muotoonsen analyysiä varten. Tällöin muodostetaan yksi tai useampi elektroninen yy y ptiedosto. Yleensä on hyvä tehdä tiedostomuoto jossa sitä tullaan eniten käyttämään, esimerkiksi SAS-, SPSS- tai Stata-tiedosto, mikseipä Excel:kin, ja lisäksi sellainen, josta se on luettavissa melkein millä välineellä tahansa myös tulevaisuudessa (tekstitiedosto plus sen lukuohjelma em. tiedostoille).

Näin sinulla on PUHDISTETTU surveyn mikroaineisto eli sellainen jota voidaan ilman huolia ryhtyä analysoimaan otanta-asetelma oikein huomioiden. Seuraavalla sivulla kohtuullinen puhtaan datan esimerkki. Parempaan pääsee.

14.10.2009 SurveyMetodiikka 2009 Seppo 201

p p

14.10.2009 201SurveyMetodiikka 2009 Seppo

Page 202: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tilastoyksikön

Muuttujan nimi, alempana metadata

tunnus Paradata

Tutkijan laskemamuuttuja ilman metadataa= kotitaloudenkoko

Puuttuvuus-koodeja

Puuttuvuusilman koodausta

PuhdastaESS-dataadataaMitenjärjestetty?

O i A l i iOtospaino = AnalyysipainoMaapaino

14.10.2009 202SurveyMetodiikka 2009 Seppo

Page 203: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Imputointi ekstran ratkaisuK kä dä k lKannattaa käydä karpalossa

14.10.2009 SurveyMetodiikka 2009 Seppo 203

Page 204: Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen2009+_+Seppo.pdf · 2009. 10. 14. · Surveymetodiikka Helsingin yliopisto, Syksy 2009 Seppo Laaksonen Luennot joihin

Tässä aikaisempi kuva oikein päinToivon että surveymetodeista on moni asiaToivon että surveymetodeista on moni asia loksahtanut oikein päin. Kiitos.

14.10.2009 SurveyMetodiikka 2009 Seppo 20414.10.2009 204SurveyMetodiikka 2009 Seppo