Download - Töötamine erinevate andmeallikatega
![Page 1: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/1.jpg)
Töötamine erinevate andmeallikatega
Ene-Margit Tiit
Küsitlusuuringute metodoloogia seminar, Tartu, 18.10.2013
![Page 2: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/2.jpg)
Kuidas ühendada andmestikke?
Andmestikud võivad olla:– Register, st kõikne andmekogu– Uuring, st valimipõhine andmekogu. Eeldame, et
valimi disain on teada.
Ühendamiseks vajalikud eeldused: 1. Kirjed on identifitseeritavad2. Andmestikkudel on ühine üldkogum.Ülesanne on lahendatav ka siis, kui ühe
andmestiku üldkogum sisaldub teise üldkogumis.
![Page 3: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/3.jpg)
Ülesande tüübid
• Register + register register• Register + valim valim• Register + valim register• Valim + valim valimKüsimused:Millal on need ülesanded lahenduvad?Missugused on nende ülesannete lahendamisega
seotud põhimõttelised ja tehnoloogilised raskused?
![Page 4: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/4.jpg)
REGISTER + REGISTER REGISTER
![Page 5: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/5.jpg)
Register + register register
• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama (vrdl üldkogumi objektide
definitsioone).Eestis on isikuregistrite puhul enamasti 1. eeldus
täidetud (isikukoodid). Teine tingimus vajab kontrollimist.
• Näide: RR ja REL rahvastik. – Väike erisus II eelduse osas: püsielaniku
definitsioon – REL puhul viitaeg
![Page 6: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/6.jpg)
Kahe registri ühendamine
![Page 7: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/7.jpg)
Selgitus
• Enamasti leidub objekte, mis (kes) on olemas ühes, aga puuduvad teises registris (ja vastupidi).
• Kui neid ei ole palju, ei põhjusta see suuri ebatäpsusi andmestiku edasisel kasutamisel.
• Saadud uuest registrist on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest algsest registrist. Tulemus on põhimõtteliselt täpne.
![Page 8: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/8.jpg)
REGISTER + VALIM VALIM
![Page 9: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/9.jpg)
Register + valim valim
• Eeldused– kõik objektid on identifitseeritud – üldkogum on sama või valimi üldkogum sisaldub
registri üldkogumis ja on registri tunnuste abil defineeritav.
• Väga sageli rakendatav. • Põhimõttelisi probleeme ei ole, kui eeldused
on täidetud.
![Page 10: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/10.jpg)
Registri andmete lisamine valimile
![Page 11: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/11.jpg)
Selgitus• Registritunnuste väärtused lisatakse
identifikaatori abil.• Registrist lisatud tunnused vastavad
põhimõtteliselt valimi disainile. • Registritunnustega täiendatud valimist võimalik
moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb valimist, osa – registrist. Tulemus on põhimõtteliselt korrektne, täpsus on disaini põhjal hinnatav.
![Page 12: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/12.jpg)
REGISTER + VALIM REGISTER
![Page 13: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/13.jpg)
Register + valim register• Registri täiendamine valimuuringu abil?• Üldjuhul põhimõtteliselt võimatu. – On võimalik saada korrektseid agregeeritud tulemusi
(tabeleid), piirangud tulenevad valimist.– Seda kasutatakse praktikas, lubatud protseduur ka
rahvaloenduse korral.– On võimalik simuleerida valimi tasemel mõõdetud tunnuse
väärtused ülejäänud registriobjektidele nii, et jaotusparameetrid vastavad valimi omadele.
– Seda kasutatakse uuringutes. – Simuleeritud väärtused võivad tegelikest oluliselt erineda,
seetõttu ei sobi need registrisse.
![Page 14: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/14.jpg)
Registri täiendamine valimi abil
![Page 15: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/15.jpg)
Seletus
• Kuna valimis on üldjuhul objekte palju vähem kui registris, jääb suur osa registriobjekte ilma valimi põhjal lisatavast väärtusest.
• Üks võimalus on leida igale registriobjektile võimalikult sarnane valimi objekt ja omistada registriobjektidele puuduvad väärtused sarnasuse põhjal.
• Teine võimalus on vältimaks ühesuguseid väärtusi lisada neile juhuslik müra, mis aga täpsust vähendab.
![Page 16: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/16.jpg)
Mida siiski on võimalik saada?
• On võimalik saada korrektseid agregeeritud tulemusi (tabeleid), piirangud tulenevad valimist.
• See ülesanne on sisuliselt samaväärne eelmise ülesandega – registriandmed lisatakse valimiandmetele ja moodustatakse tabel, arvestades valimi disaini.
• Seda kasutati ka REL andmete puhul (töötundide arv nädalas).
![Page 17: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/17.jpg)
VALIM + VALIM VALIMÜHISOSATA VALIMITE JUHTUM
![Page 18: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/18.jpg)
Valim + valim valim
• Erinevad ülesanded sõltuvalt sellest, kas valimitel on ühisosa või mitte.
• Kuigi kõik valimiobjektid on identifitseeritud ja valimitel on ühine üldkogum, kui
• valimitel ei ole ühisosa, – on see ülesanne põhimõtteliselt mittelahenduv.
Puudub teave erinevates valimites mõõdetud tunnuste omavaheliste seoste kohta.
![Page 19: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/19.jpg)
Kaks ühisosata valimit
![Page 20: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/20.jpg)
KorrelatsioonimaatriksV1 V2 W1 W2
V1 1 Rv12 Rvw11 Rvw12
V2 Rv12 1 Rvw21 Rvw22
W1 Rvw11 Rvw21 1 Rw12
W2 Rvw12 Rvw22 Rw12 1
![Page 21: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/21.jpg)
Sõltumatute tunnuserühmade erijuht
• Mõnikord on alust eeldada, et kahe valimi tunnused on sõltumatud, st et seosekordajate maatriksis oleksid kõik punased kordajad nullid (statistiliselt mitteolulised).
• Sel juhul on võimalik ühisjaotuse jaoks kasutada eeskirja
P12 = P1xP2,kus P1 tähistab esimese valimi ja P2 teise valimi
tõenäosusjaotusi.
![Page 22: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/22.jpg)
Kahe sõltumatute tunnustega valimi ühendamine
![Page 23: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/23.jpg)
Seletus
Kasutades sõltumatuse eeldust on võimalik moodustada agregeeritud väljundeid (tabeleid) nii, et osa tunnuseid pärineb ühest, osa – teisest valimist. Tulemuse täpsus on disaini põhjal hinnatav juhul kui sõltumatuse eeldus paika peab, kui mitte, siis põhjustab see täiendava vea.
Näide: kui suurt ebatäpsust põhjustab oletus, et Eesti rahvastikus on sugu ja vanus sõltumatud tunnused.
![Page 24: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/24.jpg)
Näide: naiste vanusejaotus: tegelik ning arvutatud soo ja vanuse järgi sõltuvust arvestamata
0 1--4 5--9 10--14
15--19
20--24
25--29
30--34
35--39
40--44
45--49
50--54
55--59
60--64
65--69
70--74
75--79
80--84
85+0
0.5
1
1.5
2
2.5
3
3.5
4
4.5
N_tegelikN_arvut
![Page 25: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/25.jpg)
Kahe sõltuvate tunnustega valimi ühendamine
![Page 26: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/26.jpg)
Seletus• Oletame, et kahe valimi korral on eelnevast teada, et
ühe valimi teatavate väärtuste puhul on eelistatud teise valimi teatavad konkreetsed väärtused (tähistagu neid skeemil tumedamad sinised ja tumedamad punased väärtused).
• Ühendatud valimi (mida saab kasutada üksnes tabelite moodustamiseks) jaotus peaks seda siis ka vastavalt kajastama.
• Üldjuhul pole ühisjaotuse genereerimine sel juhul lihtne, selleks puudub üldsobiv metoodika ja tehnoloogia.
![Page 27: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/27.jpg)
VALIM + VALIM VALIMÜHISOSAGA VALIMITE JUHTUM
![Page 28: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/28.jpg)
Kahel valimil on ühiseid objekte ja/või ühiseid tunnuseid
Põhimõtteliselt on siin kolm erinevat ülesannet:Samadele objektidele täiendavate tunnuste
lisamine;Samade tunnuste mõõtmine uutel objektidel;Uues valimis on niihästi uusi objekte kui ka uusi
tunnuseid.
![Page 29: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/29.jpg)
tüüp 1 tüüp 2 tüüp 3
![Page 30: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/30.jpg)
1.Esimene ülesande tüüp on tavaline paneeluuringutes.
• Enamasti on probleemiks objektide arvu kahanemine, mis tähendab, et muuta tuleb laiendustegureid.
2. Teine tüüp on lahendatav laiendustegurite ühitamise teel.
![Page 31: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/31.jpg)
Kolmas tüüp
• Sobiv on laiendustegurite arvutamiseks kasutada valimite ühiseid tunnuseid.
• Mida suurem on ühiste tunnuste osa, seda väiksem on määramatus tunnustevaheliste seoste osas.
• Kuid teadaolevad seosed (alljärgnevas maatriksis mustad arvud) ei määra üheselt mitteteadaolevaid (punaseid) seoseid.
• Seega sellise ülesande lahendamisel jääb paratamatult tulemustesse teatav ebatäpsus.
![Page 32: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/32.jpg)
Seosekordajate maatriksV1 V2 Ü1 Ü2 W1 W2
V1 1 rv1v2 rü1v1 rü2v1 rv1w1 rv1w2
V2 rv1v2 1 rü1v2 rü2v2 rv2w1 rv2w2
Ü1 rü1v1 rü1v2 1 rü1ü2 rü1w1 rü1w2
Ü2 rü2v1 rü2v2 rü1ü2 1 rü1w1 rü1w2
W1 rv1w1 rv2w1 rü1w1 rü2w1 1 rw1w2
W2 rv1w2 rv2w2 rü1w2 rü2w2 rw1w2 1
![Page 33: Töötamine erinevate andmeallikatega](https://reader038.vdocuments.net/reader038/viewer/2022102611/56813364550346895d9a7a15/html5/thumbnails/33.jpg)
Sõltuvuste genereerimine?
• Teoreetiline uurimistöö – võimalik teatavate jaotuse tüüpide korral (nt normaaljaotus, selle üldistused jne).
• Praktiliselt teostatav pigem lähendusmeetodite abil (nt lineaarne planeerimine – sihifunktsiooniks on eeldatav ühisjaotuse seosemaatriks).