stats4finland työpaja 5.9.2012, kim huuhko: eurostatin avoimet aineistot
DESCRIPTION
TRANSCRIPT
Eurostatin avoimet aineistot
Eurostatin (EU:n tilastovirasto) avoimet aineistot
n Ladattavissa osoitteesta: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_download
n Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa tietokantakuutiota (dataset).
l Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300).
l Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko vuodet tai kuukaudet).
l Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa. Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.
n Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa. n Tiedot päivittyvät kahdesti päivässä.
Lataussivustolta löytyy itse data-aineistojen lisäksi myös: n Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen
rakenteet. n Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa
olevista tiedostoista: l Sisältää aineistojen perusmetatiedot (hakemistorakenteen,
tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja aikasarjojen pituudet).
n Vaihtoehtoinen xml-muotoinen "table of contents" -listaus: l Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt,
lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden latauslinkit.
n Erilliset käännöstiedostot (dic).
n Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain muuttujien nimet sekä muuttujien arvojen koodit.
n Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä vastaava käännöstiedosto, josta löytyy kyseisen muuttujan arvokoodeja vastaavat selväkieliset nimet.
n Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella eri kielellä (englanti, ranska ja saksa).
Taulukot jaettu 9 pääaihealueeseen:
n General and regional statistics n Economy and finance n Population and social conditions n Industry, trade and services n Agriculture, forestry and fisheries n International trade n Transport n Environment and energy n Science and technology
Ja lisäksi erillisiin poikkitilastollisiin teemoihin:
n Macroeconomic Imbalance Procedure Scoreboard n Short-term indicators n Europe 2020 indicators n Sustainable Development indicators n Globalisation indicators n Structural (Lisbon) indicators n Employment and Social Policy Indicators
-> Taulukot voivat olla useammassa paikassa hakemistorakenteen eri osissa.
Tilastokeskuksen malli Eurostatin aineistojen käytöstä
-> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen asiakkaita:
l Yhtenäinen käyttöliittymä (PX-Web) l Yhtenäinen aihealuejako (SVT –aihealueet) l Suomen kieli l Pc-Axis –tiedostomuoto
-> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti (jopa automaattisesti) muussa taulukko-, tilastokuvio- ja karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja aihealuetasolla muuhun sivustoon.
Luotiin skripti, joka: l Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta. l Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja
lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.
Joitain vastaan tulleita ongelmia: Eurostatin taulukkokoelma elää koko ajan:
l Vanhoja taulukoita poistuu ja uusia tulee tilalle l Sama taulukko kahdella eri nimellä eri paikoissa l Otsikot vaihtuvat l Puutteelliset käännöstiedostot l Ajoittain zip-tiedostot rikki l Listaustiedoston tai jopa datatiedostojen rakenne muuttunut
n Suomenkielisen version ylläpidon resurssiongelma. n Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.
-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat). Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc-
Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme: http://www.stat.fi/org/lainsaadanto/avoin_data.html
n Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/
n Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja automaattisesti päivittyviä tilastokuvioita (Kansainväliset vertailukuviot).
n Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten järjestöjen tilastotietokantoihin. Näistä laajimmat (ja poikkitilastolliset) ovat:
l OECD Statistics (OECD:n tilastoportaali) l UNdata (YK:n tilastotietokantojen portaali) l World Bank (Maailmanpankin tietokannat) l UNECE Database (YK:n Euroopan talouskomission tietokanta)
Myös muita keskeisiä aihealueittaisia tietokantoja esim.: l ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja
työvoimatilastot) l FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)
Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan sovellusten suhteen:
l Tietojen automaattinen haku myös muista kv-tietokannoista l Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia
aineistoja omista lähtökohdistaan l Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista l Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys
l Tehokkaat datan sisään- ja uloslukurutiinit l Suuret datamäärät