stats4finland työpaja 5.9.2012, kim huuhko: eurostatin avoimet aineistot

11
Eurostatin avoimet aineistot

Upload: apps4finland

Post on 28-Nov-2014

997 views

Category:

Technology


0 download

DESCRIPTION

 

TRANSCRIPT

Page 1: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Eurostatin avoimet aineistot

Page 2: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Eurostatin (EU:n tilastovirasto) avoimet aineistot

n  Ladattavissa osoitteesta: http://epp.eurostat.ec.europa.eu/portal/page/portal/statistics/bulk_download

n  Sisältää n. 1 100 taulukkoa (table) ja n. 4 300 laajempaa tietokantakuutiota (dataset).

l  Lähes kaikissa näistä on mukana aluemuuttuja "geo" (useimmiten maat n. 35 ja joissain tapauksissa NUTS2-alueet n. 300).

l  Lähes kaikissa näistä on mukana myös aikamuuttuja "time" (joko vuodet tai kuukaudet).

l  Näiden lisäksi taulukoissa on 0-2 muuta muuttujaa. Tietokantakuutioissa saattaa olla enemmänkin ulottuvuuksia.

n  Aineistot ladattavissa zipattuina joko tsv, dft tai sdmx –muodossa. n  Tiedot päivittyvät kahdesti päivässä.

Page 3: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Lataussivustolta löytyy itse data-aineistojen lisäksi myös: n  Manuaali, jossa kuvataan yksityiskohtaisesti eri tiedostomuotojen

rakenteet. n  Tekstitiedostomuotoinen "table of contents" -listaus ladattavissa

olevista tiedostoista: l  Sisältää aineistojen perusmetatiedot (hakemistorakenteen,

tiedostonimet sekä taulukoiden otsikot, päivityspäivämäärät ja aikasarjojen pituudet).

n  Vaihtoehtoinen xml-muotoinen "table of contents" -listaus: l  Sisältää edellisen lisäksi sisältää myös taulukoissa käytetyt yksiköt,

lyhyet kuvaukset, linkit laajempaan metatietoon sekä taulukoiden latauslinkit.

n  Erilliset käännöstiedostot (dic).

Page 4: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

n  Datatiedostot sisältävät varsinaisen numeerisen datan lisäksi vain muuttujien nimet sekä muuttujien arvojen koodit.

n  Erillisestä käännöshakemistosta löytyy kutakin muuttujan nimeä vastaava käännöstiedosto, josta löytyy kyseisen muuttujan arvokoodeja vastaavat selväkieliset nimet.

n  Taulukkolistaukset ja käännöstiedostot ovat ladattavissa kolmella eri kielellä (englanti, ranska ja saksa).

Page 5: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Taulukot jaettu 9 pääaihealueeseen:

n  General and regional statistics n  Economy and finance n  Population and social conditions n  Industry, trade and services n  Agriculture, forestry and fisheries n  International trade n  Transport n  Environment and energy n  Science and technology

Page 6: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Ja lisäksi erillisiin poikkitilastollisiin teemoihin:

n  Macroeconomic Imbalance Procedure Scoreboard n  Short-term indicators n  Europe 2020 indicators n  Sustainable Development indicators n  Globalisation indicators n  Structural (Lisbon) indicators n  Employment and Social Policy Indicators

-> Taulukot voivat olla useammassa paikassa hakemistorakenteen eri osissa.

Page 7: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Tilastokeskuksen malli Eurostatin aineistojen käytöstä

-> Tarve tuoda Eurostatin tilastot lähemmäksi Tilastokeskuksen asiakkaita:

l  Yhtenäinen käyttöliittymä (PX-Web) l  Yhtenäinen aihealuejako (SVT –aihealueet) l  Suomen kieli l  Pc-Axis –tiedostomuoto

-> Luo meille myös mahdollisuuden käyttää näitä aineistoja helposti (jopa automaattisesti) muussa taulukko-, tilastokuvio- ja karttatuotannossa sekä mahdollisuuden linkittää näitä aineistoja aihealuetasolla muuhun sivustoon.

Page 8: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Luotiin skripti, joka: l  Hakee taulukot (vain ns. valmistaulukot) joka yö Eurostatin sivuilta. l  Konvertoi ne Pc-Axis -tiedostoiksi tarvittavine metatietoineen ja

lähettää ne PX-Web -tietokantaan oikeisiin SVT-aihealueisiin.

Joitain vastaan tulleita ongelmia: Eurostatin taulukkokoelma elää koko ajan:

l  Vanhoja taulukoita poistuu ja uusia tulee tilalle l  Sama taulukko kahdella eri nimellä eri paikoissa l  Otsikot vaihtuvat l  Puutteelliset käännöstiedostot l  Ajoittain zip-tiedostot rikki l  Listaustiedoston tai jopa datatiedostojen rakenne muuttunut

Page 9: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

n  Suomenkielisen version ylläpidon resurssiongelma. n  Puutteelliset metatiedot -> tarve siirtyä xml-listaukseen.

-> Suositeltavaa käyttää suoraan alkuperäistä lähdettä (Eurostat). Mahdollista toki käyttää myös Tilastokeskuksen konvertoimia Pc-

Axis-muotoisia taulukoita, jotka löytyvät sivuiltamme: http://www.stat.fi/org/lainsaadanto/avoin_data.html

Page 10: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

n  Näitä taulukoita voi tutkia Tilastokeskuksen kansainvälisen tilastotiedon sivuilta PX-Web -tietokannasta (Eurostatin avaintaulukot): http://tilastokeskus.fi/tup/kvportaali/

n  Sivuilta löytyy myös joukko näiden taulukoiden pohjalta luotuja automaattisesti päivittyviä tilastokuvioita (Kansainväliset vertailukuviot).

n  Sivuilta löytyy myös linkkejä muihin keskeisiin kansainvälisten järjestöjen tilastotietokantoihin. Näistä laajimmat (ja poikkitilastolliset) ovat:

l  OECD Statistics (OECD:n tilastoportaali) l  UNdata (YK:n tilastotietokantojen portaali) l  World Bank (Maailmanpankin tietokannat) l  UNECE Database (YK:n Euroopan talouskomission tietokanta)

Page 11: Stats4Finland työpaja 5.9.2012, Kim Huuhko: Eurostatin avoimet aineistot

Myös muita keskeisiä aihealueittaisia tietokantoja esim.: l  ILO: LABORSTA (Kansainvälisen työjärjestön palkka- ja

työvoimatilastot) l  FAOSTAT (YK:n elintarvike- ja maatalousjärjestön tietokannat)

Joitain Tilastokeskuksen intressejä ja näkökulmia avoimen datan sovellusten suhteen:

l  Tietojen automaattinen haku myös muista kv-tietokannoista l  Interaktiiviset sovellukset -> Käyttäjillä mahdollisuus itse tutkia

aineistoja omista lähtökohdistaan l  Mahdollisuus esittää asioita uudella tavalla uusista näkökulmista l  Keskeinen edellytys palveluiden helppo ja tehokas päivitettävyys

l  Tehokkaat datan sisään- ja uloslukurutiinit l  Suuret datamäärät