datajournalismi scrappaus

Post on 13-Dec-2014

1.447 Views

Category:

Documents

2 Downloads

Preview:

Click to see full reader

DESCRIPTION

 

TRANSCRIPT

Screen scrappausDatan hankinta ja käyttö

10.04.23 Johan Laitinen

Lähtökohta

Optimaalinen lähtökohta: Mitä dataa halutaan? Data avointa

Yleinen lähtökohta: Mitä dataa saadaan? Osa datasta avointa Omat scrappaukset

10.04.23 Johan Laitinen

Prosessi

Kolme vaihetta Hankinta (import)

Aineiston tallentaminen Käsittely (processing)

Aineiston muokkaaminen käytettävään muotoon Datan louhinta

Tulos (output) Valikoidun datan tallennus

10.04.23 Johan Laitinen

Datan hankinta

Saako dataa valmiina jostain? Valmiit rajapinnat Tehtävä itse - Eduskunnan äänestysdata – biomi

http://biomi.org/eduskunta/eduskunta.html Kuka takaa toimivuuden?

Onko datan tulo jatkuvaa? Vuosittainen tilinpäätös vs. Kunnan

päätöksentekodata vs. blogitekstit

10.04.23 Johan Laitinen

Datan prosessointi

Mitä dataa haetaan?

Missä muodossa data on? Rakenteellinen / rakenteeton

Mihin muotoon data pitäisi saada? XML, JSON, CSV?

10.04.23 Johan Laitinen

Case: Tampereen kaupunki

10.04.23 Johan Laitinen

Case: Tampereen kaupunki

wget --convert-links --post-data='kirjaamo=&text=Keskusareena&pvm1=&pvm2=&ktu=&djn=&dvu=’ http://193.111.93.11/ktwebbin/dbisa.dll/ktwebscr/epj_asil2.htm

Curlissa ei –convert-links –vipua --> liitteet hankala saada

10.04.23 Johan Laitinen

Case Tampereen kaupunki

Otetaan mielenkiintoiset datat talteen

10.04.23 Johan Laitinen

Case Tampereen kaupunki

10.04.23http://demo.avanto.in

Johan Laitinen

Työkaluja

Datan hankinta Wget / curl php ScraperWiki

Datan käsittely Antiword – pdf/doc txt Regex – datan etsintään, valikointiin http://kex.venko.net/perusta/ - sanojen perusmuotoistaminen

(Tuomas Salo)

Datan varastointi Node.js

Prosessin automatisointi / cron

10.04.23 Johan Laitinen

Hyvä muistaa

Skriptien tulisi kuormittaa palvelimia mahdollisimman vähän (vältetään tahaton DoS)

Miten skripti hoitaa ongelmatilanteet?

Merkistö: välilyönnit, viivat, ääkköset voivat aiheuttaa ongelmia

Verifioidaan data scrappaukseen jälkeen! Etenkin jatkuvassa ajossa olevien skriptien tapauksessa

10.04.23 Johan Laitinen

Kysymyksiä tai kommentteja?

Kiitoksia mielenkiinnosta!

10.04.23 Johan Laitinen

top related