#hackjak2015: data scraping 101

29
DATA SCRAPING 101 Prasetya Dwicahya Jakarta, 25 Juli 2015

Upload: awrago

Post on 18-Aug-2015

3.618 views

Category:

Technology


1 download

TRANSCRIPT

DATA SCRAPING 101

Prasetya Dwicahya Jakarta, 25 Juli 2015

Data scraping is a technique in which a computer program extracts data from human-readable output coming from another program

Source: https://en.wikipedia.org/wiki/Data_scraping

Source: http://www.nytimes.com/interactive/2015/05/03/upshot/the-best-and-worst-places-to-grow-up-how-your-area-compares.html?_r=0&abt=0002&abg=1

Dimulai dengan DATA yang baik

OPEN DATA

is data that can be freely used,

reused, and redistributed by anyone –

subject only, at most, to the requirement

to attribute and share alike

Open Definition

Menjadikan data terbuka sebagai

pendorong terciptanya pemerintah yang

akuntabel dan pertumbuhan dunia

usaha di Indonesia

VISI

penciptaan

lapangan kerja

kebijakan

berbasis data

akses informasi

publik

1) Cari2) Pahami3) Ubah4) Catat

REPOSITORY

Extract

http://eiti.ekon.go.id/v2/wp-content/uploads/peta/index.html

CARANYA?

Ada 2 buah bola, yang satu berwarna merah yangsatu berwarna putih. Diameter kedua bolatersebut adalah 2.5 cm dan 3 cm

nama_benda warna_benda diameter (cm)

Bola 1 Merah 2.5

Bola 2 Putih 3

3 Prinsip Data Bersih

Data terstruktur dan diformat sesuai dengan kebutuhandan tool yang anda gunakan

Berisi hal yang benar-benar penting dan hilangkandata atau informasi yang tidak diperlukan

Konsisten dalam penamaan, tipe, dan konteks data

RAPI

INFORMATIF

KONSISTEN

DALAM FORMAT TERBUKA

★ Tersedia dalam situs saja

★★ Tersedia dalam bentuk yang terstruktur

★★★ Tersedia dalam bentuk terstruktur danmenggunakan format terbuka

★★★★ Menggunakan URI untuk penyajian data

★★★★★ Data sudah bertautan antara satu denganyang lainnya

METADATA

DATA mengenai DATA

METADATA

Fungsi Utama Metadata

Metadata membantu untuk menyusundata sehingga memudahkan pencariandan penggunaan

Jika terjadi kesalahan atau kekurangan padadata, metadata dapat diandalkan untukmencari sumber permasalahan tersebut

KATALOG

AUDIT

• Get Started with Scraping -http://schoolofdata.org/2013/06/18/get-started-with-scraping-extracting-simple-tables-from-pdf-documents/

• How to Extract Data from PDF -http://www.interhacktives.com/2014/03/12/extract-data-pdf/

• Scraping PDF - https://blog.scraperwiki.com/tag/pdf/

• Data Science Resource - http://www.datascienceweekly.org/data-science-resources

Referensi