chi controlla l'integrità dei dati?
DESCRIPTION
Traccia di discussione presentata al SOD14 Barcamp del 28 Marzo 2014 a BolognaTRANSCRIPT
![Page 1: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/1.jpg)
Chi controlla l’integritàdei dati?
Matteo Fortini
28 Marzo 2014
#SOD14 Barcamp
Bologna
![Page 2: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/2.jpg)
La bontà di un lavoro di data
analysis non può superare la
bontà dei dati su cui si basa
![Page 3: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/3.jpg)
La bontà di un lavoro di data
analysis non può superare la
bontà dei dati su cui si basa
oppure no?
![Page 4: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/4.jpg)
Il percorso
Acquisizione
Organizzazione/Pulizia
Analisi
Dataviz
Storia
![Page 5: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/5.jpg)
Li raccolgo io
![Page 6: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/6.jpg)
Me li ha forniti qualcuno
![Page 7: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/7.jpg)
Conservare
![Page 8: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/8.jpg)
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
![Page 9: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/9.jpg)
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
![Page 10: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/10.jpg)
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
◮ In un container con checksum: ZIP, RAR, 7Z, . . .
![Page 11: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/11.jpg)
Conservare◮ Su un server: CKAN, ma anche Drive, Dropbox, . . .
◮ In un sistema di versioning: GIT, SVN, . . .
◮ In un container con checksum: ZIP, RAR, 7Z, . . .
◮ In una cartella separata . . .
![Page 12: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/12.jpg)
Conservare
![Page 13: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/13.jpg)
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
![Page 14: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/14.jpg)
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
◮ Registrare data e ora
![Page 15: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/15.jpg)
Conservare◮ Registrare la fonte: url, ufficio, persona, . . .
◮ Registrare data e ora
◮ Registrare un checksum: md5sum, SHA, . . .
![Page 16: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/16.jpg)
Checksum
![Page 17: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/17.jpg)
Checksum
Integritài dati sono rimasti uguali
![Page 18: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/18.jpg)
Checksum
Integritài dati sono rimasti uguali
Ripudionon sono i miei dati!
![Page 19: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/19.jpg)
Checksum “analogici”
◮ Codice Fiscale
◮ Carte di credito
◮ Gli altri dati?
![Page 20: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/20.jpg)
Coerenza
![Page 21: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/21.jpg)
Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,
temperature. . . )
![Page 22: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/22.jpg)
Coerenza◮ Hanno delle proprietà note? (es. Bilanci, livelli,
temperature. . . )
◮ Fanno parte di un insieme noto? (es. Persone, Seriestoriche. . . )
![Page 23: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/23.jpg)
Outliers
![Page 24: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/24.jpg)
Outliers
Il nostro
problema?
![Page 25: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/25.jpg)
Outliers
Il nostro
problema?
La nostra
notizia?
![Page 26: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/26.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
![Page 27: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/27.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
![Page 28: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/28.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
![Page 29: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/29.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
![Page 30: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/30.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
◮ Documentare le trasformazioni
![Page 31: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/31.jpg)
Elaborazione◮ Come verificare che non ci siano stati errori?
◮ Cercare sempre di partire dai dati raw
◮ Bloccare i dati (al limite i fogli. . . )
◮ Separare Raw->Cooked->Elaborazione
◮ Documentare le trasformazioni
◮ Trasformazioni ripetibili
![Page 32: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/32.jpg)
Portali Opendata:
l’esempio di
http://dati.gov.it
◮ Non hanno un checksum dei dati
◮ Non dichiarano la versione
◮ Mostrano la storia, ma non permettono di accedere alpassato
◮ Il problema dei dati continuamente aggiornati
![Page 33: Chi controlla l'integrità dei dati?](https://reader034.vdocuments.net/reader034/viewer/2022052522/54835948b47959f10c8b4a60/html5/thumbnails/33.jpg)
Riferimenti◮ Broken egg photo by Stewart Butterfield http://www.flickr.com/photos/stewart/
◮ Rubbish emergency in Campania by Chiara Marra https://www.flickr.com/photos/chiaramarra/
◮ Winding road by Wayne Silver https://www.flickr.com/photos/psycho-pics/
◮ US Customs and Border Protection Agriculture Specialist inspects flower by US Customs and Border Protectionhttps://www.flickr.com/photos/cbpphotos/
◮ Decision by Cristi B https://www.flickr.com/photos/cristib/
◮ Thing in a jar by Windell Oskay https://www.flickr.com/photos/oskay/
◮ Darwin Center by Adam Foser https://www.flickr.com/photos/twosevenoneonenineeightthreesevenatenzerosix/
◮ Bubble by Ali T https://www.flickr.com/photos/77682540@N00/
◮ Fowl storm by JD Hancock https://www.flickr.com/photos/jdhancock/
◮ Codice Fiscale by krypt http://openclipart.org/detail/129043/codice-fiscale---tax-code-by-krypt
◮ Dress by Michael http://www.flickr.com/photos/helloturkeytoe/
◮ Outlier by Robert S. Donovan http://www.flickr.com/photos/booleansplit/8482641188/
◮ Bad Apples Fallen Apples Grass by Emilian Robert Vicol http://www.flickr.com/photos/free-stock/
◮ Pot of Gold by Jeremy Schultz http://www.flickr.com/photos/tao_zhyn/
◮ Meat grinder by Anfuehrer http://www.flickr.com/photos/planetbene/
◮ Logo http://dati.gov.it
◮ Chain by SFU Marcin https://www.flickr.com/photos/svoo/