hammer project - answering queries on open data

ANSWERING QUERIES ON OPENDATA

Pelucchi Mauro

Relatore: Prof. Giuseppe Psaila Correlatore: Prof. Maurizio Pietro Toccù

COSA E’ OPEN DATA?

• Con dati aperti facciamo riferimento alle informazioni raccolte e detenute da Pubbliche Amministrazioni ed Enti Pubblici che vengono messe a disposizione di tutti attraverso internet

HTTP://OPENDEFINITION.ORGLa conoscenza è aperta quando chiunque ha libertà di

accesso, uso, modifica e condivisione ad essa – avendo al massimo

come limite misure che ne preservino la provenienza e l’apertura.

#opendefinition

http://opendefinition.org

HTTP://OPENDEFINITION.ORGLa conoscenza è aperta quando chiunque ha libertà di

accesso, uso, modifica e condivisione ad essa – avendo al massimo

come limite misure che ne preservino la provenienza e l’apertura.

#opendefinition

Open Government Open Source Open Access

http://opendefinition.org

PERCHÉ FARE OPEN DATA?• TRASPARENZA

• Volontà di rendere pubblica l’azione di governo

• CREAZIONE DI SERVIZI A CITTADINI E IMPRESE

• Creazione di nuovi servizi da parte di enti terzi

• CREAZIONE DI NUOVA ECONOMIA

• Nuovi mercati, nuovi prodotti e nuovi posto di lavoro

• LEVA PER L’INNOVAZIONE

Open Data in Italia

LE CARATTERISTICHE DEGLI OPEN DATA

Non strutturati Varietà di formati

Fonti dati eterogenee

Procedure e strumenti diverse

Varietà di struttura

VolumeDati grezzi

CATENA DEL VALORE

Rilascio dataset

Raccolta e raffinamento

Riuso Open Data

Utilizzo Open Data

dati grezzi dati raffinatinuovi prodotti e nuovi servizi

Enti Pubblici Società specializzate Imprese Cittadini

Select TITOLOfrom GIORNALE

WhereTITOLO like ‘%BergamoScienza%’

and Anno = 2015

Select TITOLO from GIORNALE

Where TITOLO like

‘%BergamoScienza%’ and Anno = 2015


Where TITOLO like


TITOLO GIORNALE

BERGAMOSCIENZA 2015


Where TITOLO like


TITOLO GIORNALE

BERGAMOSCIENZA 2015

Ricerca dei dataset

Catalogo locale

TITOLO GIORNALE

BERGAMOSCIENZA 2015

metadati attributi{


Where TITOLO like


TITOLO GIORNALE

BERGAMOSCIENZA 2015

Ricerca dei dataset

Catalogo locale

Risultato della ricerca

TITOLO GIORNALE

BERGAMOSCIENZA 2015

metadati attributi{


Where TITOLO like


TITOLO GIORNALE

BERGAMOSCIENZA 2015

Ricerca dei dataset

Catalogo locale

Filtro dei record in base alla selezioni


TITOLO GIORNALE

BERGAMOSCIENZA 2015

metadati attributi{


Where TITOLO like


TITOLO GIORNALE

BERGAMOSCIENZA 2015

Ricerca dei dataset

Catalogo locale

Output json

Filtro dei record in base alla selezioni


TITOLO GIORNALE

BERGAMOSCIENZA 2015

metadati attributi{

Quality check

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Catalogo Locale

e Inverted Index

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

creazione del catalogo

locale

Catalogo Locale

e Inverted Index

metadati (titolo, autore, parole chiave, …)

+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data


localecreazione dell’indice

Catalogo Locale

e Inverted Index


+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Query.json



Catalogo Locale

e Inverted Index


+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Query.json

ricerca sull’indice invertito



Catalogo Locale

e Inverted Index


+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Query.json

download




Catalogo Locale

e Inverted Index


+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Query.json

download




Catalogo Locale

e Inverted Index

selezione dei record


+ attributi

Parser

Document Database

Crawler

Search Engine

IndexerPortali

Open Data

Query.json

download


processo di

data quality



Catalogo Locale

e Inverted Index

selezione dei record


+ attributi

{ "select": [

{ "column": { "instance": "giornale", “label":"titolo"}} ],

"from": [

“giornale" ],

"where": [ {"condition": {

"instance1": “giornale", "label1": "titolo",

"operator": “like", "value": "BERGAMOSCIENZA",

"logicalOperator": "and"

}}, {"condition": {

"instance1": “giornale", "label1": “anno",

"operator": “eq", "value": "2015",


}}]

}

Interoperability

IL LINGUAGGIO

Semplice

Open

Compatto

Estendibile

{ "select": [

{ "column": { "instance": "giornale", “label":"titolo"}} ],

"from": [

“giornale" ],

"where": [ {"condition": {

"instance1": “giornale", "label1": "titolo",

"operator": “like", "value": "BERGAMOSCIENZA",


}}, {"condition": {

"instance1": “giornale", "label1": “anno",

"operator": “eq", "value": "2015",


}}]

}

InteroperabilityInteroperability

IL LINGUAGGIO

Semplice

Open

Compatto

Estendibile

I TERMINI CHIAVESelect TITOLO

from GIORNALE Where

TITOLO like ‘%BergamoScienza%’ and Anno = 2015

Informatività = Quantità di informazione - la capacità di informare propria di un testo

Rappresentatività = Capacità di essere rappresentativi - la probabilità che la ricerca del termine restituisca documenti interessanti per il dominio

IL CATALOGO LOCALE

dati.regionelombardia.itdati.regionetoscana.it

dati.trentino.it…

Read/import data

source

Input split Mapping Shuffling/Reducing Final

http://dati.regionelombardia.it

http://dati.regionetoscana.it

http://dati.trentino.it

IL CATALOGO LOCALE


dati.trentino.it…

dati.regionelombardia.it

dati.regionetoscana.it

dati.trentino.it

Read/import data

source

Input split Mapping Shuffling/Reducing Final







IL CATALOGO LOCALE


dati.trentino.it…



dati.trentino.it

Read/import data

source

Input splitElenco comuni della

Lombardia

Aree Wifi a Milano

…

Dati inquinamento Toscana

Anagrafe scuola Toscana

…

Anagrafe scuole Trento

Musei Trento

…

Mapping Shuffling/Reducing Final







IL CATALOGO LOCALE


dati.trentino.it…



dati.trentino.it

Read/import data

source


Lombardia

Aree Wifi a Milano

…



…


Musei Trento

…

Mapping Shuffling/Reducing

Elenco comuni della Lombardia

Aree Wifi a Milano

…



…


Musei Trento

…

Final







IL CATALOGO LOCALE


dati.trentino.it…



dati.trentino.it

Read/import data

source


Lombardia

Aree Wifi a Milano

…



…


Musei Trento

…

Mapping Shuffling/Reducing

Elenco comuni della Lombardia

Aree Wifi a Milano

…



…


Musei Trento

…

Final

Catalogo locale







DATA QUALITY

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸

DATA QUALITY

Accuratezza

Obsolescenza

Vicinanza di un dato rispetto al valore corretto

𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐴𝑐𝑐𝑢𝑟𝑎𝑐𝑦 𝑅𝑆

𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦 𝐶𝐸 = 𝑟𝑒𝑙 𝑅𝑆 · 𝐶𝑢𝑟𝑟𝑒𝑛𝑐𝑦(𝑅𝑆)

Grado di aggiornamento

Rilevanza Valori rappresentati rispetto al dominio

PROVE SPERIMENTALIAMBITO SOCIALE

AMBITO ECONOMICO

AMBITO AMBIENTALE

Agriturismi, musei, alberghi, sport, BG

Lombardia, Cened, Biomassa, Polizia, Auto

Cened, Censimento, 2011, Bergamo

44 documenti

19031 record

20 minuti

53 documenti

32759 record

15 minuti

64 documenti

8404 record

7 minuti

Google Cloud Platform 3 nodi Apache Hadoop (totale 9 core, 9 GB) 2 nodi MongoDb (6 core, 6 GB / primary + replica)

Catalogo: 7 sorgenti - 3306 documenti 4851 termini

Un linguaggio per interrogare dati non strutturati

Un algoritmo per la creazione ed il mantenimento di un catalogo locale di

Open Data da fonti eterogenee

Creazione di un Inverted Index

Un algoritmo per estrarre dati strutturati da dati non strutturati partendo da un catalogo locale

Processo di data quality Indice di consistenza

k-level per l’estrazione dei termini chiave

Ontologie e tesauri per migliorare l’indice

Integrazione di altre fonti (es.: Istat) e

applicazioni in ambito BigData

Aggregazioni eordinamenti

LA VISUALIZZAZIONERapidità e affidabilità

delle analisi ad hoc

Ottimizzazione del processo decisionale

Più collaborazione e condivisione

delle informazioni

Più funzionalità self service per gli utenti finali

Incremento del ROI

Risparmio di tempo

Meno pressione

sull’It

20 %43 %

77 %

34 %

15 %36 %

41 %

www.sas.com/italy

http://www.sas.com/italy

CITIZEN DATA SCIENTISTS

Citizen data scientists: people on the business side that may have some data skills, possibly from a math or even

social science degree and putting them to work exploring and analyzing data.

Gartner 2015 Hype Cycle

Per maggior informazioni:

GitHub - https://github.com/HammerProject

http://www.hammer-project.com

Grazie

https://github.com/HammerProject

http://www.hammer-project.com

hammer project - answering queries on open data

Data & Analytics