introduzione a linked open data e web semantico / antonella iacono

Introduzione a LinkedOpen data e Web

semantico Antonella Iacono

Sapienza Università di Roma. Dipartimento di scienze documentarie, linguistico–filologiche e geografiche.

Ciclo di conferenze a.a. 2015-201610 maggio 2016

Contenuti della lezione

1. Cosa sono i linked open data (LOD). Linked data e Web semantico

2. Linked data, LOD, principi dei linked data. Il modello RDF

3. Vocabolari e ontologie. Il Web dei dati

4. Pubblicare I linked data

3/2015

Linked data e Web Semantico. Corso di aggiornamento professionale. AIB Piemonte

Che cosa sono i linked open data?

https://vimeo.com/49232562



Cosa sono i linked data?

Linked open data= ‘buone pratiche’ per pubblicare e collegare dati strutturati sul Web (Tim Berners Lee)

Attraverso i Linked data è possibile pubblicare sul Web i dati in unamodalità leggibile e interpretabile da una macchina, il cui significato èdefinito da una stringa di parole e marcatori (‘tripla’) per costituire unreticolo di dati collegati appartenenti a un dominio e collegabili ad altridataset relativi ad altri domini presenti nel Web. Si costruisce così unarete di dati globale, i cui contenuti possono essere scambiati einterpretati dalle macchine, ovvero la base per il Web semantico(*Berners-Lee; Hendler; Lassila 2001, Guerrini; Possemato 2012)

«creare dati che siano ‘del Web’ e non solo ‘sul Web’» (Coyle 2013)

Di cosa stiamo parlando?

Necessità di utilizzare dati

Aperti : gli OD sono dati che possono essere liberamente utilizzati, ridistribuiti da chiunque, (con poche limitazioni: citare la fonte, o tramite licenze copyleft)

Collegati: il rilascio di dati aperti non basta da solo a valorizzare e collegare l’informazione, questi devono essere collegati ad altri dati

Riutilizzabili: cioè di dati tra loro interoperabili (interoperabilità a più livelli: semantica, tecnologica, di risorse umane e competenze, organizzativa)

Perché interessarsi ai linked data?

Anche le biblioteche di trovano tra quegli enti che oggi producono dati esclusi dal Web

Gli utenti che fanno ricerca si rivolgono in prima battuta ai motori di ricerca (circa il 90%)

Le biblioteche hanno bisogno ormai da tempo di recuperare visibilità e credibilità nel Web

Se i dati delle biblioteche non sono compatibili = interoperabili con il Web gli utenti ignoreranno la biblioteca e i suoi servizi

Perché interessarsi ai linked data?

I LOD consentono alle biblioteche di produrre dati ‘aperti’,interoperabili e riutilizzabili per produrre applicazioni basate sui LODche potranno sfruttare i dati delle biblioteche in nuovo modi.

Le biblioteche potranno portare i loro dati autorevoli nel Web

Il Web potrà servirsi dei dati autorevoli delle biblioteche per produrre applicazioni basate su dati affidabili

Ci sarà un ritorno di utenza verso la biblioteca e i suoi servizi attraverso i ‘dati’ se questi verranno mescolati ad altri dati in contesti diversi

I linked data hanno una profonda ricaduta nella possibilità di creare piattaforme di interrogazione e integrazione del patrimonio culturale.

1. linked data e web semantico

Il Semantic Web

«I have a dream for the Web...»

Tim Berners-Lee 1999

Il Semantic Web

Proposto da Tim Berners Lee nel 2001 in un articolo pubblicato sula rivista «Scientific American» come Web pensante, versione avanzata dell’intelligenza collettiva.

Evolvere il Web attuale «machine readable» in un nuovo Web «machine understandable».

Creazione di una rete semantica che consenta ai computer di gestire autonomamente le informazioni e imparare processi per sviluppare una cooperazione efficace tra l’uomo e le macchine.

Agenti intelligenti: comprendono il significato delle risorse informative presenti in rete

Collegano le informazioni in base a relazioni logiche e semantiche effettuando ragionamenti deduttivi.

Il Semantic Web

«un’estensione del Web attuale, nella quale all’informazione viene dato un significato ben definito, permettendo così ai computer e alle persone di lavorare meglio in cooperazione» (Berners-Lee; Handler; Lassila 2001)

Associare all’informazione un ben preciso significato in modo dasupportare una comunicazione uomo-macchina più efficace emigliorare l’interoperabilità tra sistemi informativi

Dal WWW al Web Semantico

Con il termine ‘Web semantico’ si intende la trasformazione del World WideWeb in un ambiente in cui i documenti sono provvisti di metadati che neconnotano semanticamente il contenuto in un formato adattoall’interrogazione e all’elaborazione da parte delle macchine. (Wood et al.2013)

L’attenzione si sposta dai documenti ai contenuti dei documenti ( i dati)

Nel Semantic Web hanno grande importanza i metadati: associare ai datimeta-informazioni che ne descrivano il contenuto semantco

Il Semantic Web è un Web interpretabile dalle macchine

Ad ogni informazione (dato) viene dato un significato ben definito(formalizzato)

Obiettivo: trovare un linguaggio logico per esprimere i dati e consentire ilragionamento automatico

Il Semantic Web

E’ un web in grado di interpretare il significato dei documenti che lo popolano

Nasce per superare i limiti del Web attuale:

Problemi legati all’organizzazione e al recupero dell’informazione

Informazione del Web caotica e scollegata ad esclusivo uso degli essere umani

La prospettiva del Web semantico interessa direttamente i sistemi di recupero delle informazioni compresi i cataloghi delle biblioteche: superamento dell’ information retrieval tradizionale e recupero basato sui contenuti (dati) e sui concetti.

L’architettura del web semantico

3/2015

Interfaccia utente /applicazioni

Credibilità (trust)

Dimostrazione (proof)

Logica unificante

Ontologie: OWLInterrogazioni: SPARQL

Protocolli: HTTP

Tassonomie: RDFS

Sintassi: XML+XMLNS

Interoperabilità: RDF

Identificatori: URI/IRI Testo: UNICODE

Cri

tto

graf

ia/f

irm

a d

igit

ale

Regole:SWRL/RIF

Il Web Semantico 1/

Web semantico = ragionare sui dati = rendere i dati processabili

identificatori non ambigui che permettano anche una associazione tra i dati e gli oggetti del mondo reale (URI);

un modello comune per i dati in modo da accedere, connettere e descrivere tali oggetti (RDF);

un linguaggio per accedere a questo modello dei dati (SPARQL);

un vocabolario comune (RDFS e le ontologie)

una logica per il ragionamento (OWL, RULES)

3/2015

Web semantico e linked data

Possiamo distinguere due principali fasi del Web Semantico

• la prima fase (1999-2006) dominata da un approccio ‘forte’ e sintetico (top down) dell’ontologia fondazionale inteso come sistema di rappresentazione della conoscenza a priori;

• la seconda fase (2006-in corso) governata dall’approccio ‘debole’ e analitico (bottom up) dei Linked data.

3/2015

Web semantico e linked data

Le ontologie sono concettualizzazioni di porzioni di conoscenza (domini).

Le ontologie fondazionali sono interdisciplinari e costituiscono la base per la creazione del Web semantico

Le ontologie di dominio invece modellano specifiche porzioni del sapere individuando le entità di interesse e le loro relazioni e per essere pienamente operative dovrebbero basarsi sulle prime.

Entrambe hanno la funzione di disambiguare termini mediante la ‘categorizzazione’ degli oggetti o delle cose, cioè tramite l’inserimento di questi in categorie stabilite

Usate nel campo della Knowledge Organization servono a migliorare gli strumenti di ricerca, ma purtroppo hanno scarsa applicazione

L’approccio forte - le ontologie

L’originaria visione di Tim Berners Lee è detta ‘approccio forte’ essa si basa su una serie di ontologie fondazionali (ovvero schemi generali) e su una serie di altre ontologie più specifiche (di dominio) che fanno riferimento alle prime.

Attraverso di essere si crea un reticolo ontologico , ovvero un substrato di ontologie in grado di modellare e rappresentare la conoscenza

Purtroppo questo approccio dall’alto aveva una serie di limiti sia tecnologici (proliferazione di ontologie non più controllabili), sia etico-filosofici (come modellare il mondo e il Web)

L’approccio ‘debole’: i linked data

Rispetto all’originario disegno del Web semantico, che si basava sulla possibilità di sviluppare l’intelligenza artificiale tramite l’uso di agenti intelligenti e substrato ontologico creato e imposto ‘dall’alto ‘il paradigma dei linked open data è un approccio ‘dal basso’

‘Debole’: poiché all’imposizione dall’altro sostituisce l’interoperabilità dei dati, dunque si indebolisce l’originario disegno ‘semantico’

‘Bottom up’: i collegamenti tra le cose e i concetti si formano dal basso, rendendo i dati interoperabili tra loro

Dunque potremmo affermare che le nuove tecnologie del Web 2.0, partecipative e collaborative, hanno avuto un certo peso nel modificare l’approccio di base al Web Semantico e inaugurare il nuovo corso dei linked data.

Linked data e Web semantico

“A causa della natura del World Wide Web come ambiente aperto,decentralizzato e spesso caotico, gli approcci tradizionali allarappresentazione della conoscenza non possono essere direttamenteutilizzabili. Questi sistemi sono in genere stati concepiti in manieracentralizzata, richiedendo a tutti di condividere le stesse definizioni di concetticomuni nel loro vocabolario del discorso. Un controllo centralizzato, tuttavia,può essere soffocante e aumentare la dimensione e il campo di applicazione diquesti sistemi diventa rapidamente ingestibile. In definitiva, i sistemi che sonocostruiti per sfruttare il Web semantico devono accettare che paradossi einformazioni mancanti o contraddittorie sono un prezzo da pagare perottenere la versatilità. […] un obiettivo più pratico e a breve termine dell’ideadi Web semantico, è quella di consentire uno scambio di informazioniflessibile e aperto. In quanto tale l’idea di Linked data può essere pensatacome una forma ‘ridotta o diluita’ della versione originale del Web semantico[…] qualcosa che può essere ottenuto senza un ampio utilizzo di tecnichedell’intelligenza artificiale”. Ora Lassila

L’interoperabilità semantica

I LINKED DATA DUNQUE FAVORISCONO L’INTEROPERABILITA’ E SI CONFIGURANO COME UNO STRUMENTO PIU’ DINAMICO PER IL

RAGGIUNGIMENTO DEL WEB SEMANTICO.

L’interoperabilità semantica è dunque considerata come la ‘capacità di elaborare le informazioni provenienti da fonti diverse senza perdere il

reale significato delle informazioni stesse nel processo di elaborazione’

Open Data e Linked Open Data (LOD)

La tecnologia Linked data è profondamente legata al concetto diapertura dei dati (opennes), che ne costituisce la base intellettuale,tanto che si parla più propriamente di Linked open data (LOD), aidentificare dati non solo collegati, ma ‘aperti’.

E’ importante per il SW parlare di LOD e non solo di LD

Oggi viviamo, infatti, in un ecosistema informativo fortemente basatosui dati; non solo siamo continuamente circondati dai dati, ma essigiocano un ruolo sempre più importante nella vita delle persone:siamo entrati nell’era della data economy (Heath; Bizer 2011).

L’importanza dei dati da qualche tempo è stata compresa dalle aziendeche su questi dati hanno costruito i propri successi commerciali.Google, Amazon etc. si basano sui cosiddetti ‘big data’. Questi dati peròsono chiusi, e vengono utilizzati per scopi di business.

Open data

Perché oggi è importante disporre di dati aperti?

nei dati aperti si individua una tassello importante per la crescita

il libero accesso alla conoscenza consente di risparmiare soldi pubblici (e privati) e facilita l'innovazione

Attraverso dati aperti si accelera il progresso economico e culturale

Il movimento Open Data nasce per promuovere la trasparenza nella gestione di organizzazioni pubbliche e private

consapevolezza che ‘ i dati sono di tutti’: chiunque deve poterli utilizzare per progettare servizi innovativi per la società

però è indispensabile che i dati siano alla portata di tutti (aperti)

Un aspetto fondamentale degli Open data è la possibilità di riutilizzo dei dati tramite appropriate licenze

Open data

Gli Open Data nascono e si sviluppano principalmente in due contesti:

Pubblica amministrazione e governo : OPEN DATA come derivante dall’Open Government (che a sua volta deriva dall’e-government)= si parla più propriamente di open government data

Ricerca scientifica (R&S): OPEN DATA associato al fenomeno OPEN ACCESS

Gli open data nella Pubblica Amministrazione

Open government: trasparenza dei governi e delle PA nelle loro funzioni e nei servizi per garantire un controllo pubblico del loro operato tramite le nuove tecnologie

L’‘Economia dei dati’: costituisce un settore emergente nelpanorama economico ed è sostenuta da iniziative politichedell’Unione Europea come l’Agenda digitale e rientra nella strategiaEuropa 2020 (che fissa obiettivi per la crescita nell’Unione europea(UE) da raggiungere entro il 2020)

OPEN DATA e PA: per saperne di più

Sul portale http://www.dati.gov.it/ è presente una sezione sullo stato dell’open data in Italia

quanti dataset sono stati rilasciati (sono oltre 9.000)

quali enti hanno pubblicato

le applicazioni costruite sui dati aperti (es. app turistiche, meteo, traffico, parcheggi, servizi vari)

In definitiva tutti gli sforzi vertono verso il raggiungimento dell’interoperabilità semantica

http://www.dati.gov.it/

OPEN DATA e ricerca scientifica/1

Accesso alle conoscenze prodotte dalla comunità come principalemezzo per sviluppare non solo le attività economiche, ma anchequelle intellettuali (progresso, sviluppo, conoscenza)

Dati delle ricerche finanziate con denaro pubblico = beni comuni,devono poter essere fruiti liberamente dalla comunità che li haprodotti

OPEN DATA legato anche al fenomeno OPEN ACCESS

Il punto di riferimento per le comunità open (cioè che pubblicanodati aperti) è l’Open Knowledge Foundation (OKFN), organizzazionenon-profit nata nel 2004 per promuovere la conoscenza aperta e lacondivisione dei dati e delle conoscenze a fini benefici.

OPEN DATA e ricerca scientifica/2

Dati della ricerca= risultanti da osservazioni, dati di laboratorio, modelli, dati di banche dati genetiche, dati spaziali etc.

Benefici dell’accesso ai dati aperti scientifici

rafforzamento indagine scientifica e ricerca cross-disciplinare;

promozione della diversità di analisi e di opinioni;

possibilità di testare nuove ipotesi di ricerca e metodi di analisi alternativi;

esplorazione di nuovi ambiti di ricerca

la creazione dataset tramite la combinazione di dati provenienti da fonti diverse

The Policy RECommendations for Open Access to Research Data in Europe (RECODE)

Linked data e Open data

La produzione e la domanda di dati è crescente

Bisogna trovare i mezzi per fornire l’accesso e rendere più facile il riutilizzo dei dati nel Web su scala mondiale

L’esposizione dei dati in LOD facilita la scoperta, lo scambio l’uso e il riutilizzo dei dati

Open data= rimuovere le barriere concettuali e intellettuali all’apertura dei dati e al loro utilizzo

Linked data= rimuovere gli ostacoli tecnologici alla libera condivisione dei dati nel Web

3/2015

I LOD sono già in uso

La presenza di dati aperti e riutilizzabili sta creando le premesse per applicazioni sempre più sofisticate

Le applicazioni stanno cambiando sotto i nostri occhi grazie alla presenza di dati ‘aperti’ e ‘collegati’

Google Knowledge graph

Hummingbird

06/03/2015

I LOD sono già in uso

3/17/2014

Dal Web dei documenti al Web dei dati

Applicare i Linked Data vuol dire passare da un Web di documenti a un Web di dati.

Nel Web semantico non ci sono più solo documenti ma ‘dati’ o ‘risorse’:

Ogni dato è ben definito, indipendente (atomo) e collegato agli altri dati.

Ogni dato descrive se stesso (autodescrittivo)

3/2015

IL WWW ATTUALE

È formato da:

oHTML

oUntyped links

oAPI

oDATABASE

oAttraverso HTML nel Web si crea IL Web of documents, cioè una rete di documenti e di oggetti connessi tramite link non classificati (non espliciti).

3/2015

A B C D

APIxmlHTML HTML HTML

LINK NON QUALIFICATI

Le API e i mashups

DIFETTI DELLE API:

oHanno interfacce proprietarie

oNon si creano link tra i dati delle varie API

oE’ possibile creare mashupsda un numero ben definito di fonti

oNo database globale!

3/2015

A

API

B

API

C

API

D

API

MASH UP

Le API dividono i dati presenti nel web

Il Web dei dati o semantico

3/2015

A B C D

thing

thing

thing

thing

thing

thing

thing

thing

Things: cose del mondo reale: persone, luoghi oggetti, concetti

Typed links: legami qualificati relazioni esplicite

Database: A,B,C,D = banche dati entro le quali sono immagazzinate ed estratte le informazioni

Linked data

Nuovo modo di pubblicare, condividere, connettere i dati nel WEB

Linked data collega dati o ‘cose’ e non documenti testuali;

i collegamenti sono ‘qualificati’ (typed) cioè esprimono la natura della connessione e consentono di scoprire altri dati.

oEs. Torino si trova in Piemonte

oDante ha scritto La divina commedia

A differenza di altri modelli (es. XML) ogni risorsa è collegata alle altre senza che vi siano risorse predominanti sulle altre.

3/2015

2. I Principi dei LOD e Il modello rdf

I principi dei LOD

1.usare gli URI per i nomi degli oggetti;

2.usare HTTP URIs per dare modo agli utenti di trovare questi nomi;

3.una volta trovato un URI, fornire informazioni utili utilizzando standard (RDF e SPARQL);

4.includere links ad altri URIs in modo si che possano scoprire più cose.

Berners Lee (2006)

3/2015

1. USARE GLI URI (identificazione)

1. Usare gli URI per i nomi degli oggetti (o cose)

le ‘cose ‘nel SW devono essere ‘identificate’ attraverso gli URI

URI come nomi e accessi all’informazione

Cos’è un URI? L’URI è un identificativo persistente.

A differenza del Web dei documenti dove si usano gli URI per identificare i documenti, nel Web Semantico si identificano non solo i documenti ma anche oggetti del mondo reale e concetti astratti

3/2015

1.USARE GLI URI (identificazione)

Andranno identificati e dotati di URI anche cose luoghi oggetti concetti presenti all’interno dei documenti:

• Persone (es. Dante Alighieri, Barack Obama)

• Luoghi (es. Torino, Fiume Po, Monte Bianco)

• Cose (Jaguar, Apple, battaglia delle Termopili)

• Relazioni tra oggetti e concetti(es. è amico di, è autore di, vive a)

3/2015

Stieg Larsson http://dbpedia.org/page/Stieg_Larsson

èAutoreDi http://dbpedia.org/ontology/author

La ragazza che giocava con il fuoco

http://dbpedia.org/page/The_Girl_Who_Played_with_Fire

Dare un URI ad ogni ‘cosa’ presente nel Web

Il libroL’autore

È autore di

2. USARE URI HTTP (accesso)

Il secondo principio afferma :

• che bisogna usare solo identificativi HTTP (e non ftp, urn, DOI o altri) per ‘rendere accessibili ‘i dati

• che gli URI devono essere ‘dereferenziabili’, intendendo per ‘dereferenziazione’ la possibilità di accedere alle descrizioni delle risorse identificate dall’URI

• Il protocollo http è un meccanismo di accesso e recupero universale nel Word Wide Web

• Ciò significa che un client HTTP che trova un URI può usare il protocollo HTTP per recuperare una descrizione della risorsa

• Tutte le descrizioni di oggetti destinate alle macchine devono essere rappresentate da dati in RDF. In tal modo HTML verrà usato per rendere le informazioni comprensibili agli essere umani e RDF alle macchine

3/2015

DEREFERENZIAZIONE

URI DEREFERENZIABILI

Il secondo principio richiede che gli URI siano HTTP in modo da poter essere dereferenziati in modo cioè che le macchine (client http) possano accedere attraverso il protocollo HTTP a una descrizione dell’oggetto o del concetto identificato dall’URI

Le descrizioni di documenti e cose sono dunque presenti sul Web in due modalità:

Html per l’uso da parte delle persone

Rdf per l’uso da parte delle macchine.

L’uri del documento e quello della ‘cosa’ contenuta devono essere diversi e non devono essere confusi

Negoziazione dei contenuti

3/2015

DEREFERENZIAZIONE

• Per costruire un URI dereferenziabile è necessario fornire unarappresentazione della risorsa che si vuole pubblicare non solo informato HTML ma in formato RDF cioè leggibile da una macchina

• Le linee guida per pubblicare URI sono state dettate dal W3C: http://www.w3.org/TR/cooluris/

• Esempio di URI deferenziabile:

• Da Dbpedia:

• http://www.dbpedia.org/page/Stieg_Larsson

• http://www.dbpedia.org/page/Pablo_Picasso

• Dal set di elementi Dublin Core

• http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=elements#creator

3/2015

http://www.dbpedia.org/page/Stieg_Larsson

http://www.dbpedia.org/page/Pablo_Picasso

http://dublincore.org/documents/2012/06/14/dcmi-terms/?v=elements

3. Usare RDF (contenuti)

Il terzo principio prescrive l’utilizzo di un unico modello di dati (data model) per pubblicare dati strutturati sul Web e cioè RDF , modello di dati a grafo particolarmente progettato per il Web semantico.

• Avanzamento rispetto al Web attuale dove esistono vari modelli di dati per strutturare le informazioni (tabellari/CSV/gerarchici (XML)/relazionali (DBMS)

3/2015

4. USARE LINK RDF (collegare i dati)

Il quarto principio prescrive di creare link tra le ‘cose’ (non tra i documenti)

oI LINK IPERTESTUALI: collegano documenti, non qualificati

oI LINK RDF: collegano cose, sono qualificati o‘tipizzati’ cioè indicano la relazione che sussiste tra le cose

Es. Antonella è amica di Maria

Antonella risiede in Biella

Le cose su cui vengono fatte asserzioni vengono dette ‘risorse’

Vi sono diversi tipi di links che devono essere attivati nel Web Semantico

3/2015

Il data model RDF

Produrre Linked data significa esprimere il contenuto delle informazioni, rendendole condivisibili e riutilizzabili nel Web

Il Web semantico codifica l’informazione tramite un unico modello di dati

Il modello di riferimento è Resource Description Framework (RDF), uno standard sviluppato e mantenuto dal consorzio W3C per descrivere semanticamente le risorse e le loro relazioni.

3/2015

Resource Description Framework (RDF)

Il modello RDF codifica i dati (l’informazione) nella forma di asserzioni(statements) formate da tre parti:

soggetto: la parte della tripla che identifica la cosa descritta ovvero la ‘risorsa’

predicato: la proprietà della risorsa

oggetto: il valore della proprietà della risorsa.

Esempi:

Antonella | vive a | Biella

Antonella | è autore di | Linked data

Antonella | è amica di | Maria

3/2015

Resource Description Framework (RDF)

Viene espresso visivamente sotto forma di nodi e archi

• Soggetto (nodo)

• Predicato (freccia orientata dal soggetto all’oggetto)

• Oggetto (nodo) si rappresenta con:

• URI=

• Letterale o stringa=

Le asserzioni sono dette ‘triple’ e sono concetti atomici ovvero unità minime di significato

3/2015

RDF: la tripla

3/2015

soggetto

predicato

oggetto

Una tripla è una dichiarazione nella quale si afferma che una cosa o un’entità (soggetto della tripla) possiede una certa proprietà

Tripla (triple) = l’insieme di soggetto/predicato/oggetto

Asserzioni e triple

06/03/2015

Stieg Larsson è autore di La ragazza che giocava con il fuoco

Soggetto Predicato Oggetto

Risorsa Proprietà Valore

Una tripla viene rappresentata come un grafo orientato

Stieg Larsson

La ragazza che giocava con il

fuoco

È autore di

E codificata tramite una sintassi basata su XML

http://miosito.it/autori/1234http://miosito.it/vocab/Autoredi

http://miosito.it/risorse/1234

Asserzione e sua codifica XML (RDF/XML)

3/2015

La ragazza che giocava con il fuoco

Larsson, Stieg

è autore di

<rdf:Description rdf:about=http://miosito.it/autori/1234><name xml:lang=“eng“>Stieg Larsson</name><authorOf rdf:resource=“http://miosito.it/risorse/1234</rdf:Description>

<rdf:Description rdf:about= http://miosito.it/risorse/1234><type xml:lang=“it“>libro</type><title>La ragazza che giocava con ilfuoco</title> </rdf:Description>

3/2015


vino

Barbaresco

Piemonte

rosso

Ha nome

È prodotto in

Ha prezzo

Ha colore

“3 euro”

Creare asserzioni (triple)

3/2015

• Nome: Barbaresco Starderi 2005

• Luogo di provenienza: Piemonte

• Tipo: Fermo Rosso

• Produttore: Cantina La Spinetta

• Formato: 0.75 L

• Prezzo: €121

• Grado alcolico: 14 %

• Colore: Rosso intenso

• Vitigno: Nebbiolo

• Certificazione: DOCG

Esempio: informazioni su un vino

RDF come modello di dati

RDF è un nuovo modo di codificare l’informazione diverso rispetto a quelli che finora si sono imposti e che hanno una serie di limitazioni (es. modello relazionale). E però compatibile con i modelli precedenti

RDF è più flessibile

In particolare, c’è un rapporto diretto con i database relazionali

3/2015


Creare asserzioni/2

ID NOME LUOGO TIPO PRODUTTORE FORMATO

1234 Barbaresco Starderi 2005

Piemonte Fermo rosso La Spinetta 75 cl.

3/2015


Rapporto diretto con i database relazionali (database di vini)1 record = 1 risorsaCampi = proprietà (metadati)Contenuto dei campi = valori/dati

Creare asserzioni/3

• Da un campo del database a un’asserzione

3/2015

ha come colore: Rosso

Dai campi alle asserzioni

3/2015

ha per Nome: ‘Barbaresco Starderi 2005’

ha come luogo di produzione: Piemonte

ha come produttore: Cantina La Spinetta

ha come colore: Rosso

ha come formato: 0,75 l

Ogni campo del record con il suo valore nel SW può essere espresso tramite un’asserzione (tripla)

Unione di grafi (merging)

Merging di grafi : quando i grafi hanno identificatori in comune questi vengono uniti per formare grafi più vasti:

Es. nel caso l’oggetto di una tripla sia il soggetto di un’altra si ha un’unione delle due triple, formando così un grafo più vasto

3/2015

miovino Piemonte

Ha come luogo di produzione

Piemonte Italia

Si trova in

miovino PiemonteItalia

Ha come luogo di produzione

Si trova in

Riutilizzare dati e metadati

Nel Web semantico è indispensabile non solo riutilizzare i dati (fornendo loro URI), ma anche rendere interoperabili e riutilizzabili i metadati.

I grafi sono delle strutture flessibili che possono ospitare nuove triple se qualcuno vi aggiunge delle informazioni in più

Il paradigma del Web dei dati è un paradigma aperto in cui chiunque può collegare i dati alla mia informazione, formando un grafo più vasto.

Ragionare sui grafi: l’inferenza

Stieg Larsson è uno scrittore

Stieg Larsson scrive gialli

Stieg Larsson ha come nazionalità Svezia

Stieg Larsson ha come data di morte 2004

Stoccolma è in Svezia

Agatha Christie è uno scrittore

Agatha Cristie scrive gialli

Agatha Christie ha come come data di morte 1976

Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non più viventi.

3/2015

‘cose’ e ‘stringhe’

Regola di RDF: generalmente è meglio, se possibile, esprimere tutte le parti della tripla (s p o) tramite URI

E’ obbligatorio che il soggetto (s) e il predicato (p) siano espressi tramite URI

L’oggetto (o) può essere espresso tramite una stringa o un URI

Quando l’oggetto è espresso tramite una stringa diventa un punto morto del grafo

3/2015

Link del Web Semantico (LINK RDF)

i link relazionali esprimono un collegamento tra diversi datasetpuntando a cose, persone, luoghi presenti in un altro dataset o insieme di dati collegati

Attraverso i links relazionali si collegano entità di diversi dataset

Si può ad esempio collegare una persona (autore) alle sue opere presenti in un altro dataset e ad un’altra persona descritta in un altro dataset

3/2015


@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> .

<http://miosito.it/persone/Antonella_Iacono> rdf:type foaf:Person ; foaf:name “Antonella Iacono" ; foaf:based_near <http://sws.geonames.org/3182043/> ; foaf:based_near <http://dbpedia.org/page/Biella> ; foaf:topic_interest <http://dbpedia.org/resource/Semantic_Web>; foaf:knows http://altrosito.it/persone/Mario_Rossi

Le proprietà vengono espresse facendo riferimento ad altre entità presenti in altri dataset (es. Dbpedia, Geonames, altrosito)

3/2015

http://altrosito.it/persone/Mario_Rossi


i link di identità (‘alias URI’) collegano tra loro URI di dataset diversi che si riferiscono alla stessa cosa o allo stesso concetto

Es. Beethoven in Freebase, Dbpedia, Musicbrainz, NYTimes

http://rdf.freebase.com/ns/en.ludwig_van_beethoven

http://dbpedia.org/resource/Ludwig_van_Beethoven

http://musicbrainz.org/artist/1f9df192-a621-4f54-8850-2c5373b7eac9#

http://data.nytimes.com/N30866506154608358173

3/2015

http://rdf.freebase.com/ns/en.ludwig_van_beethoven

http://dbpedia.org/resource/Ludwig_van_Beethoven

http://musicbrainz.org/artist/1f9df192-a621-4f54-8850-2c5373b7eac9

http://data.nytimes.com/N30866506154608358173


• I linked data prescrivono la necessità di collegare tutti gli URI alias attraverso dei link

• Per convenzione si utilizza la proprietà owl:sameAs che afferma che due URI si riferiscono alla stessa cosa, alla stessa persona o luogo.

• Questa tipologia di collegamento è una delle più importanti del Web semantico

3/2015


• i link di vocabolario puntano dal dato alle definizioni dei termini dei vocabolari usati per descrivere il dato stesso e o alle definizioni dello stesso concetto date in altri vocabolari (es. collego la voce di soggetto del Nuovo soggettario con un soggetto LCSH) . In tal modo è possibile un’integrazione tra vocabolari diversi (Heath; Bizer 2011)

• Servono a contrastare l’eterogeneità del Web semantico integrando vocabolari diversi

• RDF consente di rappresentare in un unico grafo informazioni provenienti da diversi modelli, mescolando termini da diversi vocabolari

3/2015

Altri links

Un’ulteriore distinzione è quella tra link interni ed esterni: i primi si riferiscono allo stesso dataset, i secondi collegano invece due diverse fonti di dati, ovvero dati che risiedono in namespaces diversi.

Questi ultimi costituiscono il ‘collante’ del Web semantico trasformando il Web in uno spazio globale di dati interconnessi

3/2015

‘SCRIVERE’ IN RDF

• RDF è un modello di dati pertanto se dobbiamo scrivere del codice non possiamo direttamente utilizzare nodi e grafi, ma dobbiamo esprimere i nostri dati in un formato adatto alla lettura da parte delle macchine

• Serializzazioni RDF= rappresentazioni testuali adatte all’elaborazione automatica

• Il W3C mantiene alcuni formati per la serializzazione

oRDF/XML = è il formato ‘ufficiale’ di RDF basato sul XML

oRDFa= serve per incorporare triple RDF in un documento HTML

3/2015

SCRIVERE’ IN RDFW3C URIs for Identifying RDF Serialization Formats

URI Format

http://www.w3.org/ns/formats/N3 Notation3 (N3): A readable RDF syntax: W3C Team Submission 28

March 2011

http://www.w3.org/ns/formats/N-Triples N-Triples (in RDF Test Cases: W3C Working Group Note 25 February

2014)

http://www.w3.org/ns/formats/RDF_XML RDF/XML Syntax Specification: W3C Recommendation 10 February

2004

http://www.w3.org/ns/formats/RDFa RDFa in XHTML: Syntax and Processing: 3C Recommendation 22

August 2013

http://www.w3.org/ns/formats/Turtle Turtle - Terse RDF Triple Language: W3C Team Submission 28 March

2011

http://www.w3.org/TeamSubmission/n3/

http://www.w3.org/TR/2014/NOTE-rdf11-testcases-20140225/

http://www.w3.org/TR/REC-rdf-syntax/

http://www.w3.org/TR/rdfa-syntax/

http://www.w3.org/TeamSubmission/turtle/

RDF/XML /1

• Sebbene sia il linguaggio ‘ufficiale’ di RDF, RDF/XML è spessoaccusato di prolissità (verbosità) quindi si preferiscono forme piùabbreviate come Turtle o più comprensibili all’uomo come N-Triples

• Utilizza i namespaces per la dichiarazione dei prefissi usati

• Utilizza la nidificazione

• Ha alcuni termini predefiniti come type e property

• Type anche abbreviato in a=assegna il soggetto alla classe oggettodella tripla

• Es. es: Antonella rdf:type foaf: person

• Es. es:la divina commedia rdf:type dbpedia:owl book

• (oppure es:la divina commedia a dbpedia:owl book)

3/2015

RDF/XML /2

Il termine property denota un attributo

Esempi :

• es:Antonella foaf:knows es:Maria

• Foaf:knows a rdf:property

• Vi sono poi alcuni costrutti utili nella scrittura del codice come i blanknodes (risorse anonime): queste sono risorse che non necessitano diURI perchè non sono identificabili o non devono essere identificabilinel WS. (es- devono rappresentare risorse valide all’interno di undeterminato dataset). Sono indicate con _:

• Esempio: _:qualcuno foaf:knows es:Maria

3/2015

RDF/XML: la sintassi

[… dichiarazione dei prefissi …]

<rdf:RDF …>

<rdf:Description rdf:about=“Risorsa soggetto della tripla">

<PredicateResource>Risorsa oggetto della tripla espresso come letterale</PredicateResource>

<PredicateResource rdf:resource=“Risorsa oggetto della tripla"/>

…

</rdf:Description>

…

</rdf:RDF>

3/2015

Annotazione semantica di pagine web RDFa /1

• RDF in Attributes è una recommendation del W3C

• fornisce una serie di attributi per annotare semanticamente una pagina web, includendo metadati RDF in un documento XML, consentendo di annotare in RDF una pagina web in maniera nativa

• In questo modo è possibile unire il Web dei documenti al Web dei dati cioè è possibile inserire in pagine web in XHTML delle annotazioni semantiche che possono essere comprese dalle macchine.

3/2015

Annotazione semantica di pagine web RDFa /2

Inserisce elementi semantici nelle pagine utilizzando alcuni attributi (about, property, resource)

Le macchine leggendo un documento XHTML contenente codice RDFapossono operare un processo di estrazione di contenuti semantici (parsing) generando delle triple RDF

Il soggetto della tripla è individuato dall’attributo about al quale vengono associati i valori di Rev e Property

In questo modo anche i documenti pubblicati come XHTML possono contenere alcuni contenuti semantici che possono essere interpretati dalle applicazioni del Semantic Web collegando il web dei documenti al web dei dati

Schemi per l’annotazione semantica sono Schema.org e Open GraphProtocol

3/2015

3. Vocabolari e ontologie

I vocabolari e le ontologie

Nel Web semantico i vocabolari e le ontologie definiscono concetti e termini usati per descrivere e rappresentare una particolare area di interesse

Classificano i termini che vengono usati in un particolare settore disciplinare, indicano le relazioni semantiche tra i concetti di un dominio di conoscenza

Costituiscono, insieme a RDF e URI, il cuore del Web Semantico

Distinzione tra vocabolari e ontologie: nel Web semantico non è netta, generalmente si usano:

Vocabolario = lista chiusa di termini da usare come valori (come oggetto della tripla) esempio: book format di RDA per il formato di un libro http://www.rdaregistry.info/termList/bookFormat

Ontologia: classi e proprietà per esprimere un dominio di conoscenza (concettualizzazione)

3/2015

http://www.rdaregistry.info/termList/bookFormat

Ontologie e modelli formali

Sono necessari per la comunicazione umana

Descrivono un determinato ambito (dominio) favorendo la creazioneconoscenza.

Un’ontologia è una «specificazione esplicita di unaconcettualizzazione» ovvero uno schema strutturato e condiviso diconcetti tra loro correlati che descrive un’area della conoscenzautilizzando linguaggi non ambigui e, dunque, processabili da unamacchina (Thomas Robert Gruber)

Le ontologie sono un insieme di classi e di proprietà

Vocabolari e ontologie sono necessari per offrire a tutte le comunità che operano nel Web semantico la possibilità di esprimersi in merito a qualsiasi cosa utilizzando le entità, le relazioni e la terminologia più appropriata (Allemang; Hendler 2008)

3/2015

FOAF

Vocabolari e ontologie più diffusi:

Friend of a Friend (FOAF) http://xmlns.com/foaf/spec/

E’ un’ontologia che descrive persone, attività e relazioni con altre persone.

Viene spesso usata per costruire liste di autorità, descrivere comunità online, community

Chiunque può utilizzare FOAF per descriversi nel Semantic Web.

3/2015

http://xmlns.com/foaf/spec/

Classi e proprietà di FOAF

Category:Person (Foaf:Person)

Category:Organization (Foaf:Organization)

Property:Foaf:knows

Property:Foaf:member

Property:Name (Foaf:name)

Property:Homepage (Foaf:homepage

Property:Foaf:mbox

Property:Foaf:depiction

Property:Foaf:phone

3/2015

Il mio profilo FOAF

<rdf:RDF

xmlns:rdf=http://www.w3.org/1999/02/22-rdf-syntax-ns#

xmlns:foaf="http://xmlns.com/foaf/0.1/"

xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#">

<foaf:Person rdf:about="#Aiacono">

<foaf:name>Antonella Iacono</foaf:name>

<foaf:mbox rdf:resource="mailto:[email protected]" />

<foaf:homepage rdf:resource="http://www.antonellaiacono.it" />

<foaf:nick>Librarian_Anto</foaf:nick>

<foaf:depiction rdf:resource="http://www.antonellaiacono.it/immagine.jpg" />

<foaf:interest> <rdf:Description rdf:about="http://www.dbpedia.org/page/Linked_data " rdfs:label=“Linked data /> </foaf:interest>

<foaf:knows> <foaf:Person> <foaf:name>Maria Rossi</foaf:name> </foaf:Person> </foaf:knows> </foaf:Person>

</rdf:RDF>

3/2015

http://www.w3.org/1999/02/22-rdf-syntax-ns

Lo stesso esempio in Turtle

@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> . @prefix foaf: <http://xmlns.com/foaf/0.1/> . @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

<#AIacono> a foaf:Person ; foaf:name «Antonella Iacono" ; foaf:mbox <mailto:[email protected]> ; foaf:homepage < http://www.antonellaiacono.it > ; foaf:nick «Librarian_72" ; foaf:depiction < http://www.antonellaiacono.it/img.jpg > ;

foaf:interest < http://www.dbpedia.org/page/Linked_data > ; foaf:knows [a foaf:Person ; foaf:name «Maria Rossi" ] .

3/2015

DUBLIN CORE

E’ uno schema per di metadati per definire attributi di risorse come titolo, creatore, data, soggetto etc.

Possiamo usare Dublin Core per descrivere le proprietà di una qualsiasi risorsa bibliografica presente nel Web

Si trova in:

http://dublincore.org/documents/dces/ (DCMES), prefisso dc:

Oppure

http://dublincore.org/documents/dcmi-terms/

Prefisso dct:

3/2015

http://dublincore.org/documents/dces/

http://dublincore.org/documents/dcmi-terms/

ALTRE ONTOLOGIE

• BIO ONTOLOGY: definisce termini per descrivere info biografiche

• THE MUSIC ONTOLOGY: definisce termini per descrivere vari aspetti relativi alla musica: artisti (le relazioni tra artisti, l’attività), album, tracce audio etc.

• THE EVENT ONTOLOGY: definisce termini per descrivere eventi

• BIBLIOGRAPHIC ONTOLOGY O BIBLIONTOLOGY: definisce termini per descrivere concetti e proprietà nelle citazioni bibliografiche

• PROGRAMMES ONTOLOGY (BBC) definisce termini per descrivere entità e proprietà relativi ai programmi televisivi http://www.bbc.co.uk/ontologies/po

• CREATIVE COMMONS SCHEMA: definisce i termini per descrivere le licenze in RDF http://creativecommons.org/schema.rdf

3/2015

http://www.bbc.co.uk/ontologies/po

http://creativecommons.org/schema.rdf

ALTRE ONTOLOGIE

• SEMANTICALLY-INTERLINKED ONLINE COMMUNITY (SIOC): definisce termini per esprimere aspetti delle comunità online, come forum, utenti, post, ecc.

• THE GOOD RELATIONS ONTOLOGY definisce termini per descrivere prodotti e servizi commerciali online

• RDA definisce termini per descrizioni bibliografiche

Esistono ontologie per descrivere quasi ogni ambito di conoscenza, possiamo crearne di nuove es. un’ontologia di un’organizzazione (es. Università, un’ontologia di vini, etc.

3/2015

06/03/2015

Linked data e Web Semantico. Corso di aggiornamento

DESCRIVERE LE ONTOLOGIE

• Numerosi linguaggi a crescenti livelli di complessità

• Questi si presentano come ‘ontologie per creare ontologie’ (hanno al loro interno classi e proprietà)

• dal più semplice al più complesso:

3/2015


OWL

SKOS

RdfS

SKOS /1

• Simple Knowledge Organisation System (SKOS) è un vocabolariosviluppato dal W3C Semantic Web Deployment Working Group(SWDWG) per esprimere gerarchie di concetti e progettato persupportare l’uso di sistemi di organizzazione delle conoscenze (KOS)come thesauri, schemi di classificazione, soggettari e tassonomienell’ambito del Web semantico.

• Es. possiamo affermare con SKOS che i gatti appartengono alla classefelini, o che concetto ‘Rifiuti solidi urbani’ ha come concetto piùampio ‘‘Rifiuti’

• Tutti i progetti di conversione di KOS bibliotecari si basano su questovocabolario. (LCSH, Nuovo Soggettario, LCC, CDD)

3/2015

SKOS /2

La classe principale è skos:Concept alla quale appartengono i concetti, i quali sono indipendenti dai termini utilizzati per descriverli o etichette (labels).

L’ontologia definisce poi le relazioni thesaurali tra concetti tramite alcuni predicati (proprietà):

skos: broader, skos:narrower, skos:related (per relazionare i concetti)

skos:prefLabel, skos:altLabel e skos:hiddenLabel (per relazionare concetti ed etichette)

3/2015

SKOS/3

3/2015


Relazione thesaurale Equivalente SKOS

BT broader term skos:broader

NT Narrower term skos:narrower

RT Related term skos:related

USE/USE FOR skos:altLabel

SKOS/4

L’aspetto più interessante è quello di poter mettere in relazione schemi concettuali differenti

Si realizzano nuovi collegamenti che prima erano impensabili: mappature semantiche tra concetti appartenenti a schemi diversi

Questi collegamenti sono resi possibili da alcune proprietà

Skos:scheme consente di enunciare uno schema

skos:inScheme consente di attribuire un concetto allo schema

skos:exactMatch, closeMatch, broaderMatch, narrowerMatch e relatedMatch consentono di esprimere vari tipi di relazioni e gradi di sovrapposizione tra concetti simili appartenenti a schemi diversi (es. nuovo soggettario, Rameau, LCSH, folksonomies)

3/2015

Esempio: nuovo soggettario in SKOS

3/2015

Voce del NS in RDF con uso di SKOS

<?xml version="1.0" encoding="UTF-8"?> <rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:skos="http://www.w3.org/2004/02/skos/core#" xmlns:rdfs="http://www.w3.org/2000/01/rdf-schema#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:dcterms="http://purl.org/dc/terms/" xmlns:nsogi="http://prefix.cc/nsogi"> <rdf:Description rdf:about="http://purl.org/bncf/tid/39080"> <rdf:type rdf:resource="http://www.w3.org/2004/02/skos/core#Concept"/> <skos:prefLabel xml:lang="it">Abrasivi</skos:prefLabel> <skos:inScheme rdf:resource="http://purl.org/bncf/tid/ThesCF3"/> <skos:inScheme rdf:resource="http://purl.org/bncf/tid/Thes"/> <skos:broader rdf:resource="http://purl.org/bncf/tid/791"/> <skos:narrower rdf:resource="http://purl.org/bncf/tid/39082"/> <skos:related rdf:resource="http://purl.org/bncf/tid/39081"/> <skos:related rdf:resource="http://purl.org/bncf/tid/43089"/> <skos:closeMatch rdf:resource="http://id.loc.gov/authorities/sh85000218"/> <skos:closeMatch rdf:resource="http://data.bnf.fr/ark:/12148/cb13162965j"/> <skos:closeMatch rdf:resource="http://it.dbpedia.org/resource/Abrasivo"/> <skos:editorialNote>FONTE: Soggettario; Treccani.it; ESG; CIS-ISPESL; ThIST; RAMEAU: Abrasifs; DDC22; Wikipedia(IT)</skos:editorialNote> </rdf:Description> </rdf:RDF>

3/2015

Mappature esterne con altri KOS: LCSH, Rameau, dbpedia

Relazioni semantiche tesaurali BT,NT,RT

Usare le ontologie nel Web Semantico

Quali ontologie scegliere per descrivere i nostri dati?

Nei nostri dataset dovremo utilizzare molte ontologie diverse, a seconda dei nostri scopi di progettazione

In particolare rdfs e Owl consentono inferire le informazioni, ovvero di dedurre conoscenza per sussunzione, tramite il ragionamento inferenziale.

I ragionatori sono programmi che utilizzano le regole della logica per produrre inferenze Es. tutti gli insegnanti sono anche persone

Dotare il nostro dataset di descrizioni in OWL e RdfS dunque consente alle macchine di operare ragionamenti logici

3/2015

L’inferenza/1

«Affinché il web semantico possa funzionare, i computer devono avere accesso a raccolte strutturate di informazioni e a una serie di regole di inferenza utilizzabili per condurre ragionamenti automatici». (T.B.Lee)

Caratteristica del Web semantico è la capacità delle macchine di combinare i dati per creare nuova informazione.

L’INFERENZA E’ LA CAPACITA’ DI DEDURRE CONOSCENZA TRAMITE PERCORSI.

Un esempio semplice= sillogismo

tutti gli insegnanti sono persone, Maria è un’insegnante, Maria è una persona

3/2015

Esercizio: costruiamo inferenze

Nella costruzione di dataset possiamo utilizzare più fonti di dati. Un ragionatore (es. un motore di ricerca ‘semantico’) sfrutterà queste fonti per dedurre nuova conoscenza tramite il processo inferenziale

3/2015

L’inferenza: Un esempio semplice

Stieg Larsson è uno scrittore

Stieg Larsson scrive gialli

Stieg Larsson ha come nazionalità Svezia

Stieg Larsson ha come data di morte 2004

Stoccolma è in Svezia

Agatha Christie è uno scrittore

Agatha Cristie scrive gialli

Agatha Christie ha come data di morte 1976

Inferenza: Agatha Christie e Stieg Larsson sono scrittori di gialli non più viventi.

3/2015

Inferenza: un esempio più complesso /1

Immaginiamo di descrivere la proprietà ‘ha scritto’ in un’ontologia facendo un esempio complesso con RDFS:

@prefix ex: <http://esempio.it/miaontologia#>

@prefix rdf: <http://www.w3.org/1999/02/22/rdf-syntax-ns#>

@prefix rdfs: < http://www.w3.org/2000/01/rdf-schema#>

@prefix foaf: < http://xmlns.com/foaf/spec/#>

ex:ha scritto rdf:type rdf:Property: [stiamo affermando che ‘ha scritto’ è una proprietà]

rdfs:domain foaf:Person [affermiamo che soggetto della tripla che ha come predicato questa proprietà possono essere solo le persone]

rdfs:range ex:operaletteraria [solo le opere letterarie possono essere oggetto della tripla]

rdfs:subpropertyOf ex:ha creato [è una sottoproprietà di ex:ha creato]

3/2015

Inferenza: un esempio più complesso /2

Adesso immaginiamo che un ragionatore o un motore di ricerca semantico recuperi questa tripla da qualche parte

:Collodi :ha scritto :Pinocchio

A questo punto il ragionatore recupera la proprietà ha scritto tramite la sua URL e trova la sua ‘descrizione’

Potrà quindi per inferenza produrre le seguenti triple:

:Collodi a foaf:Person [Collodi è una persona]

:Pinocchio a ex:operaletteraria [Pinocchio è un’opera letteraria]

Collodi ex:ha creato :Pinocchio [Collodi ha creato Pinocchio]

3/2015

3.1. Il web dei dati

Il Web dei dati

Il Web dei dati (Web of Data) è un gigantesco grafo che collega i diversi dataset presenti in rete.

I dataset o data set = collezioni di risorse tra loro collegate in grafi che hanno una caratteristica comune: coprono lo stesso ambito disciplinare (dataset geografici, governativi, bibliografici, di musica) e/o si originano dalla stessa fonte di dati (es. dbpedia è un datasetoriginato dai dati di Wikipedia).

2007 Linked Open Data Project, progetto del W3C Semantic Web Education and Outreach Interest Group SWEO IG.

I dati provengono da domini pubblici o privati.

E’ necessario rispettare i requisiti esposti in http://lod-cloud.net/

3/2015

http://lod-cloud.net/

Requisiti

• There must be resolvable http:// (or https://) URIs.

• They must resolve, with or without content negotiation, to RDF data in one of the popular RDF formats (RDFa, RDF/XML, Turtle, N-Triples).

• The dataset must contain at least 1000 triples.

• The dataset must be connected via RDF links to a dataset that is already in the diagram. This means, either your dataset must use URIs from the other dataset, or vice versam. We arbitrarily require at least 50 links.

• Access of the entire dataset must be possible via RDF crawling, via an RDF dump, or via a SPARQL endpoint.

Stato della Linked open data cloud nel maggio 2007

Stato della Linked open data cloud nel 2008

Stato della Linked open data cloud nel 2009

Stato della Linked open data cloud al settembre 2011 (Linking open data cloud diagram, di Richard Cyganiak e Anja Jentzsch < http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.html>

http://lod-cloud.net/versions/2011-09-19/lod-cloud_colored.html

La nuvola dei LOD nel 2014 http://lod-cloud.net/

http://lod-cloud.net/

Quanto è grande la nuvola dei LOD?

A partire dal 2007 venne creato ad opera di due studiosi di Berlino il registro CKAN, nato per ospitare le notizie relative ai nuovi dataset che venivano pubblicati nella nuvola

Nel 2011 Richard Cyganiak e Anja Jentzsch hanno misurato l’ampiezza della nuvola dei lod fino ad allora pubblicati (http://lod-cloud.net/state/).

Versione aggiornata al 2014: <http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/>

Mannheim Linked Data Catalog conta 1917 dataset

Ogni dataset presente nell’immagine della nuvola linka alla descrizione presente sul portale predisposto della University of Mannheim

3/2015

http://lod-cloud.net/state/

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/state/

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/

Datasets by topical domain.

Topic Datasets %

Government 183 18.05%

Publications 96 9.47%

Life sciences 83 8.19%

User-generated content 48 4.73%

Cross-domain 41 4.04%

Media 22 2.17%

Geographic 21 2.07%

Social web 520 51.28%

Total 1014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=government&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=publications&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=lifesciences&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=usergeneratedcontent&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=crossdomain&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=media&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=geographic&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=social+web&tags=LinkedDataCrawl2014

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset?tags=LinkedDataCrawl2014

Dataset con più collegamenti in entrata

Datasets with the ten highest indegrees

Dataset Category Indegree

dbpedia.org cross-domain 207

geonames.org geographic 141

w3.org cross-domain 117

quitter.se social web 64

status.net social web 63

postblue.info social web 56

skilledtests.com social web 55

reference.data.gov.uk government 45

data.semanticweb.org publications 44

fragdev.com social web 41

lexvo.org cross-domain 37

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/dbpedia

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/geonames-semantic-web

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/w3c

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/statusnet-quitter-se

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/statusnet-status-net

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/statusnet-postblue-info

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/statusnet-skilledtests-com

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/reference-data-gov-uk

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/semantic-web-dog-food

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/statusnet-fragdev-com

http://linkeddatacatalog.dws.informatik.uni-mannheim.de/dataset/lexvo

Dataset: interdisciplinari: DBPEDIA

E’ un RDf store contenente dati strutturati automaticamente estratti da Wikipedia, l’enciclopedia collaborativa online.

Estrae i dati semi-strutturati che sono contenuti nella maggior parte degli articoli di Wikipedia nella cosiddetta ‘infobox” che consistono in una elencazione di parole chiave e i relativi valori

Es. Una pagina di Wikipedia:

https://en.wikipedia.org/wiki/Stieg_Larsson

La corrispondente pagina di DbPedia

http://dbpedia.org/page/Stieg_Larsson

Altri dataset interdisciplinari: Freebase= knowledge base che ricava dati da Dbpedia e Geonames

3/2015

https://en.wikipedia.org/wiki/Stieg_Larsson

http://dbpedia.org/page/Stieg_Larsson

I principali dataset: geografici

3/2015

I principali dataset: geografici

Geonames: www.geonames.org/

è una knowledge base ossia un database geografico contenente oltre otto milioni di toponimi di tutti i paesi del globo che sono disponibili per il download gratuito

http://www.geonames.org/search.html?q=Torino&country=

Espone i dati via web services

Il database è accessibile gratuitamente, i files sono scaricabili come data dumps (aggiornamento giornaliero)

licenza cc-by (creative commons attributions license), consentito l'uso anche commerciale dei dati

3/2015

http://www.geonames.org/

http://www.geonames.org/search.html?q=Torino&country

I principali dataset: governativi, media

3/2015

I principali dataset: governativi, media

Dati governi USA e Britannico

In italia dati.gov.it e dati.piemonte.it

http://data.gov.uk/data/search

Dati di vario tipo: informazioni sul traffico in tempo reale, dati statistici (es. obesità), dati sulla sicurezza delle strade, indici economici e statistici, ‘social trends”)

Media: BBC, BBC Wildlife finder, Nature, New York Times

3/2015

http://data.gov.uk/data/search

Editoria, biblioteche, User Gen Content

3/2015

4. Pubblicare linked open dataworkflowtecnologielicenze

Pubblicare i linked data. Il Workflow

1. Scelta dei dataset

2. Bonifica

3. Modellazione semantica

4. Arricchimento5. Interlinking

6. Validazione

7. Pubblicazione

1. Scelta dei dataset

Selezionare i dataset sulla base degli obiettivi e o priorità che si intendono raggiungere:

Prestare attenzione ai vincoli di natura giuridica e organizzativa

Privilegiare ove possibile l’apertura di dati più atomici rispetto alle forme aggregate

Predisporre una pre-analisi di dominio: principali entità e relazioni da rappresentare

Affrontare questioni preliminari: scelta degli URI e del namespace, scelta della licenza più appropriata

3/2015

2. Bonifica dei dati

Necessaria a volte quando ci si trova di fronte a dataset disomogenei

Facendo una pulizia a monte si migliora la qualità dei dati

La qualità è un requisito indispensabile nel web semantico, poiché il mio dataset poi sarà aperto a collegamenti da parte di altri datasetche esistono nel web semantico

Altre problematiche (es completezza dei dati immessi) non sono così rilevanti nel contesto del Web semantico

3/2015

3. Analisi e modellazione semantica

Formalizzare la semantica del dataset (il modello concettuale)

Refactoring della propria base dati

Il modello concettuale dovrà essere espresso in RDF

Gli elementi dovranno essere identificati con URI ed essere dereferenziabili

3/2015

3. Analisi e modellazione semantica

Il processo prevede diverse fasi (non necessariamente sequenziali):

Analisi delle fonti dati

Creazione del modello di dati (data model) attraverso l’uso di una o più ontologie

Predisposizione del modello di rappresentazione dei dati scegliendo le ontologie più appropriate.

Viene predisposta una mappatura dei formati MARC con gli elementi scelti per rappresentare i dati, in base alle ontologie scelte e alle specifiche del data model

Reingegnerizzazione e trasformazione in RDF

3/2015

Il data model della BNB

06/03/2015

http://www.bl.uk/bibliographic/pdfs/bldatamodelbook.pdf

06/03/2015

Prefix URI

bibo http://purl.org/ontology/bibo/

bio http://vocab.org/bio/0.1/

Dc http://purl.org/dc/elements/1.1/

dcmi-box http://dublincore.org/documents/dcmi-box/

Dcterms http://purl.org/dc/terms/

foaf http://xmlns.com/foaf/0.1/

frbr-rda http://rdvocab.info/uri/schema/FRBRentitiesRDA/

geo http://www.w3.org/2003/01/geo/wgs84_pos#

geonames http://www.geonames.org/ontology#

ign http://data.ign.fr/ontology/topo.owl#

insee http://rdf.insee.fr/geo/

isni http://isni.org/ontology#

marcrel http://id.loc.gov/vocabulary/relators/

mo http://musicontology.com/

ore http://www.openarchives.org/ore/terms/

owl http://www.w3.org/2002/07/owl#

rdagroup1elements http://rdvocab.info/Elements/

rdagroup2elements http://RDVocab.info/ElementsGr2/

rdarelationships http://rdvocab.info/RDARelationshipsWEMI/

rdfs http://www.w3.org/2000/01/rdf-schema#

skos http://www.w3.org/2004/02/skos/core#

06/03/2015

Bibliotheque Nationale de France. Principali vocabolari e ontologie

Mappatura ‘persona’ in Data.bnf.frLibellé catalogue Zone intermarc Unimarc Correspondance RDF

Nationalité 008 position 12-13 102 $a rdagroup2elements:countryAssociatedWithThePerson

Langue 008 position 14-16 101 $a RDAgroup2elements: languageOfThePerson

Sexe 008 position 17 120 $a foaf:gender

Date de naissance 008 position 27-36 340 $a RDAgroup2elements:dateOfBirth

Date de mort 008 position 37-46 340 $a RDAgroup2elements:dateOfDeath

Début d'activité 008 position 47-51 340 $a RDAgroup2elements:periodOfActivityOfThePerson

Fin d'activité 008 position 52-55 340 $a RDAgroup2elements:periodOfActivityOfThePerson

Forme retenue (prénom) 100 $m 200 $b, 700 $b foaf:givenName

Forme retenue 100 200, 700 skos:prefLabel @in_lang

Forme retenue 100 200, 700 foaf:name

Dates 100 $d 200 $f, 700 $f dc:date

Forme retenue(nom) 100 $a 200 $a, 700 $a foaf:familyName

Formes rejetées 400 400 skos:altLabel @in_lang

Note d'information publique 600 $a

300$a, 305$a$b, 310$a$b, 320$a, 330$a, 340$a, 830$a RDAgroup2elements: biographicalInformation

Lieu de naissance 603 $a 340$a RDAgroup2elements:placeOfBirth

Lieu de mort 603 $b 340$a RDAgroup2elements:placeOfDeath

Note publique sur les sources consultées avec profit 610 $a 810 $a skos:editorialNote

Note de regroupement par domaine 624 $a 686 $a RDAgroup2elements: fieldOfActivityOfThePerson

06/03/2015

Convertire i formati tradizionali in RDF

Dati contenuti in database relazionali

Triplify, D2RQ RDB2RDF

A partire da files XML.

RDF possiede già una sintassi basata su XML, si possono renderecompatibili con RDF, utilizzando XSLT (eXtensible Stylesheet Language Transformations).

Da formati tabellari e fogli di calcolo

Open Refine (prima Google Refine) <http://openrefine.org/>Importa dati da formati differenti (MS Excel, Google Spreadsheet and CSV) con RDF Extension per esportare RDF.

06/03/2015

http://triplify.org/

http://www4.wiwiss.fu-berlin.de/bizer/d2r-server/

http://www.w3.org/2001/sw/rdb2rdf/

http://openrefine.org/

http://lab.linkeddata.deri.ie/2010/grefine-rdf-extension/

Convertire formati tradizionali in RDF

Per i dati bibliografici

marcmods2rdf converte record catalografici in RDF

oai2rdf estrarre RDF dagli archivi OAI (OAI-PMH)

Marimba soluzione completa per l’estrazione e la trasformazione di record MARC come linked data, basato su mappature personalizzate.

06/03/2015

http://simile.mit.edu/repository/RDFizers/marcmods2rdf/

http://simile.mit.edu/repository/RDFizers/oai2rdf/

http://marimba4lib.com/

4. Arricchimento. Metadatazione

Nella fase dell’arricchimento i dati, una volta bonificati e modellati, vengono arricchiti per favorirne il riutilizzo tramite tecniche di inferenza

La metadatazione è importante perché semplifica la ricerca e la fruizione e il riutilizzo dei dati

Metadati importanti per la fruibilità e interoperabilità del dataset sono:

metadati sulla semantica (commenti, etichette, definizioni)

metadati sul contesto (confini di validità dei dati o del dataset, licenza)

metadati sulla provenienza (descrivono come e chi ha prodotto i dati). Seguire un’ontologia o uno schema proprietario o le specifiche del Provenance Interchange Working Group del W3C.

3/2015

4. Arricchimento. Metadatazione

Alcune raccomandazioni:

Gestire questa operazione in modo adeguato per offrire garanzie di autenticità e qualità dei dati

Elementi:

Il produttore dei dati

Il riferimento temporale dei dati e l’eventuale periodo di validità (Es. Afflusso turistico nelle strutture alberghiere della Valle d’Aosta. 2010)

Una descrizione puntuale della semantica delle informazioni che vengono distribuite

La licenza

E’ consigliabile adottare le Raccomandazioni del W3C (http://www.w3.org/2011/prov/wiki/Main_Page) e se possibile l’ontologia PROV –O (http://www.w3.org/TR/prov-o/) o VOID

3/2015

http://www.w3.org/2011/prov/wiki/Main_Page

http://www.w3.org/TR/prov-o/

4. Arricchimento. Inferenza

Un altro modo di arricchire i dati è la possibilità di ‘inferire’ cioè derivare nuovi collegamenti attraverso opportuni ‘ragionatori automatici’ basati su OWL o regole, oppure costruendo apposite interrogazioni (Query) in SPARQL

Queste tecniche necessitano di specifiche competenze informatiche

3/2015

5. Interlinking

Per interlinking si intende il collegamento (linking) esterno del mio dataset con altri dataset presenti nel Web dei dati

Significa creare triple in cui soggetto e oggetto fanno parte datasetdifferenti (links relazionali)

Allineare entità appartenenti a diversi dataset (alias links)

Creare link di identità (owl:sameAs) è fondamentale

Si potrà ad esempio collegare l’URI relativo alla città di Madrid nel dataset di partenza, ad esempio miodataset.it/… Madrid con gli URI relativi a una stessa città in due dataset differenti come DBpedia e Geonames: http://dbpedia.org/resource/Madrid e http://sws.geonames.org/6355233/.

Ciò consente al mio dataset di raggiungere il livello più alto (5 stelle) della classifica dei LOD, cioè un dataset aperto e collegato

3/2015

Data model di BNF: allineamenti interni ed esterni

06/03/2015

6. Validazione

Si possono eseguire tre tipologie di validazione

• Sintattica: il contenuto dei dati è conforme alla sintassi prevista dal W3C. ( W3C RDF Validation Service <http://www.w3.org/RDF/Validator/>

• Logica: si effettuano dei test per appurare se vi sono errori logici nella modellazione (es. trova tutte le persone che sono anche città)

• Concettuale: si valuta se il modello concettuale su cui si basa il dataset risponde alle finalità che ci si era prefissi. Ad esempio se tutte le entità e le relazioni sono state previste.

• W3C RDF Validation Service (http://www.w3.org/RDF/Validator/)

3/2015

http://www.w3.org/RDF/Validator/

7. Pubblicazione

• Gestire al meglio la pubblicazione (risorse, staff, tempo)

• Pubblicare in maniera incrementale il dataset

• Permettere di interrogare i dati (dotarsi di un endpoint) e garantire vari metodi di accesso

• Piattaforma di hosting affidabile

• Garantire l’aggiornamento costante dei dati

3/2015

Pubblicare i dati: la checklist

Prima di pubblicare i dati, è importante porsi delle domande che costituiranno una sorta di checklist, ovvero misureranno la rispondenza del proprio dataset a una lista di qualità necessarie per la pubblicazione:

Qualità dei dati di provenienza

Link agli altri dataset

Scelta della licenza più appropriata

Utilizzo dei vocabolari

Dereferenziabilità degli URI

Mappatura dei vocabolari

Dati relativi al dataset

Metodi di accesso al dataset (dump, endpoint, API etc. )

3/2015

DOMANDE?

Grazie!Antonella Iacono PHD

[email protected]