linked open data e recommender ?· linked open data e recommender systems 4.1. introduzione 4.2....

Download Linked Open Data e Recommender ?· Linked Open Data e Recommender Systems 4.1. Introduzione 4.2. Problema…

Post on 17-Feb-2019

212 views

Category:

Documents

0 download

Embed Size (px)

TRANSCRIPT

1

Scuola Politecnica e delle Scienze di Base Corso di Laurea in Ingegneria Informatica Elaborato finale in Basi di Dati

Linked Open Data e Recommender Systems Anno Accademico 2016/2017 Candidato: Piero Cecere matr. N46/2556

2

Indice

1. Introduzione

2. Linked Open Data

2.1. Cosa sono i Linked Open Data

2.2. Nascita ed obiettivo dei LOD

2.3. Vantaggi dei LOD

2.4. Struttura dei LOD

2.5. Utilizzo degli RDF

3. Recommender Systems

3.1. Scopo dei Recommender Systems

3.2. Tipologie di RS

3.2.1. Content-based filtering

3.2.2. Collaborative filtering

3.2.3. Hybrid filtering

3.3. Acquisizione delle informazioni

4. Linked Open Data e Recommender Systems

4.1. Introduzione

4.2. Problema degli odierni RS

4.3. Alternativa ai Database Centralizzati

4.4. Architettura di un Open RS

5. Conclusioni

Riferimenti

3

1. Introduzione

Il mondo del Web in continuo cambiamento ed unimportante

evoluzione che sta avvenendo il passaggio dal un Web di hyper-

linked Documents ad un Web di Linked Data. Questo sviluppo da

accreditare alla recente nascita dei Linked Open Data (LOD) che,

come vedremo, costituiscono un cluod di dati che sono interconnessi

tra loro per dar vita ad un vero e proprio data base globale accessibile

da tutti.

Una tale mole di informazioni pu essere sfruttata per numerosissimi

scopi. In questo documento prenderemo il caso dei LOD applicati ai

sistemi di raccomandazione (Recommender Systems, RS) che sono

anchessi in rapido sviluppo in molti campi, basti pensare ai numerosi

siti e-commerce e ai sistemi per lintrattenimento multimediale. Questi

RS per poter operare e quindi provvedere a consigliare contenuti

nuovi agli utenti in linea con i loro gusti, hanno bisogno di informazioni

sia sui prodotti che sui clienti. Questi dati sono contenuti in database

privati che per raccogliere una sufficiente quantit di informazioni

hanno bisogno di molto tempo e interazioni con il sistema da parte

degli utenti.

Se invece si sviluppassero dei Recommender System basati sui

Linked Open Data non solo il sistema potrebbe entrare in operazione

molto prima, ma si avrebbero anche una quantit di informazioni molto

maggiore e comprensibile dalle macchine, potendo cos sviluppare

anche algoritmi pi efficienti.

4

2. Linked Open Data

2.1. Cosa sono i Linked Open Data

Nel mondo del Web vengono pubblicati costantemente nuovi dati che

per se isolati non esprimono il loro vero potenziale. Il loro valore

aumenta sensibilmente quando dataset differenti e pubblicati

indipendentemente vengono collegati tra loro per poter generare un

sistema di informazioni che sia facilmente navigabile.

La terminologia Linked Data sta ad indicare un metodo di esposizione,

condivisione e connessione di dati tramite degli identificatori detti URI

interpretabili da una macchina. Dunque, con linked data, ci si riferisce

a dati pubblicati sul Web in un formato leggibile e interpretabile da un

calcolatore il cui significato definito tramite una stringa. Quello che

si va a formare un reticolo di dati connessi tra loro contenuti in uno

stesso dominio (il dataset di partenza) che a sua volta collegato a

domini esterni per i quali vale lo stesso principio, creando cos una

vasta rete di dati connessi.

Laggettivo Open fa riferimento al fatto che questi dati debbano essere

diffusi in forma libera e senza alcuna restrizione nel loro utilizzo e che

quindi possano essere accessibili da ogni utente e ridistribuiti da

chiunque.

5

2.2. Nascita ed obiettivo dei LOD

Il progetto dei Linked Open Data nasce nel 2007 e lidea venne poi

presentata, accrescendone linteresse, alla conferenza TED da Tim

Berners-Lee, co-inventore del World Wide Web, con lobiettivo di

passare dal Web dei documenti al Web dei dati.

Il Web ipertestuale (o Web dei documenti) costituito da documenti,

oggetti HTML, connessi tramite hyperlink. Possiamo vedere questo

web tradizionale come una rappresentazione piatta e lineare degli

oggetti. Il Web semantico (o Web dei dati) possiamo invece

immaginarlo come un contenitore di oggetti e non di rappresentazioni

di oggetti. Ad esempio mentre il web dei documenti espone i dati come

in una sorte di file system globale, accessibile tramite protocolli come

HTTP, il web dei dati punta a realizzare un database globale analogo

al concetto di database relazionale, costituito da singoli oggetti ben

relazionati tra di loro, che a loro volta formano entit pi ampie.

Il web semantico non nasce per sostituire il web tradizionale, ma per

estenderne il potenziale realizzando la naturale evoluzione del web

ipertestuale.

I Linked Data sono una tecnologia fondamentale per la creazione del

web semantico perch, per realizzare un database globale e

distribuito facilmente interrogabile dai calcolatori e che sia

indipendente dalla fonte dei dati, si ha bisogno di rendere espliciti i

significati e le connessioni implicitamente contenuti nelle risorse del

Web.

6

Per poter ottenere un simile risultato i dati devono essere strutturati in modo da essere comprensibili dalle macchine, per questo motivo Tim Berners-Lee descrisse i quattro criteri di pubblicazione dei LOD:

1. Usare lo Uniform Resource Identifier (URI) come identificatore delloggetto: lURI un sistema di identificazione globale, costituisce un meccanismo di identificazione delle risorse che si trovano sul Web. Ogni risorsa pu dunque essere ricercata tramite il proprio URI;

2. Usare HTTP URI per permettere la ricerca di questi oggetti da persone e applicazioni;

3. Fornire informazioni sulloggetto usando formati standard come RDF (Resource Description Framework): necessario definire il contesto e le caratteristiche della risorsa attribuendo ad essa una classe costituita da propriet alle quali vanno assegnate dei valori;

4. Riferirsi agli altri oggetti usando i loro HTTP URI quando si pubblicano dati per poter migliorare la ricerca sul Web di altre informazioni affini a quella di partenza.

2.3. Vantaggi dei LOD

Linteroperabilit uno dei vantaggi pi importanti del modello LOD.

Abbiamo detto che i dati, se isolati, hanno poco valore; viceversa una

volta collegati i dataset, le applicazioni possono sfruttare quello che

pu essere visto come un grande database aperto e distribuito per

offrire servizi. Linteroperabilit dunque un elemento chiave di uno

degli aspetti pi innovativi offerti dai LOD: luso dei dati in modi e per

scopi inattesi, nuovi in quanto non previsti dai singoli soggetti e

aziende che pubblicano i dati grezzi.

Pensiamo ad esempio ad un ente pubblico che carica i propri LOD

relativi ai monumenti ed opere darte presenti nel proprio comune e ad

7

un altro ente che pubblichi le descrizioni e la storia di questi

monumenti, come potrebbe essere ad esempio DBpedia, il progetto

nato per estrarre le informazioni strutturate da Wikipedia e pubblicarle

come Linked Open Data in formato RDF. Questi due dataset

potrebbero essere sfruttati da una applicazione che genera un

itinerario per un turista in visita realizzando una guida personalizzata

per quel singolo utente.

2.4. Struttura dei LOD

I Linked Open Data sono rappresentati dai Resource Description

Framework (RDF), ovvero da un data model che formalizza come i

dati debbano essere strutturati. Tutto ci che viene descritto da un

RDF detto risorsa ed ogni risorsa identificata da un URI.

Un dataset RDF pu essere serializzato in diversi formati come ad

esempio RDF/XML, N3, etc., ma le caratteristiche base restano

invariate indipendentemente dal formato utilizzato.

Il modello RDF simile ad altri modelli concettuali conosciuti in

informatica come quello del diagramma delle classi o il modello entity-

relationship (ER), infatti si basa su delle triple del tipo soggetto-

predicato-oggetto; il soggetto esprime la risorsa (tipicamente una

risorsa web) mentre il predicato denota laspetto e le caratteristiche

della risorsa e indica la relazione esistente tra soggetto e oggetto che

a sua volta un puntatore allURI di unaltra risorsa andando a

generare cos un multigrafo. Pi URI sono utilizzati pi linformazione

risulta riusabile; ci non obbligatorio ed elementi della tripla possono

essere espressi anche in modalit testuale.

8

In Fig.1 vediamo la rappresentazione del cos detto LOD cloud

composto dai collegamenti di dati open pubblicati sul web. Il nucleo

formato da DBpedia che, come abbiamo detto, estrae informazioni in

RDF dalle pagine di Wikipedia fornendo cos URI e dati RDF su

svariati domini. Dallorigine del progetto, questa rete ha avuto una

crescita esponenziale avvenuta in pochi anni, a dimostrazione del

grande interesse pubblico verso una simile tecnologia. Infatti non sono

solo coinvolti progetti accademici, ma anche importanti organizzazioni

del