tecniche di integrazione semantica dei dati sul web un approccio web-based ed entity-centric paolo...
TRANSCRIPT
![Page 1: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/1.jpg)
Tecniche di integrazione semantica dei dati sul Web
Un approccio web-based ed entity-centric
Paolo Bouquet
Dip. di Ingegneria e Scienza dell'Informazione
Università di TrentoOKKAM id: http://www.okkam.org/entity/ok200706301185791252056
![Page 2: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/2.jpg)
Outline
• Un semplice scenario e il problema
• Cosa significa integrazione semantica:– Web-based– Entity-centric
• Vantaggi e svantaggi rispetto ad altri approcci
• Una soluzione: il progetto OKKAM
• Esempi di applicazioni e progetti
• Conclusioni
![Page 3: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/3.jpg)
Paolo Bouquet @ UNITN
Anagrafica
Dati personali
Pubblicazioni Didattica
Ricerca
Progetti
![Page 4: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/4.jpg)
Paolo Bouquet @ WWW
Professional network Twits
Video lectures Social Network
Publications Personal data
![Page 5: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/5.jpg)
Riassumendo ...• Informazione che cresce
– ... in modo aperto e decentralizzato– ... in sistemi eterogenei (gestionali, CRM, portali,
reporting, documentali, ecc.)– ... in formati eterogenei (RDB, testo, XML,
multimedia, fogli di calcolo, ecc.)– ... basati su schemi e vocabolari diversi– ... spesso senza connessioni esplicite– ... per scopi di diversi
• Confini tra “dentro” e “fuori” sempre più labili
• Il valore come capacità di collegare e aggregare dati e informazione distribuiti
• La necessità di flessibilità e tolleranza all'errore nell'uso dei dati e nell'integrazione semantica
![Page 6: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/6.jpg)
Problema
Come rispondere a una semplice domanda come: cosa “sa” UNITN di Paolo Bouquet?
Il Web oggi Il Web of Entities
![Page 7: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/7.jpg)
Una possibile soluzione: il Web of Entities
Web-based & entity-centric
![Page 8: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/8.jpg)
Ingrediente 1: le tecnologie Web I
• Il Web attuale è una rete di risorse digitali tra loro collegate:
– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://www.unitn.it/)
– I collegamenti tra risorse si creano indicando la URI della risorsa veso cui si vuole creare il link
– Gli utenti e le applicazioni possono navigare da una risorsa all'altra grazie ai collegamenti (link)
– I link sono solo di un tipo: HREF (collegamento ipertestuale)
![Page 9: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/9.jpg)
Ingrediente 1: le tecnologie Web I
Il Web oggi
![Page 10: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/10.jpg)
Ingrediente 1: le tecnologie Web
• Il Web dei Dati è una rete di risorse di qualsiasi tipo (persone, eventi, aziende, prodotti, luoghi, ecc) tra loro collegate:
– Ogni risorsa è indentificata da una URI (per es. una URL del tipo http://semanticweb.org/wiki/Nicola_Guarino)
– I collegamenti tra risorse esprimono un'asserzione su quella risorsa (per esempio che Nicola conosce Paolo)
– Gli utenti e le applicazioni possono navigare tra insiemi di asserzioni pubblicate sul Web
– Le asserzioni possibili sono definiti in vocabolari web o ontologie
![Page 11: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/11.jpg)
Ingrediente 2: entity-centric view
• Gli elementi atomici non sono più i documenti, ma le entità (persone, aziende, luoghi, eventi, prodotti, documenti, ...)
• Idealmente, ogni entità è identificata da una singola URI in qualunque luogo della rete essa appaia
• Il valore dell'informazione (la conoscenza) sta nelle relazioni che esistono tra entità
• Informazioni sullo stesso oggetto possono provenire da sorgenti diverse e tra loro indipendenti
• La capacità di raccogliere questa conoscenza e integrarlo (semantic mashup) diventa elemento chiave
![Page 12: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/12.jpg)
abita a
abita aconosce
possiede
ha curato
lavora per
si trova a
Ingrediente 2: entity-centric view I
![Page 13: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/13.jpg)
Ingrediente 2: entity-centric view - II
DB1
DB2
DB3
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2dehttp://www.okkam.org/entity/ok200706301185791252056
http://www.okkam.org/entity/ok200706301185791252056
http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62
http://www.okkam.org/ens/id88f216f2-4aa8-4f06-9924-806c2aa7bc62
http://www.okkam.org/ens/ide1540fc2-70be-4495-8f8f-9c714a8ed2de
![Page 14: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/14.jpg)
The Entity Name System (ENS)
ENS-Plugin ENS-Plugin ENS-Plugin
ENS-Plugin
ENS-Plugin
Entity Name System
= http://www.okkam.org/ens/id47371904-6218-41e1-8b6d-af806de3dabb
![Page 15: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/15.jpg)
Integrazione Entity-Centric dei dati
• L'integrazione avviene in primo luogo intorno a una o più entità, non intorno a uno schema
• Lo spazio delle entità e delle loro relazioni è non solo navigabile, ma anche interrogabile con query strutturate
• I servizi sono progettati e organizzati intorno alle entità (quali servizi e/o dati posso offrire ai miei utenti rispetto a “Nicola Guarino”)
• Le applicazioni devono essere entity-aware (client e/o plugin ENS + funzionalità)
• L'Entity Name System come abilitatore dello spazio dell'informazione (il “DNS” del entity-centric Web)
![Page 16: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/16.jpg)
Esempi di applicazioni in corso
![Page 17: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/17.jpg)
Trentino Riscossioni
Sorgenti di dati
Profilo integrato del contribuente
![Page 18: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/18.jpg)
Enterprise KM in SAP
SAP Community Network 1.3 million business users
◦ Customers
◦ End-users
◦ Consultants
◦ Developers, etc.
150.000 daily accesses
5000 to 10000 new posts daily
Challenges Improve the search capabilities of
the portal
Provide instantaneous answers to those user queries that have been already answered into the forums
Expand the search
beyond the boundaries of the portal and
beyond the information captured by corporate data
SAP Community Network (SCN)
![Page 19: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/19.jpg)
News sul Web con ANSACreating richer News
eventplace person
1919
![Page 20: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/20.jpg)
OKKAM Tutorial – Vienna – ESTC 2009, Dec. 2 + 3, 2009
Use Case: Academic Web Site
![Page 21: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/21.jpg)
E ancora ...
• Editoria (articoli scientifici con Elsevier)
• Web search (sub-project Sig.ma with DERI Galway)
• Smart Cities (aggregazione di servizi intorno a entità nel mondo fisico su piattaforme mobile)
• Aggregazione di dati con il Ministero dell'Innovazione Fiammingo
![Page 22: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/22.jpg)
Per concludere
• Integrazione semantica basata sul paradigma del Web (aperto, flessibile, decentralizzato, tollerante alle imperfezioni, ridondante, talvolta incompleto)
• Integrazione costruita intorno a elementi semplici (le entità), ma vicine all'utente finale
• Costi relativamente modesti dell'integrazione e scalabilità della soluzione e approccio incrementale
• Compatibile con l'integrazione a livello di schemi, per esempio introducendo vocabolari/ontologie condivise per esprimere relazioni tra entità
• Vicino all'idea del Web2.0 e della produzione distribuita di dati e conoscenza
• Richiede poca “manutenzione” (e questa puà essere distribuita)
![Page 23: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/23.jpg)
Grazie!
Per chi vuole saperne di più:
http://project.okkam.org/
http://community.okkam.org/
![Page 24: Tecniche di integrazione semantica dei dati sul Web Un approccio web-based ed entity-centric Paolo Bouquet Dip. di Ingegneria e Scienza dell'Informazione](https://reader036.vdocuments.net/reader036/viewer/2022070313/5542eb73497959361e8d9fba/html5/thumbnails/24.jpg)
The future
• Creation of an OKKAM Foundation for maintaining and developing the ENS public infrastructure
– Not-for-profit founders– Independence and neutrality– Strongly R&D oriented
• Using Trentino as a lab for the first Entity-Centric Region worldwide
• Verticalizations in different business sectors (KM, publishing, advertisement, public administration, healthcare, master data management, etc.)