Download - Events reconciliation
![Page 1: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/1.jpg)
Réconcilier les évènements dans le web des données
Houda Khrouf <[email protected]>Raphaël Troncy <[email protected]>
Ingénierie des Connaissances 2011, Chambéry
![Page 2: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/2.jpg)
Un évènement ?
Les évènements sont des observables qui regroupent
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 2
Des expériences documentées par des Medias
Personnes Lieux Temps
![Page 3: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/3.jpg)
Contexte
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 3
Besoin d’une plateforme agrégeant et structurant toutes ces données
Event Media : description sémantique des évènements et de
médiasObjectif : Réconciliation d’Event Media avec le nuage des données
![Page 5: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/5.jpg)
Event Media
L’ontologie LODE
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 5
![Page 6: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/6.jpg)
Event Media
Event AgentLocatio
nPhotos User
Last.fm 37,647 50,150 16,4711,393,03
918,542
Upcoming
13,114 0 7,330 347,959 4,518
Eventful 37,647 6,543 14,576 52 12
Total 88,408 56,693 38,3771,741,05
023,072
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 6
![Page 7: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/7.jpg)
Problème : Réconciliation
Quelles sont les bulles du nuage de données faut-il choisir ? Requêtes SPARQL sur http://lod.openlinksw.com
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 7
![Page 8: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/8.jpg)
Problème : Réconciliation
Event Media
MusicBrainz
DBpedia
Geonames
Foursquare
Uberblic
Freebase
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 8
Agent
Last.fm Eventful MusicBrainz DBpedia Freebase Uberblic New York
Times
Lieu
Last.fm Eventful Upcoming DBpedia Freebase Foursquare Geonames
Évènement
Last.fm Eventful Upcoming DBpedia Freebase Uberblic
![Page 9: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/9.jpg)
Alignement
LODE est un modèle interopérable décrivant les évènements
Un thésaurus de catégories SKOS: Sport, Music, Arts, Movies, etc.
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 9
ABC CIDOC DUL EO LODE
atTime P4.has_time-spanisObservableAt
time atTime
P7.took place at place inSpace
inPlace hasLocation atPlace
involvesP12.occurred in the presence of
hasParticipant factor involved
hasPresence
P11.had_participant
involvesAgent agent involvedAgent
![Page 10: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/10.jpg)
SILK Framework
Basé sur un langage de spécification de liens Silk-LSL
Des transformations et des fonctions algébriques : max, min,
avg, etc
Plusieurs métriques de similarité:
Syntaxique : égalité, Jaro, Leveinstein, n-gram
Lexicale : WordNet
Géographique : wgs84
Temporelle : date
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 10
![Page 11: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/11.jpg)
SILK Framework
Configuration SILK - LSL
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 11
![Page 12: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/12.jpg)
Méthodologie
Alignement par les étiquettes
Jaro est une métrique fiable *
Alignement par les coordonnées géographiques (lieux)
Le score de « wgs84 » est normalisé par rapport au seuil 10 km.
* Cohen, William W., Ravikumar, Pradeep and Fienberg, Steve. 2003. A Comparison of String Distance Metrics for Name-
Matching Tasks. IIWeb 2003: 73--78.
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 12
![Page 13: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/13.jpg)
Alignement des agents
Alignement basé sur les propriétés des agents : foaf:Agent rdfs:label
Exemples : Donavon Frankenreiter / Donovan Frankenreiter (Jaro 0.98) × Birds & Batteries / Birds and Batteries (Jaro 0.70)
Total : Eventful : 61 % Last.fm : 58 %
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 13
Eventful(6543)
Last.fm(50151)
MusicBrainz
(459023)
Dbpedia(107112)
Uberblic(236691)
NYTimes(4794)
Eventful
- 2865 (44%) 3616 (55%) 1985 (30%) 1567 (24%) 7 (0.1%)
Last.fm 2865 (6%) - 26619 (53%) 9442 (19%) 12905 (26%) 14 (0.03%)
![Page 14: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/14.jpg)
Alignement des lieux
Exemples :
The Stone Bar (34.1019 ;-118.304) The Stone (34.1017 ;-118.304)
× fall harvest wine dinner bavarian inn restaurant frankenmuth (43.32 ; -83.73) × Frankenmuth Bavarian Inn Restaurant (43.32 ; -83.74)
Total : Eventful : 17 % Last.fm : 15 % Upcoming : 36 %
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 14
Eventful
(13516)
Last.fm(15857)
Upcoming
(5173)
DBpedia(496728)
Foursquare
(641770)
Geonames
(1090357)
Eventful - 998 (7%) 366 (3%) 90 (0,7%) 1296 (10%) 320 (2%)
Last.fm 998 (6%) - 626 (4%) 141 (0.9%) 911 (6%) 345 (2%)
Upcoming
366 (7%) 626 (12%) - 74 (1,4%) 1300 (25%) 232 (4%)
Dist : 29 m – Score (sim): 0.98
Dist : 80 m Score : 0.92
![Page 15: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/15.jpg)
Alignement des évènements Alignement basé sur le titre, le lieu et le temps
Exemples : LastFm : « Camp Bestival » à « Lulworth Castle » le 18/07/2008 Eventful : « New Camp Bestival Dorset » à « Lulworth Castle » le
18/07/2008
Total : Eventful : 0,4 % Last.fm : 3;8 % Upcoming : 4,8 %
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 15
Eventful
(37647)
Last.fm
(57258)
Upcoming
(13114)
DBpediaMusic
Festival(662)
UberblicPerformer(228238)
Eventful - 76 (0,2%) 34 (0,1%) 28 (0,1%) 15 (0,04%)
Last.fm 76 (0,1%) - 586 (1%) 389 (0,7%) 1148 (2%)
Upcoming
34 (0,3%) 586 (4%) - 31 (0,2%) 15 (0,1%)
![Page 16: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/16.jpg)
Alignement des évènements
La métrique Date de SILK est rigide Upcoming : « A Season in Hell » a eu lieu du 7 novembre au 22 novembre
2008 Eventful : « A Season in Hell » a eu lieu du 8 novembre 2008
Autres types d’évènements : sportif, militaire, mission spatiale
Un appariement faible pour les évènements de type sport DBpedia : Alpine skiing at the 2002 Winter Olympics Uberblic : Alpine skiing at the 2002 Winter Olympics – Men's slalom
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 16
Type DBpedia Uberblic Alignments
Military Conflict 8 750 8 899 7 151 (81 %)
Space Mission 396 362 346 (95 %)
Sport Events 4 046 3 056 942 (30 %)
![Page 17: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/17.jpg)
Discussion
Une approche conservatrice assurant une précision élevée
Un bon nombre des agents appariés. Les étiquettes sont
relativement des chaines de caractères courts.
Un nettoyage des lieux pour réduire les doublons constatés
(e.g Foursquare)
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 17
![Page 18: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/18.jpg)
Perspectives
Limite de SILK : il ne supporte pas les méthodes hybrides
Étendre la métrique Date de SILK
Créer une métrique pour comparer les adresses
Utiliser les méthodes de machine Learning supervisé
Evaluation : précision et rappel
Assurer une version LIVE d’Event Media
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 18
![Page 19: Events reconciliation](https://reader036.vdocuments.net/reader036/viewer/2022081419/5560bfd0d8b42afe3b8b5419/html5/thumbnails/19.jpg)
http://www.slideshare.net/khrouf
Merci de votre attention
20/05/2011 Ingénierie des Connaissances 2011, Chambéry - 19