référentiels et interoperabilité (1) antoine isaac europeana & vrije universiteit amsterdam...
TRANSCRIPT
Référentiels et interoperabilité (1)
Antoine Isaac
Europeana & Vrije Universiteit Amsterdam
Séminaire INRIA ISTCarnac, 2 Octobre 2012
Avertissement !
• Le web de données ne matérialise pas la notion de “référentiel”Tout comme le web “traditionel”: techniquement rien ne distingue
un “site de référence” d’un autre
• Mais il y a quand même des ressources qui peuvent prétendre au statut de référence pour une ou plusieurs communautés
Catégories de référentiels possibles
Inspiration: rapports du groupe d’incubation du W3C “Bibliothèques et web de données”
• Élements de métadonnées
• Vocabulaires de valeurs
• Jeux de données
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Des catégories pas forcément disjointes?
“Ontologie” a pu être utilisé pour divers “référentiels sémantiques”
[Smith 2001]
Des catégories pas forcément disjointes?
• Conceptuellement, elles expriment “de la sémantique”
• Parfois un artefact appartient à deux catégories
• Mais d’un point de vue technique (semantic web stack) il y a une vraie différence
Eléments de métadonnées
A.k.a ontologies OWL, metadata element sets
• Fournissent les classes et propriétés qui servent de support à l’expression des descriptions
• Types d’ontologies selon la portéeontologie noyau vs. ontologie de domaine vs. ontologie d’application
“Briques de construction” des graphes RDF
myMES:suject
myVV:Amsterdam
http://example.org/article1
myMES:Article
rdf:type
Ontologies par “popularité” sur le Linked Data Cloud
http://www4.wiwiss.fu-berlin.de/lodcloud/state/#terms
Dans l’inventaire Library Linked Data
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Metadata_Element_Sets
Dublin Core
DCMI Metadata Terms
• A l’origine, 15 éléments généraux pour tous types de documentsdc:title, dc:creator, dc:coverage, dc:subject
• Spécialisés en éléments plus spécifiques, avec par ex. domaines et rangesdcterms:spatial, dcterms:creator
dcterms:Agent
• Utilisable pour relier des resources, pas seulement des descriptions “à plat”
• Effort communautaire
dublincore.org/
FOAF
Friend of a Friend
• Décrire des personnes – réseaux sociaux, pages personnelles…
• Porté par deux personnes, retour d’expérience des utilisateurs
• Approche très pragmatique
www.foaf-project.org/
OAI-ORE
Open Archives Initiative - Object Reuse and Exchange
• Décrire des aggrégations de resources qui composent des ressources numériques complexes
• Eléments clefs– Aggrégation– Ressource aggrégée– “Proxy”– “Resource map”
• Communauté OAI cf. OAI-PMH
www.openarchives.org/ore/
Bibo
• Bibliographic Ontology
• Ontologie pour les ressources bibliographiques– Categorisation de documents (AcademicArticle)– Structure des documents (chapter…)– Citation (citedBy)
• Créée par deux personnes
bibliontology.com/
FRBR• Modèle conceptuel développé par l’IFLA• Il existe plusieurs ontologies (FRBRer, FRBRcore, FRBRoo)
Schema.org• Représenter dans les pages web des informations de base sur
les objets qu’elle représententVideos, Volcans, Sex shops…
• Moteurs de recherche (Bing, Google, Yahoo!)• Approche top-down, mais très pragmatique
Et bien d’autres…
• CIDOC-CRM• W3C Media Ontology• Music Ontology…
Où les trouver ?Rapports• Library Linked Data
Moteurs de recherche• Sindice• Watson
Répertoires• Linked Open Vocabularies• Open Metadata Registry
www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
sindice.comwatson.kmi.open.ac.uk/
lov.okfn.org/dataset/lov/metadataregistry.org
Linked Open Vocabularies
Etude de cas : la création du Europeana Data Model
http://pro.europeana.eu/edm-documentation
?
Europeana
Service qui donne accès aux objets numérisés du domaine patrimonial européen
• Portail liés aux portails des institutions et projets partenaires
• Services de données: – API– Linked Data
europeana.eu
pro.europeana.eu/apidata.europeana.eu
Mn;kl;k;klj;lkj;lkj;jh;lkj;klj;klj;klj;klj
Qui envoie des données à Europeana?
APEnetAPEnet
ArchivesArchives
LibrariesLibraries
MuseumsMuseums
National AggregatorsNational Aggregators
Regional AggregatorsRegional Aggregators
Horizontal AggregatorsHorizontal Aggregators Vertical AggregatorsVertical Aggregators
The European LibraryThe European Library
ATHENAATHENA
European Film GatewayEuropean Film Gateway
Film archivesFilm archivesELocal ELocal
GLAMsGLAMs
Flanders museumsFlanders museums
Culture GridCulture Grid
GLAMsGLAMs
“Dark” Aggregators“Dark” Aggregators
GLAMsGLAMs
Qu’est-ce qui est envoyé à Europeana?
1. Thumbnails1. Thumbnails
2. Metadata2. Metadata
3. Links to digital objects online3. Links to digital objects online
Résoudre un problème d’intégration de données
Construire un service d’accès utilisant les métadonnées est difficile
• Chaque domaine utilise ses propres modèles et formatsLIDO, EAD…
• Solution actuelle: les partenaires fournissent des métadonnées au format Europeana Semantic Elements (ESE) – Plus grand commun dénominateur pour les métadonnées– Données “à plat”– Ne respectent pas le “one-to-one principle”– Perte de la richesse des metadonnées orginelles
Plus de “sémantique” pour l’accès aux objets
Construire une “couche sémantique” au-dessus des objets
Services assistés par la sémantique
• Exploitation de relations comme: “localisé à”, “a pour sujet”, “concept plus générique”, correspondences entre langues, domaines– Reformulation de requêtes– Regroupement et personnalisation de résultats
• Échanger des données plus riches
• Les données plus riches sont souvent déjà là !– Thesauri, classifications…– Éléments de données complexes (EAD, MARC)– Dans le domaine patrimonial ou ailleurs
EDM design requirements
Données plus fines
• Distinction entre l’"objet fourni (tableau, livre…) et ses représentations numériques
• Distinction entre l’objet et ses descriptions• Permettre plusieurs descriptions pour un objet
Contenant éventuellement des assertions contradictoires
• Représentation d’objets complexes• Ressources contextuelles, y compris concepts
EDM design requirements
Données plus interopérables
• Permettre la co-existence de plusieurs grains de donnéesAutoriser des profils spécifiques à un domaine
• Réutiliser et étendre des éléments de standards existants
EDM : les bases
• OAI ORE pour l’organisation des metadonnées et des représentations numériques des objets
• Dublin Core pour une partie des metadonnées descriptives
• CIDOC-CRM comme inspiration pour la structure des événements et des relations entre objets
• SKOS et d’autres référentiels pour les ressources contextuelles
Exemple - 1
30
Exemple - 2
31
Aggregations OAI ORE
32
aggregation
digital representation
object
provenancemetadata
organiser la “contribution” d’un partenaire
Proxys OAI ORE
33
proxy
objectmetadata
Représenter une “vue” sur les objets
Plusieurs fournisseurs = plusieurs aggregations
34
DMF proxy
Louvre Proxy
Louvre title
DMF title
The “real” painting
Europeana comme un “simple” fournisseur de metadonnées normalisées et enrichies
35
Europeanaaggregation
“enriched”metadata
Entités contextuelles
Récupér et exploiter des données “orginelles” ou enrichies réclame plus que des descriptions centrées objet
Evénements, lieux, agents, concepts
Objets et événements
EDM est un effort collaboratif
• Europeana v1.0 WP3: 60 participants
• Développement semi-ouvert, “en aquarium”
• Transversal– Experts des bibliothèques, archives et musées
– Avec EDM, Europeana devient plus compatible avec les besoins de communautés spécifiques. Il est aussi possible de créer des “profils” d’EDM pour ces communautés
Bénéfices de l’approche web de données pour la conception d’EDM
• Vocabulaires à réutiliser• Approche flexible de la conception et la ré-utilisation de
standards• Ontologies spécifiques co-existant avec les ontologies
standards• Pas de contrainte sur le grain du modèle de données• Facilité technique de la connection et la publication des
données• Vision qui appuie les stratégies Open Data
Retour aux éléments de métadonnées – ou presque
EDM
41
Elément de (méta)données
Concept d’un vocabulaire d’autorité
SKOS
Simple Knowledge Organization System
Portée: knowledge organization systems (KOS) comme les thesauri, systèmes de classification, autorités matières…
SKOS permet de représenter et d’échanger les KOS en RDF de manière simple
Représenter la sémantique
La manière formalisée: OWL Semantic Web ontology language
Ontologies avec une sémantique exploitable par la machine• Mère est une classe• C’est l’intersection des classes Femme et Parent• Parent est la classe des ressources de type Personne qui
sont liés à au moins une autre ressource de type Personne en utilisant la propriété estParentDe
…
SKOS n’est pas pour des ontologies formelles
• Il est possible de produire des ontologies à partir de KOS, mais les KOS– Se concentrent souvent sur les données lexicales
Enfant UtiliséPour Progéniture
– Ont une sémantique plus “molle”Parent TermeLié Enfant
– Sont parfois gigantesques et donc difficiles à “nettoyer”
• Et pourtant en tant que tels les KOS peuvent être utiles à de nombreuses applications!Recherche sémantique, annotation…
Sémantique et interopérabilité
SKOS – les bases
Pour satisfaire la majorité des besoins
• Concepts• Propriétés lexicales• Liens sémantiques • Notes
Un thesaurus fictif
Animals
catsUF (used for) domestic catsRT (related term) wildcatsBT (broader term) animalsSN (scope note) used only for domestic cats
domestic catsUSE cats
wildcats
Concepts et libellés
catsUF (used for) domestic cats
skos: = http://www.w3.org/2004/02/skos/core#rdf: = http://www.w3.org/1999/02/22-rdf-syntax-ns#ex: = http://example.org/
Libellés multilingues
Relations sémantiques
catsRT (related term) wildcatsBT (broader term) animals
Un graphe SKOSanimalscats
UF domestic catsRT wildcatsBT animalsSN used only for domestic
catsdomestic cats
USE catswildcats
Changement par rapport aux approches traditionelles
• Approche orientée concepts• Plus de frontière “dure” entre vocabulaires
Extension & alignement sont facilités à travers différents contextes
• L’utilisation de plusieurs vocabulaires dans une application est facilitée
• Transition vers une interoperabilité plus grande avec tous types de jeux de données
Extensions de SKOS
• MADS/RDFAutorités-matières (LCSH)France –– Histoire –– XXeme siècle
• ISO25964 (en cours)Thesaurus « classiques »– Coumpound equivalences:Charbonnages USE Charbon + Mines– Arrays:Chaises
<Chaises par forme>
Fauteuils
…
SKOS vs. OWL – rappel
• Il y a vraiment une différence entre les deux approchesLes ressources SKOS (les concepts) sont des instances de classes au sens
de OWL (instances de skos:Concept). Elles-mêmes ne sont pas des classes par défaut.
• Des ontologies comme SKOS existent pour porter et exploiter sur le web de données des données sémantiques “traditionelles” sans avoir à la convertir (et les nettoyer) en ontologies OWL
Vocabulaires de valeurs
Terminologie du groupe LLDRegroupe vocabulaires contrôlés, vocabulaires d’autorités, mais aussi potentiellement des folksonomies…
SKOS est une ontologie qui permet de publier un semble de ressources d’autorité, référentiels provenant des bibliothèques ou bien d’autres domaines
http://www.w3.org/2001/sw/wiki/SKOS/Datasets
http://thedatahub.org/dataset?q=format-skos
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/#Value_vocabularies
DBpedia, Freebase?
• Le web de données efface la fontière technique entre vocabulaire d’autorité et « simples » jeux de données
• Des ressources SKOS peuvent être liées à des ressources différentesPar ex. une personne et le « concept d’une personne » dans un fichier
d’autorité
• Un jeu de données peut devenir un référentiel
Linked Library Data
http://www.w3.org/2005/Incubator/lld/XGR-lld-vocabdataset/
Jeux de données
• Dans le domaine bibliographique– Catalogues de bibliothèques nationales– Services documentaires spécialisés
Jeux de données a réutiliser et lier
• Ressources d’intérêt bibliographique sur le Data Hubthedatahub.org/group/lld
• Linked Open Data Cloud sur le Data Hubthedatahub.org/group/lod
• Moteurs de recherche sur le Linked Data CloudSindice.com
Merci !
Remerciements particuliers:• Equipe et partenaires Europeana• Membres du groupe Library Linked Data
W3C Library LD Incubator
http://www.w3.org/2005/Incubator/lld• 1-year group• OCLC, LC, VU Amsterdam, DNB, etc.
• help increase global interoperability of library data on the Web
• bringing together people involved in Linked Data—in the library community and beyond
• building on existing initiatives and collaboration tracks for the future
Some steps in production services
First steps for providing semantics enabled services
First steps for providing semantics enabled services
• Enrichment of the data with selected vocabularies and datasets: – DBpedia– Geonames– GEMET– Enrichment process based on a selection of Dublin Core
elements
• Note: Europeana needs to have access to open resources
Advanced modeling in EDM
• Relations between provided objects– Part-whole links for complex (hierarchical) objects – Derivation and versioning relations– Relations between provided objects, for instance artistic derivation
between works; • ens:isRepresentationOf
• ens:isNextInSequence