web de données et rda. 2 architecture du web (1) world wide web : toile d'araignée de...
TRANSCRIPT
Web de données et RDA
2
Architecture du Web (1)
• World Wide Web : toile d'araignée de serveurs d'informations reliés les uns aux autres par des liens physiques (le réseau matériel) et des liens logiques (les liens hypertextes)
• Architecture du Web = les standards définissant l’infrastructure technologique
• Rôle du W3C (World Wide Web Consortium) : s’occupe de la standardisation de l’architecture du Web
33
Les objectifs du W3C
• Accessibilité pour les logiciels et machines– Interopérabilité et portabilité – Production de contenu Web facilitée – Réduction du volume des pages – Meilleure visibilité et indexation par les moteurs de
recherche– Compatibilité – Pérennité des documents – Validation des pages par des services de
validation pour garantir la cohérence et la qualité du code
• Accessibilité universelle aux contenus
Architecture du Web (2)
Repose sur 3 technologies : Un protocole : HTTP (Hypertext Transfer Protocol) Un langage : HTML (Hypertext Markup Language)
Standard défini par le W3C pour la diffusion de documents sur le Web pour pouvoir afficher de l'information à l'aide de balises dont le nombre est limité. Il est interprété par le navigateur
Des identifiants : URI (Uniform Resource Identifier) Une ressource : tout objet Ressource identifiées de manière univoque par une URI :
chaîne de caractères normalisée permettant d'identifier de manière permanente une ressource abstraite ou physique, accessible ou non sur Internet (personne, organisme, lieu, évènement, concept, …)
Les URI
2 déclinaisons : URN (Uniform Resource Name)
URI d’identification d’une ressource par son nom unique dans un espace de noms
Utilisé pour identifier une ressource sans s’occuper de son emplacement ou de la manière de la référencer
Exemple : urn:isbn:978-2-10-057294-6= URI de référence à une publication
URL (Uniform Resource Locator) URI spécifiant l'adresse physique de localisation d'une
ressource sur Internet et la méthode permettant d'y accéder
= URI donnant accès à la ressource
Évolutions du web
Web 1.0 web de documents permet aux usagers de naviguer facilement sur
Internet en utilisant des liens hypertexte une page = un document
format : HTML (HyperText Markup Language) ne permet que la mise en forme
Web 2.0 web collaboratif évolution du Web du point de vue des technologies
employées et des usages Internet n’est plus simplement un media mais une
plate-forme de services et d'applications en ligne Permet aux internautes d'interagir sur le contenu des
pages et de dialoguer entre eux
Le Web de documents
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Limites du Web de documents
HTML : langage textuel d’échange de documents semi-structurés
Les données sont cachées sous les pages HTML (« web profond »)
Seules les pages HTML sont liées entre elles Les pages HTML sont faites pour les humains Ce que veulent les machines :
des données structurées = utilisable directement par un ordinateur pour effectuer un calcul
car elles se complètent les unes les autres car les liens permettent de naviguer et de découvrir
avec des liens qualifiés, signifiants au-delà du « voir aussi » des hyperliens
Le Web de données ?
Web de données ou Linked Data ou Web of Data Mise sur le Web de données :
Mouvement de l’Open Data Mise à disposition de données publiques ouvertes
(etalab, creative comm.) librement accessibles sans restriction de copyright, licence payante, brevet, …
Données pouvant être réutilisées, reproduites, redistribuées librement et sans discrimination (cf. http://www.opendefinition.org/okd/)
+ Mise en relation des données pour construire un réseau global qui permet, à partir d’une donnée, d’accéder aux autres données liées du Web
Le Web de données ?
Un Web constitué de données accessibles, structurées, dans un format non-propriétaire, identifiées et liées entre elles sémantiquement
(Définition de Tim Berners-Lee dès 1999) Objectif : Mettre à disposition des données en utilisant
des techniques standardisées qui garantissent l’interopérabilité : Web documentaire : relations par des liens entre des pages
HTML Web de données : extension du Web permettant de relier non pas
des documents (pages HTML) mais les données elles-mêmes et de les rendre interprétables par les machines
Repose sur le standard URI = relations entre URI qui désignent tout objet décrit
Le Web de données liées
Base de données
Données Documents
Base de données
Hyperlien
Yann Nicolas, Le Web de données, enssib, 11 octobre 2012
Liens entre les bases de données
Voilà ce à quoi rêvent nos machines…
RDF
RDF = Resource Description Framework Standard permettant de décrire les ressources Web et
métadonnées qui y sont associées Proposé en 1999 par le W3C Permet de décrire, représenter et relier simplement toute
ressource du Web : page Web, image, video, personne, objet, évènement,
produit, service, … tout ce qui peut être identifié par un URI peut être
considéré comme une ressource Objectif : partager les métadonnées pour des ressources
identiques par l’utilisation d’une syntaxe commune
RDF ??C’est aussi simple que ça :
SUJET OBJETPREDICAT
Sujet :Charles Darwin
Objet :The origin of species
Prédicat :A écrit= Creator
15
RDF : un modèle conceptuel
• Principe de base : toute chose peut être décrite avec des phrases minimales composées d’un verbe, d’un sujet et d’un complément = déclaration RDF
Exemple :
Honoré de Balzac a écrit "La Comédie humaine"
Sujet : Honoré de Balzac Ressource
Verbe : a écrit Predicat
Complément : La Comédie humaine Objet
16
RDF : la notion de triplet
• Une déclaration est composée de 3 éléments = triplet
• Triplet {ressource – propriété – valeur}– sujet = ressource– predicat = propriété : nature de la relation– objet = valeur : caractéristique ou ressource liéeExemple :Sujet (Ressource) : Honoré de BalzacPredicat (Propriété) : CreatorObjet (Valeur) : La Comédie humaine
17
RDF : Graphe
• La déclaration est représentée visuellement par un graphe (système de nœuds reliés par des flèches) qui permet de parcourir l'information de lien en lien
SUJET OBJETPREDICAT
18
RDF : modèle de graphe
• Chaque membre du triplet est une ressource qui peut être le sujet ou l’objet d’autres déclarations
• On construit ainsi un modèle de graphe
RDF : modèle de graphe (2)
L’objet d’un triplet peut aussi être : un littéral = chaîne de caractères, nombre, date
Prédicat :A écrit
Prédicat :Comprend
«1809»«1809»
Prédicat :Est né
Sujet : Charles Darwin
Sujet : Charles Darwin
Objet : The origin of species
Sujet : The origin of species
Objet : An introduction on
the origin of species
20
RDF : un langage extensible
• Cadre conceptuel de description des ressources applicable à n’importe quel domaine d’application
• Peut être exprimé en utilisant la syntaxe RDF/XML (eXtensible Markup Language) : seule syntaxe qui fait l’objet actuellement d’une recommandation du W3C
000 cam 22 3 450 001FRBNF42226398000000X003http://catalogue.bnf.fr/ark:/12148/cb42226398b010 $a978-2-603-01444-8$brel.100 $a20100624d2005 m y0frey50 ba1011 $afre102 $aFR105 $a||||z 00|||106 $ar2001 $aGuide des chenilles d'Europe$bTexte imprimé$eles chenilles de plus de 500 espèces de papillons sur 165 plantes hôtes$fD.J. Carter$g[ill.] B. Hargreaves 210 $aParis$cDelachaux et Niestlé$dDL 2005215 $a1 vol. (311 p.)$cill.$d20 cm2252 $aˆLes ‰guides du naturaliste300 $aBibliogr. p. 301-303410 0$034235813$tˆLes ‰Guides du naturaliste$x1022-2707$d2005454 1$tField guide to caterpillars of butterflies and moths in Britain and Europe606 $312000511$aChenilles$311931301$yEurope$311975688$xGuides pratiques et mémentos$2rameau676 $a595.781 39$v22700 1$312013664$aCarter$bDavid$f1943-....$4070702 1$312367696$aHargreaves$bBrian$4440801 0$aFR$bFR-751131015$c20100624$gAFNOR$2intermrc
http://catalogue.bnf.fr/ark:/12148/cb12367696d
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
Des URI pour désigner les ressources
http://catalogue.bnf.fr/ark:/12148/cb42226398b
Guide des chenilles d'Europe / D.J. Carter ; [ill.] B. Hargreaves. - Paris : Delachaux et Niestlé, DL 2005
Carter, David (1943-....)
http://catalogue.bnf.fr/ark:/12148/cb120136648
http://catalogue.bnf.fr/ark:/12148/cb34235813n
Les Guides du naturaliste
Hargreaves, Brian
http://catalogue.bnf.fr/ark:/12148/cb12367696d
Des vocabulaires normalisés
pour exprimer les relations entre les données
2001 $aGuide des chenilles d'Europe
700 1$312013664$aCarter$bDavid$f1943-.... $4070
200 $a Titre propre
700 $4070 Auteur du texteDC : Creator RDA : Creator
DC : Title ISBD : Title properRDA : Title proper
RDA : Author
Des URI pour exprimer les relations
Des URI pour exprimer les relations
ISBD : has title proper
DC : Creator
DC : Title
RDA : Authorhttp://rdvocab.info/roles/author
http://purl.org/dc/elements/1.1/title
http://purl.org/dc/elements/1.1/creator
http://iflastandards.info/ns/isbd/elements/P1004
RDA : Title proper http://rdvocab.info/Elements/titleProper
Une syntaxe normalisée
Cet ouvrage
"Guide des chenilles d'Europe"a pour titre propre
sujet
verbecomplément d’objet
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://iflastandards.info/ns/isbd/elements/P1004
prédicat
objet
sujet
Le sujet est toujours une URI
Le prédicat est toujours une URI
L’objet peut êtreun texte (« littéral »)ou une URI
2001 $aGuide des chenilles d'Europe
Un réseau de relations entre des données
http://catalogue.bnf.fr/ark:/12148/cb42226398b
"Guide des chenilles d’Europe"
http://catalogue.bnf.fr/ark:/12148/cb34235813n
http://catalogue.bnf.fr/ark:/12148/cb120136648
"Carter"
"David"
1943
"Les Guides du naturaliste"
http://data.bnf.fr/what-happened/date-1943
http://iflastandards.info/ns/isbd/elements/P1004
A pour titre propre
http://rdvocab.info/RDARelationshipsWEMI/containedInManifestation
Appartient à
http://iflastandards.info/ns/isbd/elements/P1033 A pour titre clé
http://xmlns.com/foaf/0.1/familyName A pour patronyme
http://xmlns.com/foaf/0.1/givenName A pour prénom
http://rdvocab.info/ElementsGr2/dateOfBirth
A pour date de naissance
http://rdvocab.info/roles/author
A pour auteur
Pour aller vers le Web de données
Vers le web de données Vers le web sémantique
3 avril 2012 -- Bordeaux -- Urfist/Médiaquitaine Philippe Le Pape -- ABES
Consti
tué
d’élém
ents d
e
donnée
s liés
les
uns au
x autr
es
Les données portent en elles leur identification et leur fonction (leur « sens »), selon une syntaxe lisible par les « machines du web »
À condition d’utiliser les standards du web
C’est très bien tout ça mais…Quel rapport avec la bibliothèque, le
catalogue, le catalogage ?
29
Zoom sur Le lecteur
30
Les bibliothèques dans le Web de données aujourd’hui
Que peut nous apporter le Web de données ?
• Relier les catalogues des bibliothèques avec d’autres données existantes
• Ouverture à d’autres communautés (libraires, éditeurs, …)
• Navigation par les utilisateurs sans avoir à connaître les formats des bases de données et les langages de requête spécifiques
• Plus de visibilité par les moteurs de recherche• Tirer parti des données structurées des catalogue
et des référentiels• Interopérabilité = Souplesse pour la réutilisation
des données
Des exemples
Isidore : http://www.rechercheisidore.fr Plateforme de recherche permettant l’accès
aux données numériques des sciences humaines et sociales
Données en accès libre (open access) Moissonnage ciblé des métadonnées et
données scientifiques structurées Enrichissement des métadonnées selon les
principes du Web de données
Des exemples
Data.bnf.fr : http://data.bnf.fr Fiches descriptives des auteurs et des oeuvres Possibilité de télécharger le RDF associé à la fiche
descriptive
VIAF (Virtual International Authority File)
http://viaf.org/
Valoriser les fichiers d'autorité des bibliothèques (visibilité et liens entre les données)
Rationnaliser la gestion des fichiers d’autorités
Y aller … avec les bons outils
Pour utiliser la boîte à outils du Web sémantique, il faut, nous l’avons vu :
Identifier les données
Construire un réseau de relations entre ces données
Pour savoir si vous avez suivi :
« De quel outil disposons-nous pour analyser les relations entre les données au sein des
catalogues de bibliothèques ? »
Tous les chemins mènent à…Organisation de
l’information bibliographique :
ISBD
F R B RF R B R
Web de Web de données !données !
Formats d’encodage
MARC
Format Format compatible compatible
RDF RDF (BIBFRAME ?)(BIBFRAME ?)
Web de Web de données !données !
Normes de catalogage
AACR
Afnor
REICAT
Etc…
R D A ?R D A ?
Web de Web de données !données !