sudoc, calames, theses.fr et le web de données atelier jabes2011

56
Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Upload: noe-courtois

Post on 04-Apr-2015

116 views

Category:

Documents


3 download

TRANSCRIPT

Page 1: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Sudoc, Calames, theses.fret le Web de données

Atelier JABES2011

Page 2: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Vers le Web de donnéesApplication Lancement Format RDF Données à jour Richesse des liens

Calames 2008 RDFa Oui +

theses.fr 2010 RDFa + RDF/XML2011 Oui +

IdRef 2010 RDF/XML + RDFa2011 Oui ++

Sudoc 2011 RDF/XML2011 Oui +++

Page 3: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Il faut participer au Web de données [Acquis]

Page 4: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Objectifs de l’atelier

• Faire un bilan d’étape• Montrer les données• Justifier certains choix• Expliquer comment ça marche• Manipuler quelques outils simples• Esquisser la suite du travail à mener– Nous– Vous

Page 5: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Partons du connu

Page 6: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 7: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

S’agit-il de données RDF ou d’une simple notice Dublin Core ?

Page 9: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

about• En RDF, il faut expliciter de quoi on parle en

l’identifiant par une URL : http://www.sudoc.fr/013041932/id

• http://www.sudoc.fr/013041932/id est l’identifiant du document décrit

• http://www.sudoc.fr/013041932/id est décrit à cette page-là http://www.sudoc.fr/013041932

Page 10: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

triplets• En RDF, tout est décomposé en triplets

• Chaque triplet est indépendant• Chaque triplet pourrait être stocké séparément

Pas de notice finie Une autre source peut la compléter, si elle parle de la même

chose : http://www.sudoc.fr/013041932/id Interopérabilité. Extensibilité.

Page 11: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Identifier la langue avec le référentiel Lexvo

Page 12: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 13: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Mettre en relation un document et une langue

• La langue n’est pas un code (‘fre’)• La langue est une entité à part entière– Avec son propre identifiant

http://lexvo.org/id/iso639-3/fra – et ses propres propriétés

• La propriété dcterms:language met en relation deux entités

Page 14: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

http://www.lexvo.org/id/iso639-3/fra décrite en HTML

Page 15: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

http://www.lexvo.org/id/iso639-3/fra décrite en RDF

Page 16: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

De fil en aiguille

• La description de la langue poursuit la description du document Sudoc

• Où s’arrêter ?• C’est sans fin• C’est le Web de données

Page 17: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Identifier les personnes avec IdRef

Page 18: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 19: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

IdRef, fournisseur d’identifiants et de référentiels

Page 20: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

IDREF Autorités

Sudoc

IDREF Autorités

Sudoc

Sudoc et IdRef

SudocSudoc

Page 21: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Autorités Sudoc

Autorités Sudoc

Les autorités Sudoc,pivot du Linked data ABES

theses.frtheses.fr

CalamesCalames

SudocSudocThèses soutenuesetThèses en cours (2011)

Page 22: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

RDFa de Calames

• Pas de page RDF/XML• Le RDF est caché dans le HTML de

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

Pour révéler le RDF caché ,utiliser un outil comme

Page 23: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

RDFa de Calames

http://www.calames.abes.fr/pub/ms/Calames-2010914119419211

Page 24: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

RDFa de theses.fr

• Pas encore de page RDF/XML• Le RDF est caché dans le HTML de

http://www.theses.fr/2009TOUR3802

Pour révéler le RDF caché ,utiliser un outil comme

Page 25: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Les thèsesportant sur les correspondants de Goethe

PREFIX foaf: <http://xmlns.com/foaf/0.1/>PREFIX dc: <http://purl.org/dc/elements/1.1/>PREFIX ead: <info:ms#>PREFIX tef: <http://www.abes.fr/abes/documents/tef/>

SELECT ?these{?ms dc:creator <http://www.abes.fr/su/res/026895528>.?ms ead:destinataire ?destinataire.?these a tef:Thesis.?these dc:subject ?destinataire}

La requête exploite les données Calames et STAR

Page 26: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Lier les données à IdRef, au-delà de l’ABES

Page 27: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Autorités Sudoc

Autorités Sudoc

Linked data IST.fr ?

theses.frtheses.fr

CalamesCalames

SudocSudocThèses soutenuesetThèses en cours ( 2011)

HAL ?HAL ?

revues.org ?

revues.org ?

Persée ?Persée ?

Presses univ. de Y ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

Plateforme pédagogiq.

?

??

Page 28: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

IdRef comme nœud régional

• Positionnement d’IdRef : IST français• En complémentarité avec d’autres

fournisseurs d’identifiants et de référentiels :– Local : identifiants propres à une application, à un

annuaire– Régional : BnF, auteurs HAL, CERL, DAI (NL)– Global : VIAF, DBpedia

Page 29: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Autorités Sudoc

Autorités Sudoc

theses.frtheses.fr

CalamesCalames

SudocSudoc

HAL ?HAL ?

revues.org ?

revues.org ?

Persée ?Persée ?

Presses univ. de Y ?

Presses univ. de Y ?

Plateforme pédagogiq.

?

Plateforme pédagogiq.

?

Autorités BnF

Autorités BnFDBpediaDBpedia

VIAFVIAF

Page 30: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Lier les données de l’IST entre elles, au-delà d’IdRef

Page 31: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Autorités Sudoc

Autorités Sudoc

Linked data IST.fr ? Les labos !

theses.frtheses.fr

CalamesCalames

SudocSudoc

HALHAL

revues.org

revues.org

PerséePersée

Presses univ. de YPresses

univ. de Y

Plateforme pédagogiqu

e X

Plateforme pédagogiqu

e X

??

Référentiel des

laboratoires

Référentiel des

laboratoires

Page 32: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Autorités Sudoc

Autorités Sudoc

Linked data IST.fr ? Les affiliations

theses.frtheses.fr

CalamesCalames

SudocSudoc

HALHAL

revues.org

revues.org

PerséePersée

Presses univ.s de Y

Presses univ.s de Y

Plateforme pédagogiqu

e X

Plateforme pédagogiqu

e X

PRISMES (AMUE) locaux

PRISMES (AMUE) locaux

Référentiel des

laboratoires

Référentiel des

laboratoires

Page 33: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

On parle de la même chose

• owl:sameAs

Page 34: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Identifier et nommer les personnes avec IdRef

Page 35: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 36: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Identifier les concepts avec IdRef et RAMEAU

Page 37: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 38: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

IdRef et Rameau

• Identifiants IdRef pour Rameau• A lier aux identifiants canoniques, ceux du

centre national Rameau (BnF) quand ils seront officiellement publiés.

• MeSH• Dewey

Page 39: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Préciser le rôle des agents avec les MARC Relators

Page 40: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 41: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 42: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

L’embarras du choix ?

• dcterms:creator• dcterms:contributor• marcrel:aut• rda:authorWork• tef:auteur ?

Page 43: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Qui utilise explicitement marcrel:aut utilise implicitement dc:contributor

Page 44: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

RaisonnementLe Sudoc dit :http://www.sudoc.fr/012367206/id marcrel:aut http://www.idref.fr/ 026975262 /id

La Bibliothèque du Congrès dit (ici) :Marcrel:aut rdfs:subPropertyOf dc:contributor

Un outil de raisonnement pourra en déduire que :http://www.sudoc.fr/012367206/id dc:contributor http://www.idref.fr/ 026975262 /id

Page 45: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Qui utilise marcrel:aut peut également tef:auteur,

malgré la redondance apparente

Page 46: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

tef:auteur

• Ne semble rien dire de plus que marcrel:aut• Mais possède une propriété intéressante :

C’est une propriété fonctionnelle=

Une thèse ne peut avoir qu’un auteur=

si une thèse a deux auteurs, c’est deux fois le même !

Page 47: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

RaisonnementQuelqu’un dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.idref.fr/035200898/id

Quelqu’un d’autre dit :http://www.sudoc.fr/012367206/id tef:auteur http://www.viaf.org/123456789

Une ontologie TEF dit :http://www.abes.fr/tef/auteur rdf:type owl:ObjectProperty owl:FunctionalProperty(une thèse ne peut avoir qu’1 auteur, au sens de tef:auteur)(mais elle peut avoir 2 dc:creator)

Un outil de raisonnement pourra en déduire que :http://www.idref.fr/035200898/id owl:sameAs http://www.viaf.org/123456789

Page 48: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

DÉMO

Fichier (fusion des triplets RDF) : http://193.52.69.127/xml/rdf/sperber_turtle.txt

Outils de raisonnement :http://www.ivan-herman.net/Misc/2008/owlrl/ http://inspector.sindice.com

Page 49: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Raisonnement

• RDF, c’est de la logique• Travaux en cours avec le LIRMM pour ADONIS sur

les données Persée• Oblige à qualité des données et rigueur de la

modélisation• Sinon : on génère n’importe quoi !

• Usages :– Enrichir les données– Expliciter les données– Mettre au jour des incohérences

Page 50: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Page RDF complète

Page 51: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011
Page 52: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Une pincée de RDA et de FRBR

Page 53: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

CONCLUSION

Page 54: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Convertir en RDF

• Aussi indéterminé que « convertir en Excel » !

Quelle modélisation ?Quels vocabulaires réutiliser ?Forger son propre vocabulaire ?Nos données historiques sont-elles éligibles à

ces nouvelles modélisations ?» cf. notre dc:format et notre dc:publisher

Page 55: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

Trois lièvres à la fois

Priorité Objectif Vocabulaires

Parler à la cantonade Interopérabilité générale dc, foaf

Modéliser de manière exhaustive nos données métier

Se passer de MARC rda, isbd, frbr

Faire raisonner les données Tirer le maximum des donnéesContrôler leur qualitéAide au catalogage

ad hoc si nécessaire

Page 56: Sudoc, Calames, theses.fr et le Web de données Atelier JABES2011

La suite• Enrichir encore les conversions en RDF• Multiplier si nécessaire les vocabulaires

employés, sans craindre les redondances• Ajouter des liens internes et externes (IST

française, BnF, OCLC, Dbpedia, Freebase, etc.)• Encourager les partenaires à diffuser leurs

données en RDF, en s’appuyant sur des référentiels communs (IdRef)

• Continuer à exploiter ces données en RDF avec le LIRMM et d’autres