Download - Métadonnées de thèse
2
Plan
Introduction – de quoi parle-t-on ? Des métadonnées dans tous les états TEF Identifiants IdRef RDF Les métadonnées dans les thèses
3
INTRODUCTIONDe quoi parle-t-on ?
4
Introduction
De quoi parle-t-on ?
• Métadonnées = ?• Thèse = ?
5
Métadonnées = ?
• Information structurée et réutilisable sur (…)
• Exemples– Une page de titre papier est structurée, mais n’est
pas réutilisable– Une notice MARC = un ensemble de
métadonnées
6
• Cette thèse a pour directeur Untel
7
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire
8
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire• Qui a un partenariat avec telle entreprise
9
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’
10
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
11
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue
12
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’
13
• Cette thèse a pour directeur Untel• Qui appartient à tel laboratoire • Qui a un partenariat avec telle entreprise
• Qui a un partenariat avec tel laboratoire’• Qui est dirigé par tel chercheur’
• Qui appartient au comité de telle revue• Qui a publié tel chercheur’’
• Etc.
Où s’arrêter ?
14
Métadonnées
Où s’arrêter ?• La notice n’est pas la frontière• La base de données n’est pas la frontière• Le Web est la frontière
Web de données (RDF) cf. + loin
• Modèle du graphe• Des réseaux qui peuvent s’étendre et s’interconnecter à
l’infini• Des trajectoires directes ou non entre deux points• A travers les frontières ordinaires (langues, administratives,
normes…)
15
16
Les métadonnées de thèse,c’est…
• toute information structurée …• … qui concerne de près ou de loin la thèse
» peu importe la structure» peu importe le format» peut importe le type d’entité dont on parle :
• Document• Personne• Organisme• Concept
17
Thèse = ?
• En apparence, c’est un objet précis• En fait, différentes entités derrière le mot
« Thèse »» Et chacune a ses propres métadonnées
18
http://thesedemerde.fr
19
• Thèse comme Texte (« rédaction »)• Thèse comme Edition (« quatre fois plus de
pages »)
20
• Thèse comme Œuvre • Thèse comme Texte (« version »)• Thèse comme Edition/Format (« manuscrit »)
21
• Thèse comme Période, Processus administratif (« moitié »)
22
• Thèse comme Diplôme (« inscription »)
23
LES MÉTADONNÉES DE THÈSE DANS TOUS LES ÉTATS
Circulation et recyclage
24
• Différentes phases• Différents formats• Circulation & recyclage• Pas de multiple saisie
25
Où sont les métadonnées ? Sous quelle forme ?
Applications de gestion (APOGEE) Bases de données
Bureautique Excel
Exports d’applications CSV
Web services d’application (APOGEE) XML
Processus d’échange avec STAR TEF
Catalogage MARC
Diffusion du document HTML HTML (page de titre)
Diffusion du document PDF Métadonnées embarquées XML
Page Web de présentation HTML
Moteurs de recherche ?
Serveurs OAI-PMH XML (différents vocabulaires XML)
… …
26
• Il n’existe pas un format canonique pour les métadonnées de thèse
• Il n’existe pas un état de complétude (géométrie variable, selon contexte)
• Il n’existe pas qu’un circuit linéaire (workflow à la carte)
• Mais il existe des conditions favorables à la circulation et au recyclage des métadonnées
27
Conditions favorables
• Information la plus découpée possible » nom et prénom séparés
• Information la plus homogène possible» Peu importe la structure des dates, mais ne pas varier
• Information la plus précise possible» Pas de majuscules non ACCENTUEES !» Utiliser des listes fermées (diplômes, disciplines..)» Garder le maximum de précision et de richesse au fil des
conversions
• Avoir des outils qui permettent de maîtriser les flux entrants et sortants
• Disposer de compétences XSLT
28
TEFUne forme parmi d’autres pour les métadonnées de thèse
29
TEF
• Format XML• Pour les thèses numériques natives• Recommandation AFNOR (2006) ?
<chut>Obligation ABES</chut>» TEF, fait sur mesure pour STAR» Pour répondre aux missions de STAR» Format d’import de STAR
30
Missions de STAR > Aspects de TEF
• Signalement Sudoc• TEF : méta biblio, autorités…
• Archivage pérenne• TEF : gestion d’éditions différentes, avec métadonnées de
fichiers associées
• Respect du droit de la PI et des restrictions de diffusion
• TEF : gestion fine des droits
• Respect de la validation Jury• TEF : différentes versions possibles
31
32
TEF et les FRBR
• FRBR : modélisation de l’information bibliographique par l’iFLA (1998)
• Clarification conceptuelle– A chaque niveau ses métadonnées• Œuvre• Expression (= Version selon TEF)• Manifestation (= Edition selon TEF)• Exemplaire (Pas dans TEF)
33
Le cas simple
34
Un cas plus complexe
35
Un autre cas plus
complexe
36
Générer du TEF pour importer dans STAR
• Partir de n’importe quelles données structurées
• Convertir en TEF, complet ou non» STAR : pas tout ou rien
37
IDENTIFIANTS
38
http://www.theses.fr/2009TOUR3802
• URL pérenne de la description HTML de la thèse comme œuvre
• Point de départ vers documents, métadonnées, ressources liées…
39
http://www.theses.fr/2009TOUR3802/document
• URL pérenne de document (s)• Renvoie vers une des éditions sur un des
serveurs de diffusion• Selon un ordre défini
• Action : Get it !
40
http://www.theses.fr/2009TOUR3802/id
• Identifiant de la thèse comme œuvre• Aujourd’hui pur identifiant pour le RDF• Demain, identifiant et URL
• Même si l’œuvre n’est pas un document accessible sur le Web. Seules ses éditions (manifestations) y sont.
41
• Avec le portail des thèses (2011) :– http://www.theses.fr/2009TOUR3802.rdf– http://www.theses.fr/2009TOUR3802.xml– http://www.theses.fr/2009TOUR3802/dc.xml– http://www.theses.fr/2009TOUR3802/marc.xml– …
43
Besoin de référentiels
• Identifier les personnes, organismes, concepts…
• Autorités Sudoc >> IdRef
• D’autres entités > d’autres référentiels• Laboratoires ?• Entreprises ?• Contrat CIFRE ?• Projets ANR ?
44
IdRef
• Nouvelle application ABES (octobre 2010)• Objectifs :– Interroger, modifier, créer les autorités Sudoc• À partir du site Web www.idref.fr• A partir d’une autre application « branchée » sur IdRef
» STAR (oct. 2010), Calames (aujourd’hui !), ORI-OAI (2011) et d’autres applications de l’ens. sup. & rech. fr.
45
46
Politique des URL
• http://www.idref.fr/026690276» URL des métadonnées de la personne (HTML ou RDF)
• http://www.idref.fr/026690276/id» URL de la personne» Redirige (303) vers les métadonnées
• http://www.idref.fr/026690276.rdf» URL des métadonnées RDF de la personne
• http://www.idref.fr/026690276.html» URL des métadonnées HTML de la personne
• http://www.idref.fr/026690276.xml» URL des métadonnées UNIMARC/XML de la personne
47
Prière
Faîtes le maximum de liens vers des référentiels et leurs identifiants !
» Membres du jury» Entreprises» Entreprises» Projets ANR
Le Web vous le rendra…
48
VERS UN WEB DE MÉTADONNÉESRDF
49
RDF
• Standard W3C• Existe depuis 1998, mais décolle aujourd’hui
• Resource Description Framework• Cadre général pour décrire n’importe quoi
» Tout peut être « resource » à décrire
• RDF, modèle universel pour intégrer toute information au Web de données
50
http://www.theses.fr/2009TOUR3802/iddcterms:creatorhttp://www.idref.fr/142976903/id
Cette thèse …… a pour auteur …… untel.
51
http://www.theses.fr/2009TOUR3802/idhttp://purl.org/dc/terms/creatorhttp://www.idref.fr/142976903/id
La relation creator est également identifiée par une URL
52
Démo
53
Comment publier ses métadonnées en RDF ?
• Mettre du RDF dans ses pages HTML» RDFa (RDF dans les attributs HTML)» Calames» Thèses de STAR :
www.theses.fr/{Numéro_national_de_Thèse}
• Publier un document RDF à part– RDF en XML (ou autre format)– Autorités Sudoc dans IdRef
54
Et si je veux voir ce RDF ?
- Mais le RDF est pour les machines !- Mais je veux voir !
Outils• Tabulator : naviguer dans le RDF• Operator : extraire le RDF du HTML+RDFa• Sindice Inspector : analyser et valider le RDF• RDFa distiller : extraire et valider le RDFa
55
Nos métadonnées et les moteurs
• Google» Rich snippets» RDFa à la Google pour Google» Pas possible de parler de thèses, de documents» Mais on peut parler de personnes, d’entreprises, de produits…
• Sindice» Moteur spécialisé dans les données sémantiques
• Les moteurs explorent, moissonnent• De plus en plus vont agréger et faire raisonner nos métadonnées• Seulement le début…
56
Diffuser les métadonnées sur le Web de données, c’est …
• Valoriser les thèses• Valoriser les personnes et les organismes liées
aux thèses• Enrichir nos propres métadonnées• Enrichir les métadonnées des autres• Découvrir de nouveaux usages et utilisateurs
de nos données• Publier à la cantonade ≠ échanger entre partenaires
57
LES MÉTADONNÉES DANS LA THÈSE
58
Les métadonnées dans la thèse
• La thèse contient des informations structurées• Page de titre• Table des matières• Autres tables• Plan de la thèse• Bibliographie
• Ces métadonnées ne sont – pas explicites– pas caractérisées de manière sémantique
59
Les métadonnées dans la thèse
• La thèse contient des informations précises mais non structurées de manière sémantique :
= la prose scientifique
• RDFa montre la possibilité de truffer la prose de métadonnées
– Au moins, structurer le résumé en RDF ?
60
61
Quels outils pour une écriture sémantique ?
• Styles Word ?» Mais pour baliser le sens, pas la forme !
• Plugin Bureautique ?» Ex : Word Add-in For Ontology Recognition» Ex: Extension sémantique pour Open Office
• Editeur HTML 5 ?» Microdata
• Rival de RDFa