au dela des autorites du sudoc
DESCRIPTION
L'utilisation des autorités du Sudoc au delà du SudocTRANSCRIPT
Des autorités aux autorités enrichies :vers une liaison automatique sémantiquement
contrôlée aux autorités Sudoc
Collaboration Abes/Lirmm dans le cadre du TGE Adonis
Jabes 2010
Equipe Projet
• Equipe de recherche Graphik du LIRMM– Equipe de recherche en informatique (UM2, CNRS, INRIA)– Domaine : Représentation des connaissances et les raisonnements
(branche de l’intelligence artificielle) – Spécificité : approche « réseau sémantique »– Collaboration avec l’ABES : Michel Chein, Michel Leclère
• ABES– Christophe Bonnefond– Yann Nicolas– Olivier Rousseaux
Contexte de la collaboration :
• Appel à projets Adonis :
plate-forme d’accès unifié aux données• Verrous technologiques et scientifiques
– Unification des formats des méta-données => utilisation de RDF(S)
– Unification des vocabulaires de description des méta-données
• Classes et Propriétés => Définition d’ontologies• Entités individuelles => Pb de l’identification d’entité
Présentation• Objectif général : Identifier des co-références à la même entité individuelle dans
deux notices bibliographiques• Reconnaître dans différentes notices bibliographiques des réfèrences au même
document, même auteur, même sujet…
• Principe général : Utiliser la base d’autorités du Sudoc comme standard de référencement de ces entités
– Reconnaître dans une notice des entités référencées dans la base d’autorités du Sudoc pour ajouter dans cette notice l’identifiant Sudoc de cette entité : la liaison
• Objectif du projet : définir un service d’identification d’autorités
Autorités SudocEntités référencées
dans une notice
…
…
Autorités Sudoc
La liaison aux autorités :les différentes approches
• Liaison manuelle– Soit un « terme » et un « type d’autorité », on recherche dans les
formes retenues ou rejetées les autorités correspondantes– Pour chaque autorité, on propose les informations de la notice
d’autorités et des notices biblios liées– L’annotateur sélectionne l’autorité « la plus pertinente » ou décide
d’en créer une nouvelle
• Liaison automatique par mesures de proximité– Soit quelques attributs (ex. nom, prénom, dates pour les personnes)
sur l’autorité recherchée– Pour chaque autorité, une mesure de « proximité » aux attributs
correspondants de l’autorité est calculée– Le système sélectionne l’autorité « la plus proche » (avec seuil
minimal)
Approche « Connaissance »
Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle
• Représenter le SUDOC en RDF(S)• Construire une base d’autorités enrichies• Définir des opérateurs de liaison sémantique aux autorités
Définition d’une ontologie formelle pour les connaissances du Sudoc
• Fondée sur le modèle FRBRoo 1.0 (2009)
- Modélisation riche de l’univers bibliographique intégrant les modèles FRBR et CIDOC CRM
• Formalisée en RDFS• Etendue pour :
– Représenter des propriétés spécifiques sous-propriétés de propriétés FRBRoo
– Séparer les entités conceptuelles des données les référençant
• Un titre vs. une chaîne de caractères lue sur la couverture
– Représenter des propriétés associées aux notices (date,
origine, sources…) en plus de celles associées aux entités
Transformation des notices Unimarc en annotation RDF : exemple d’autorité Personne
• Fiche Sudoc « brute » support à l’indexation001A $0751062103:02-12-04
001B $0751062103:02-12-04$t11:43:29.000
001D $0751062103:02-12-04
001U $0utf8
001X $00
002@ $0Tp5
003@ $0XXXXXX36
010@ $S##$afre
012C $S##$a0$b1$c0
012E $S##$ab
019@ $S##$aFR
028A $S#1$40y$dChristian$aBernard
037F $S##$aDessinateur de bandes dessinées
047M $S##$aHépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003
• Fiche Sudoc interprétable par un utilisateurNo notice : XXXXXX36 Vedette Nom de personne
Forme retenue : Bernard, Christian Forme savante ou à valeur internationale
Pays : France
Langues : français
Notes : Dessinateur de bandes dessinées
Sources : Hépatite virale C ; ça craint ! / Dr Léo Py, Christian Bernard, 2003
• Annotation sémantique support aux raisonnements(vision simplifiée RDF)
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : fr
Notes
langue
«Dessinateur… »
« Hépatite… / Dr. Léo Py, Christian Bernard»
Sources
Pays : FRpays
Approche « Connaissance »
Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle
• Représenter le SUDOC en RDF• Construire une base d’autorités enrichies
• Explicitant les connaissances présentes dans les notices d’autorité• Les enrichissant par des inférences exploitant les liens aux notices
bibliographiques
5. Définir des opérateurs de liaison sémantique aux autorités
Les outils de l’enrichissement
• Règles d’inférencesSi connaissance observée alors ajouter nouvelle connaissance
– Exemple
• Fusion des entités liées à la même autorité– Deux entités de même type repérées par le même
identifiant sont identiques
Manifestation :Personne:
thématique
sujet Matière :responsable
Une notice d’autorité
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSava
nt
eLangue : fr
langue
Explicitation des connaissances internes à un attribut
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSava
nt
eLangue : fr
langue
Explicitation des connaissances internes à un attribut
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Intégration des connaissances bibliographiques
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Notice : 43 Manifestation :aPropos Langue : frlangue
titre
auteu
r
date
Personne:
Notice : 15
identifiéPar
2003
Personne:
Notice : 36
identifiéParillu
strateur
« Hépatite… / Dr. Léo Py, Christian Bernard»
sujet
Matière : Notice : 87identifiéPar
Fusion des entités
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Notice : 43 Manifestation :aPropos Langue : frlangue
titre
auteu
r
date
Personne:
Notice : 15
identifiéPar
2003
Personne:
Notice : 36
identifiéParillu
strateur
« Hépatite… / Dr. Léo Py, Christian Bernard»
sujet
Matière : Notice : 87identifiéPar
Fusion des entités
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Notice : 43 Manifestation :aPropos Langue : frlangue
titre
auteur
date
Personne:
Notice : 15
identifiéPar
2003
identifiéParillus
trat
eur
« Hépatite… / Dr. Léo Py, Christian Bernard»
sujet
Matière : Notice : 87identifiéPar
Enrichissement par inférences
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Notice : 43 Manifestation :aPropos Langue : frlangue
titre
auteur
date
Personne:
Notice : 15
identifiéPar
2003
identifiéParillus
trat
eur
« Hépatite… / Dr. Léo Py, Christian Bernard»
sujet
Matière : Notice : 87identifiéPar
Manifestation Personne
thématique
sujet Matière :responsable
Enrichissement par inférences
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Notice : 43 Manifestation :aPropos Langue : frlangue
titre
auteur
date
Personne:
Notice : 15
identifiéPar
2003
identifiéParillus
trat
eur
« Hépatite… / Dr. Léo Py, Christian Bernard»
sujet
Matière : Notice : 87identifiéPar
thématique
Manifestation Personne
thématique
sujet Matière :responsable
Obtention d’un autorité enrichie
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavant
e Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :Manifestation :
illustrateur
thém
atiq
ue
formeRetenue
« Hépatites»
form
eRejeté
e
« Hépatite»
« Foie -- Inflammation»
form
eRej
etée Personne :
co-auteur
« Léo»
nom
« Christian»
prénom
Approche « Connaissance »
Exploitation des informations présentes dans les notices bibliographiques du Sudoc par des méthodes de raisonnement issues de l’intelligence artificielle
• Représenter le SUDOC en RDF• Construire une base de descripteurs sémantiques des
autorités Sudoc• Définir des opérateurs de liaison sémantique aux autorités
1. Identification par raisonnement des attributs à comparer
2. Sélection des autorités par requêtage sur la base des descripteurs
3. Contrôle de la cohérence globale du rapprochement des attributs
Outil pour l’identification des attributs à comparer
• Définition d’un schéma de sélection par type d’autorité• Partie obligatoire : les connaissances pour lesquelles une
correspondance forte doit exister avec l’autorité enrichie• La partie obligatoire sélectionne des autorités candidates
• Partie additionnelle : les connaissances qui renforceront ou affaibliront les rapprochements aux autorités candidates
• La partie additionnelle permet d’ordonner les autorités candidates
• Exemple : schéma pour les personnes
Personne :
Langue :
languenom
prénom
Sujet :
Manifestation :rôlethématique forme
date
Liaison 1
Identification des attributs à comparer
• Enrichissement préalable de la nouvelle notice
Thèse :
directeur
«Modelisation… »
titre
auteur
Personne:
Matière :
sujet
«Artificial Intelligence»forme
« Petit»
nom
« Jean»
prénom
« Bernard»nom
« Christian»
prénom
thématique
thématique
Personne:
co-auteur
Liaison 1
Identification des attributs
Thèse :
directeur
«Modelisation… »
titre
auteu
rPersonne:
Personne:
Matière :
sujet
«Artificial Intelligence»forme
« Petit»
nom
« Jean»
prénom
« Bernard»nom
« Christian»prénom
thématique
thématique
co-auteur
• Appariement du schéma de sélection
Liaison 1
• Requête de sélection obtenue
Thèse :
directeur
«Modelisation… »
titre
auteu
rPersonne:
Personne:
Matière :
sujet
«Artificial Intelligence»forme
« Petit»
nom
« Jean»
prénom
« Bernard»nom
« Christian»prénom
thématique
thématique
co-auteur
Identification des attributs
• Appariement du schéma de sélection
Liaison 1
Personne:
« Bernard»nom
« Christian»prénomNotice : ?
aPropos
Thèse :
directeur
«Modelisation… »
titre
auteu
rPersonne:
Personne:
Matière :
sujet
«Artificial Intelligence»forme
« Petit»
nom
« Jean»
prénom
« Bernard»nom
« Christian»prénom
thématique
thématique
co-auteur
Identification des attributs
• Appariement du schéma de sélection
• Critère de classement obtenu
Liaison 1
Personne:
directeur
« Artificial Intelligence »
thématiqueMatière: forme
Thèse :
Notice : ? aPropos
Recherche des autorités candidates
• Recherche des notices qui satisfont la requête de sélection
Liaison 2
Personne:
« Bernard»nom
« Christian»prénomNotice : ?
aPropos
Recherche des autorités candidates
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Manifestation :
illus
trat
eur
thématiqueformeRetenue
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»
formeRejetée
Notice : 55 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Thèse :au
teur
thématiqueformeRetenue
«Intelliigence artificielle»
formeRejetée « Machines Intelligentes»
Liaison 2
Classement des autorités
• La partie additionnelle est utilisée comme critère de classement des autorités sélectionnés– On mesure le coût de la transformation de l’autorité
enrichie pour qu’elle satisfasse la partie additionnelle– L’utilisation de mesures de proximité entre données à
apparier permet d’affiner le classement
Notice : ? aPropos Personne:
directeur
« Artificial Intelligence »
thématiqueMatière: forme
Thèse :
Liaison 2
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Manifestation :
illus
trat
eur
thématiqueformeRetenue
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»formeRejetée
Notice : 55 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Thèse :au
teur
thématiqueformeRetenue
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Classement des autoritésLiaison 2
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Manifestation :
illus
trat
eur
thématiqueformeRetenue
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»formeRejetée
Notice : 55 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Thèse :au
teur
thématiqueformeRetenue
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Classement des autoritésLiaison 2
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Manifestation :
illus
trat
eur
thématiqueformeRetenue
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»formeRejetée
directeur
Thèse :
Notice : 55 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Thèse :au
teur
thématiqueformeRetenue
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
Liaison 2
Notice : 36 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Manifestation :
illus
trat
eur
thématiqueformeRetenue
« Hépatites»
formeRejetée « Hépatite»
« Foie -- Inflammation»formeRejetée
Notice : 55 Personne : aPropos
« Bernard, Christian »
formeRetenueSavante
Langue : frlangue
« Bernard»
nom« Christian»
prénom
Matière :
Thèse :au
teur
thématiqueformeRetenue
«Intelligence artificielle»
formeRejetée « Machines Intelligentes»
directeur
Thèse :
Le second est privilégié
Classement des autoritésLiaison 2
Contrôle de la cohérence des liaisons
• Utilisation de contraintes sur les relations entre autorités– Exemple : deux co-auteurs doivent avoir des dates, des langues…
cohérentes
• Sélection de combinaisons cohérentes d’autorités– En fonction des connaissances contenues dans les autorités enrichies
sélectionnées– Privilégiant les autorités les mieux classées
• Exemple :– Si
• «Jean Petit», [a11, a41, a35]• «Christian Bernard», [a55, a36]• (a11,a55) et (a41,a55) et (a41,a36) co-auteurs incohérents
– Renvoyer («Jean Petit»,«Christian Bernard»), [(a11, a36),(a35,a55),(a35,a36)]
Liaison 3
Travail en cours
• Poursuite du travail de formalisation et transformation des différentes notices
• Définition des règles d’enrichissement• Définition du schéma pour chaque type
d’autorité• Expérimentations pour affiner les critères de
rapprochement
Perspectives
• Définition de correspondances avec d’autres ontologies (Dublin Core, Bibo…) pour faciliter l’intégration de notices externes
• Introduire le service d’identification d’autorité lors du catalogage
• Extension à des procédures de gestion de la qualité des autorités– Suppression des doublons– Identification d’erreurs de liaison