Structurer, relier et diffuser des données avec les technologies du
web sémantique :l'exemple d'un référentiel sur les monuments du Caire
Lundis numériques de l’INHA ‐ 11 mai 2015
Pierre MOUNIER (InVisu USR 3103 CNRS/INHA)Emmanuelle PERRIN (InVisu USR 3103 CNRS/INHA)
Cour de la mosquée Touloun Vue de la cour de la mosquée Teyloun
Mosquée El Tulun Le Caire, cour d’une mosquée
Touloun : 13 résultatsTulun : 24 résultatsTeyloun : 4 résultats
Touloun : 21 résultatsTulun : 7 résultatsTeyloun : aucun résultat
Numéro d’inventaire
nom en arabe
translittérations normalisées
forme courante en français
typologielocalisation
commanditaire
variantes
liens
L’organisation et la structuration des données
Liste de monuments variantes des noms des monuments et sources
Typologie architecturale variantes des types de monuments et sources
Relation générique‐spécifiqueou classe‐instance
L’organisation et la structuration des données
Le modèle RDF (Resource Description Framework)
langage de base du web sémantique pour la description des ressources
Les URI (Uniform Resource Identifier) : des ressources identifiées par des URIhttp://data.bnf.fr/ark:/12148/cb15908819z
La distinction entre le concept et le terme
mosquée
" جامع "
" mosquée"
" mosque"
a pour appellation en arabe
a pour appellation en français
a pour appellation en anglais
concept
terme
Les principaux éléments de SKOS
SKOS (Simple Knowledge Organization System) est une recommandation du W3C pour ladescription des thésaurus et des vocabulaires contrôlés.
Les labels : skos: prefLabel : équivalent du terme vedette ou du descripteur dans un thésaurusskos:altLabel : équivalent des termes rejetés ou non descripteurs (employé pour) skos:hiddenLabel : peut être utilisé pour les pluriels ou les mots mal orthographiésles étiquettes de langue : la langue des termes est indiquée par le code ISO des languesL’extension SKOS‐XL (SKOS eXtension for Labels) permet d’apporter des informations supplémentaires sur les libellés
Les relations sémantiques : skos:broader : relation génériqueskos:narrower : relation spécifiqueskos:related : relation associative
Les définitions, notes d’applications et notes éditoriales :skos:definitionskos:scopeNoteskos:editorialNote
Les alignements : skos:exactMatch : équivalence exacteskos:closeMatch : équivalence inexacteskos:broadMatch : relation génériqueskos:narrowMatch : relation spécifiqueskos:relatedMatch : relation associative
Les liens avec des données de référence
les ressources de la BnF : http://data.bnf.fr/ LC Linked Data Service : http://id.loc.gov/ The Getty Vocabularies : http://vocab.getty.edu/ Le Fichier d'autorité international virtuel : https://viaf.org/ International Standard Name Identifier : http://www.isni.org/ La base de données géographiques GeoNames : http://www.geonames.org/ Ddpedia : http://wiki.dbpedia.org/
Listes de jeux de donnéeshttp://datahub.io/fr/datasethttp://www.w3.org/2005/Incubator/lld/XGR‐lld‐vocabdataset‐20111025/http://www.w3.org/2001/sw/wiki/SKOS/Datasets
http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62
جامع أحمد بن طولون
skos:prefLabel@ar
" mosquée ibn Tulun"
skos:prefLabel@fr" jāmi‘ Aḥmad ibn
Ṭūlūn"
skos:prefLabel@ALA
http://cairogazetteer.fr/invisu/resource/ark:/67717/d35049688efd41a
944d269a058233958
skos: altLabel@MUL
" mosquée d'Ahmed ibn Touloun"
skos:altLabel@MUL
source bibliographique
dc:source
http://cairogazetteer.fr/invisu/resource/ark:/67717/02bd9dfeaea4fabffd04571e19688842
source bibliographique
" mosque of Ahmad ibnTulun "
dc:sourceskos:altLabel@MUL
skos: altLabel@MUL
La modélisation SKOS : Les informations terminologiques" ğāmiʿ Aḥmad ibn Ṭūlūn"
skos:prefLabel@ISO
skos:Concept
http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62
La mosquée d'Ahmad ibn Tulun,gouverneur de l'Égypte de 868 à884, édifiée de 876 à 879 (AH263‐265 ), se trouve dans lequartier d'al‐Sayyida Zaynab(anciennement Qal'at al‐kabsh).Numéro d'inventaire : 220.Coordonnées géographiques :N 30°01′43″ E 31°14′59″
skos:skopeNote@fr
http://www.geonames.org/359824/as‐sayyidah‐zaynab.html
skos:relatedMatch
http://cairogazetteer.fr/invisu/resource/ark:/67717/c79e436c0a1d37528b2ecbd26b928723
skos: broader
skos:prefLabel@ar
skos:prefLabel@fr
skos:prefLabel@en
" ǧāmiʿ "
" jāmi‘ "
" gami' "
skos:prefLabel@ISO
skos:prefLabel@ALA
skos:altLabel@MUL
skos:relatedMatch
http://isni.org/isni/0000000116926412
http://www.geonames.org/7922805
skos: exactMatch
http://data.bnf.fr/ark:/12148/cb11953036m
http://id.loc.gov/authorities/subjects/sh850874
70
" جامع "
" mosquée "
" mosque "
skos: exactMatch
fondateur
quartier
typologie
localisation
" gâma’ "
http://vocab.getty.edu/aat/300007544
La modélisation SKOS : les relations génériques et associatives
skos:altLabel@MUL
Les outils de gestion et de diffusion
Openthesohttp://opentheso.frantiq.fr/opentheso/
IQvochttp://iqvoc.net/
G inco + G inco-diffhttps://github.com /culturecommunication/ginco
https://github.com/culturecommunication/ginco-diff
De la source à la diffusion
OpenRefine
GINCOGINCODIFF
.xml.xls .skos
Openrefine .xls → .xml( Concept et terme )
skos:Concept skos:prefLabel@fr
monuments/5 mosquée ibn Tulun
<concepts> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62</identifier> <created>2015-02-05T14:36:54+01:00</created> <modified>2015-02-05T14:36:54+01:00</modified> <status>1</status> <topConcept>false</topConcept></concepts>
<terms> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/5d03278a4b5a1bbb1a7ea2c9ca984d6d</identifier> <lexicalValue>mosquée ibn Tulunmosquée ibn Tulun</lexicalValue> <created>2015-02-05T14:36:54+01:00</created> <modified>2015-02-05T14:36:54+01:00</modified> <prefered>true</prefered> <hidden>false</hidden> <status>1</status> <concept> <identifier>http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62</identifier> <created>2015-02-19T12:02:07.207+01:00</created> <date>2015-02-19T12:02:07.209+01:00</date> <status>1</status> <topConcept>true</topConcept> </concept> <language> <id>ar</id> <part1>ar</part1> <principalLanguage>true</principalLanguage> <refname>Arabe</refname> <topLanguage>true</topLanguage> </language></terms>
Templating
Openrefine .xls → .xml( Autres données )
skos:broaderskos:related
skos:relatedMatchskos:exactMatchskos:closeMatch
skos:scopeNote
<hierarchicalRelationship/><associativeRelationship/>
<alignments/>
<conceptNotes/>
Templating
Templating
Templating
Openrefine
( Templating )
Ginco ( Interface )
Ginco ( Export .xml )
<skos:Concept rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/f44b12a6728e158676be6fddebf07f62 "><skos:prefLabel xml:lang="fr-FR">mosquée ibn Tulun</skos:prefLabel>
<skos:altLabel xml:lang="ALA">jāmi‘ Ibn Ṭūlūn</skos:altLabel> <xl:altLabel> <iso-thes:SimpleNonPreferredTerm
rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/2ee341cba2ac22be94433ea04f70db5d"/> </xl:altLabel> <skos:broader> <skos:Concept rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/c79e436c0a1d37528b2ecbd26b928723"/> </skos:broader>
<skos:relatedMatch rdf:resource="http://vocab.getty.edu/aat/300021806"/></skos:Concept>
<iso-thes:SimpleNonPreferredTerm rdf:about="http://cairogazetteer.fr/invisu/resource/ark:/67717/2ee341cba2ac22be94433ea04f70db5d">
<dc:source>http://www.loc.gov/catdir/cpso/romanization/arabic.pdf</dc:source> <iso-thes:status>1</iso-thes:status> <xl:literalForm xml:lang="ALA">jāmi‘ Ibn Ṭūlūn</xl:literalForm> <dct:modified>2015-04-08T12:13:25+02:00</dct:modified> <dct:created>2015-02-05T14:36:54+01:00</dct:created></iso-thes:SimpleNonPreferredTerm>
Ginco-Diff ( Outil de diffusion )
Skos Play( Outil de diffusion )
Pour conclure
référentiel
outils
données
Utilisation de SKOS
La modélisation des données entraîne leursimplification. Les notes d’applicationcontiennent des données non typées(coordonnées géographiques, date deconstruction).
Les outils de diffusion ne sont pas au niveau desoutils de gestion et occasionnent une perted’information.
Utilisation de Ginco
Un outil fonctionnel, institutionnel et maintenu.Il a pu répondre à nos principales demandes : extension SKOS‐XL pour indiquer les sources des variantes paramétrage de langues virtuelles pour la translittération
Les problèmes de doublons
Doublons entre les termes préférentielsdistinction par la translittérationمسجد mosquée (masǧid) mosque (masjid)جامع mosquée (ǧāmiʿ) mosque (jāmi‘)فندق caravansérail (funduq) caravanserai (funduq)وكالة caravansérail (wikālaẗ) caravanserai (wikālah)
Doublon entre le type et le nom d’un monumentdistinction par la mention (architecture) pour les types de monumentsNilomètre (architecture) / Nilomètre
Doublon entre les noms des monumentsdistinction par la mention du quartier caravansérail Qaytbay (al‐Gamaliyya)caravansérail Qaytbay (al‐Darb al‐ahmar)
Doublon entre les variantesdistinction par le numéro du monument
Okâla du sultan Kâïtbâï [75]Okâla du sultan Kâïtbâï [9]