![Page 1: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/1.jpg)
Isidore
Accès unifié aux données et documents numériques des sciences humaines et sociales
Valpré – 7 décembre 2010
![Page 2: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/2.jpg)
ENJEUX
![Page 3: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/3.jpg)
3
LE PROJET – LES ENJEUX
Enjeux stratégiques
Un point d’accès aux données numériquesdes SHS
Un socle : une infrastructure applicative
Un outil : des usages multiples
![Page 4: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/4.jpg)
4
LE PROJET – LES ENJEUX
Enjeux technologiques
Des besoins « forts » en traitement des données
Prendre en comptela diversité
Un outil industriel et évolutif
![Page 5: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/5.jpg)
5
LE PROJET – LES ENJEUX
Enjeux organisationnels
Une maîtrise d’œuvre plurielle publique-privée
Méthode agile
![Page 6: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/6.jpg)
6
MÉTHODE PROJET
Plateforme d’intégration Frontaux (proxy)Démonstrateur
Gestion des référentiels
Enrichissement des données
Moteur de recherche
Intégration et IHM
![Page 7: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/7.jpg)
UN PROJET CLASSIQUE ?
![Page 8: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/8.jpg)
8
PRINCIPE DU PROJET
Un projet classique en apparence
Collecter Traiter Diffuser
![Page 9: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/9.jpg)
9
VISION DE LA VALORISATION DE L’INFORMATION
Contenu
Texte …
Captation / Captation / ExtractionExtractionCaptation / Captation / ExtractionExtraction AnnotationAnnotationAnnotationAnnotation InférenceInférenceInférenceInférence
Bases Bases d’indexationd’indexation
Bases Bases d’indexationd’indexation
RDFRDFEndpoint SparQLEndpoint SparQL
RDFRDFEndpoint SparQLEndpoint SparQL
Publication
Publication
Publication
Publication
WebWeb
2.02.0
3.03.0xhtml+RDFaxhtml+RDFaLinked DataLinked Data
robotsrobots
![Page 10: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/10.jpg)
10
LES PARTICULARITÉS DU PROJET
Collecter des données hétérogènes primaires, secondaires annuaires, bases de données, référentiels
Points durs : diversité, volumétrie
Exploiter les métadonnéeset le texte intégral
![Page 11: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/11.jpg)
11
LES PARTICULARITÉS DU PROJET
Traiter
Normaliser les données
(qualité, forme, alignement)
Enrichir(classification, URI pérenne, vignettes,
extraction…)
![Page 12: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/12.jpg)
12
LES PARTICULARITÉS DU PROJET
Diffuser avec le moteur de recherche recherches plein texte, multicritères et à facettes autocomplétion, correction orthographique traitements linguistiques avancés
![Page 13: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/13.jpg)
13
LES PARTICULARITÉS DU PROJET
Diffuser dans le Web de données
Se préparer auLinked/Open
Data
Permettre l’émergence de nouveaux outils
exploitant les données
Rendre accessible
à l’écosystème les données
enrichies
![Page 14: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/14.jpg)
14
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffusion Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
COLLECTERTRANSFORMER
ENRICHIR
INDEXERGENERER
ADMINISTRER
Moteur de recherche
Web des données
![Page 15: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/15.jpg)
COLLECTER, TRANSFORMER, ENRICHIR
![Page 16: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/16.jpg)
16
LA RÉPONSE
AFS-PaF : Pipes and Filters industrialise la chaîne de captation et de
traitement des données introduit un modèle d’Unité Documentaire
évolutif et souple fournit un cadre de développement et de
configuration de haut niveau
![Page 17: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/17.jpg)
17
CHAINES DE TRAITEMENT
Créer des chaines de traitement par assemblage de modules
Sources de données
Module connecteur
Modules de transformation et enrichissement
![Page 18: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/18.jpg)
18
DES FILTRES
Un framework qui permet de construire des modules 50+ filtres prêts à l’emploi Un environnement d’exécution
![Page 19: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/19.jpg)
19
LE DOCUMENT
Le document est composite est dynamique évolue dans le temps est un objet à gérer à accéder de façon
unifiée
![Page 20: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/20.jpg)
20
LE DOCUMENT
Document Manager abstrait le stockage et l’accès aux documents : stockage « cloud » créer / lire / écrire les couches
![Page 21: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/21.jpg)
PAF ISIDORE PRINCIPES GÉNÉRAUX
![Page 22: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/22.jpg)
22
Sites Web (sitemap)
Entrepôts OAI
Calenda
Sources de données
Flux RSS
ConnecteursModules Pipes&Filters
spécifiques aux sources
…
…
…
…
VUE GÉNÉRALE DE LA CHAÎNE « PAF » ISIDORE
Fichiers XML de configuration des connecteurs AFS et des modules de normalisation
Référentiels SKOS
Modules Pipes&Filters communs
Liens pérennes Annotation
…
Des sources multiples et des traitements ad-hoc Sites Web
collecte par sitemap extraction des données RDFa
Flux RSS capitalisation « illimitée »
Entrepôts de publications : articles, revues, thèses, … captation structurée : OAI-PMH, OAI-ORE extraction des métadonnées : DC
Diverses sources structurées annuaires de personnes, ressources, sources conférences, séminaires, …
![Page 23: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/23.jpg)
CHAÎNE DE COLLECTE ET DE TRAITEMENT
Une chaîne dédiée à la normalisation : 12 filtres
Récupération de chaque ressource listée dans le SitemapExtraction du RDFaSérialisation du RDFaPassage dans un format pivotNormalisation de la dateNormalisation de l’auteurRécupération Handle et imagetteAjout des informations sources/documentSérialisation du XML pivot
![Page 24: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/24.jpg)
24
CHAINE D’ENRICHISSEMENT
Une chaîne dédiée à l’enrichissement : 14 filtres
Classification sur la taxonomie HALClassification sur la taxonomie Sujets Calenda Classification sur la taxonomie Temps CalendaClassification sur la taxonomie Géo CalendaAlignement des types de documentAlignement des dates sur Thésaurus W (SIAF)Alignement des langues sur LexvoEnrichissement des auteurs sur HALExtraction des sujets sur Rameau, Pactols, GeonamesFusion des annotations
![Page 25: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/25.jpg)
PAF ISIDOREFOCUS SUR CERTAINS POINTS
![Page 26: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/26.jpg)
26
MAINTENABILITÉ - EXEMPLE
Configuration des sources Isidore(application dédiée)
Interface UtilisateurFichiers XML de définition des
sources
745 sources de données
PaF des sources
…
PaF des données
Moteur de recherche dans les sources
![Page 27: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/27.jpg)
27
LA CLASSIFICATION AUTOMATIQUE
Classification par entrainement le moteur utilise les documents déjà classés pour
apprendre
puis utilise la base d’indicateurs statistiques pour catégoriser les 900 000 documents du corpus
![Page 28: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/28.jpg)
28
L’ALIGNEMENT
Alignement des contenus sur des référentiels
fr
FR
francais
Français
français
en
eng
EN
anglais
english
Français
Anglais
![Page 29: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/29.jpg)
29
L’EXTRACTION Extraction sur des référentiels
Une ressource documentaire
Mots clefs
Est décrit par
Un thésaurusConcept
Organise
Pour lier le mot-clé
au concept
Chaîne de caractèresEst exprimé par
Étiquette
Est décrit par
Le moteur effectue unecomparaison morphologique
Chaîne de caractères
Est exprimé par
Est décrit par
A noter qu’un algorithme permet de limiter le nombre d’annotations par
contextualisation
![Page 30: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/30.jpg)
30
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffusion Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
INDEXERGENERER
Moteur de recherche
Web des données
![Page 31: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/31.jpg)
GÉNÉRER, DIFFUSER
![Page 32: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/32.jpg)
32
PUBLICATION DU RDF
Les données et enrichissements sont exportés en RDF en bout de chaine
Les triplets générés sont exploités pour retour vers les sources sous forme normalisée pour traiter des requêtes complexes pour une exposition dans le Web de données
Corpus
Génération
Fichiers de triplets
Entrepôt RDFChargement de l’entrepôt
![Page 33: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/33.jpg)
33
NÉGOCIATION DE CONTENU
AFS et SPARQL sont des Web Service techniques Ils sont enrobés dans une couche métier
un Web Service applicatif qui permet la négociation de contenu
Description XML
Description RDF
Document
![Page 34: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/34.jpg)
34
FAVORISER L’UTILISATION
Pas de code spécifique de la « configuration » : XSL et SPARQL au plus limiter les coûts de développement / test disposer d’une solution simple à faire évoluer
![Page 35: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/35.jpg)
35
UNE AIDE À L’INTÉGRATION
![Page 36: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/36.jpg)
ARCHITECTURE
![Page 37: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/37.jpg)
37
ARCHITECTURE FONCTIONNELLE GLOBALE
Sources de données
Web : sites, flux
Entrepôts OAI
Applications,Web Services
Collecte, traitement, indexation Diffuser Applications
Applications de gestion de la plateforme Isidore
Configuration des
sources (appli
dédiée)
Gestion des référentiels
(ITM)
Back Office moteur
(BO-AFS) Entrepôts RDFSparQL endpoint
Service de recherche AFSCa
pter
Nor
mal
iser
,
dédo
ublo
nner
Anno
ter,
filtr
er
indexation
générationdu RDF
UI de démo
rechercheisidore
![Page 38: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/38.jpg)
38
ARCHITECTURE LOGIQUE
![Page 39: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/39.jpg)
39
ARCHITECTURE PHYSIQUE
6 serveurs : haute disponibilité 2 frontaux : Web Services 2 répondeurs, 1 indexeur 1 triplestore et back-office
![Page 40: Isidore Accès unifié aux données et documents numériques des sciences humaines et sociales Valpré – 7 décembre 2010](https://reader036.vdocuments.net/reader036/viewer/2022062511/551d9da5497959293b8d6c1f/html5/thumbnails/40.jpg)
MERCI DE VOTRE ATTENTION