des formats bureautiques au xml: le traitement des documents pour la bibliothèque numérique...
TRANSCRIPT
![Page 1: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/1.jpg)
Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas
Jean-François Vincent
Université de Marne-la-Vallée
Service commun de la documentation
Département Traitement du document
![Page 2: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/2.jpg)
http://pelleas.univ-mlv.fr
![Page 3: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/3.jpg)
![Page 4: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/4.jpg)
Introduction (1)
Un objectif: la bibliothèque numérique de l'UMLV, du Polytechnicum et de l'URCA– Documents variés (thèses, mémoires, rapports,
articles, collections d'images, cours...)– Mise en valeur de la production scientifique grâce à
Internet– Exploitation des nouvelles possibilités
documentaires
![Page 5: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/5.jpg)
Introduction (2)
Un choix technique principal: le XML– Avantages pour la publication (multisupport,
gestion fine des contenus (droits), réorganisation possible des parties constituantes, allégements des coûts de production des métadonnées)
– Avantages pour la recherche documentaire (recherche affinée dans un corpus, modes de lecture et d'écriture nouveaux)
– Avantages pour l'interopérabilité et la préservation.
![Page 6: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/6.jpg)
Introduction (3)
● Une contrainte principale: convertir...– ... les documents– ... les auteurs
(On ne fera qu'apercevoir ce second aspect des choses, qui n'est pas le plus simple.)
![Page 7: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/7.jpg)
Plan
● La conversion des documents vers XML:– Moyens– Limites– Horizon
● La conversion des usagers (en quelques mots)● Une période transitoire à franchir
![Page 8: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/8.jpg)
● Moyens● Limites● Horizon
La conversion des documents vers XML
![Page 9: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/9.jpg)
Comment produire du XML?● Avec WordPad?
![Page 10: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/10.jpg)
● Les éditeurs XML– Exploitent toute la richesse du XML– Valident le résultat– Jouent la feuille de style– Mais chers, et formation des usagers impossible.
Comment produire du XML? (2)
![Page 11: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/11.jpg)
● Les outils bureautiques ordinaires– Word– LaTeX (on n'en parlera plus ici – conversion pas
encore réalisée, travail en cours.)
Comment produire du XML? (3)
![Page 12: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/12.jpg)
Word et le XML● Word ne produit pas de document structuré● Mais il permet d'appliquer des “styles” sur des
éléments structurels (titres, paragraphes, citations, légendes...)
● Une partie de la mise en forme, également structurante, est aussi plus ou moins facile à récupérer (gras, italiques, par exemple).
● Une grande part de la mise en forme n’est pas récupérée (polices, alignements…)
![Page 13: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/13.jpg)
La feuille de style (1)
● Fichier .dot, contenant:– La carcasse d'un document (mise en forme)– Une série de “styles”, correspondant à des unités
structurelles de la DTD cible (TEI Lite, par ex.). Pour les thèses, liste de styles établie en concertation au niveau national (facilite la coopération).
– Une “barre de stylage” (macro Word), qui améliore l'ergonomie.
![Page 14: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/14.jpg)
![Page 15: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/15.jpg)
La feuille de style (3)
● Avantage pour les auteurs– Aide à la structuration des documents longs– Aide à la saisie (page de titre, bibliographie)– Aide pour la cohérence graphique
● Avantage pour le traitement– Marquage des grandes unités structurelles– Le nom du style est la seule chose importante de ce
point de vue.
![Page 16: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/16.jpg)
La feuille de style (4)
● Inconvénients– Pas de verrouillage possible (risque de corruption)– Pas de validation possible (Titre 1 suivi d'un titre 3)– Ne limite pas l'usage des fonctions de Word dont le
résultat n'est pas convertible pour le moment (ex: certains objets, éventuellement produits par des logiciels externes (Excel, PowerPoint, Visio, MathType...); tableaux très complexes, etc.)
![Page 17: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/17.jpg)
Le stylage
● Court à présenter: – Un agent corrige le document pour le rendre
conforme aux exigences de la chaîne de conversion.● ... parfois long à réaliser.
![Page 18: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/18.jpg)
Le stylage (2)
● Quelques chiffres– Lyon 2: une thèse, une journée
– UMLV:
● 1 mémoire simple, partiellement stylé, par un styleur débutant: 6 heures
● 1 mémoire très simple, partiellement stylé, par un styleur un peu plus aguerri: 3 heures
● 1 thèse de 500 pages très simple, sans images, non stylée mais très régulière: 10 heures en travaillant à vitesse maximale
● 1 thèse non stylée, avec des aberrations structurelles, contenant 300 équations produites avec MathType: ?????
![Page 19: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/19.jpg)
La conversion
● Un bon outil en fin de course: Cyberthèses première version– Scripts OmniMark– Conversion à partir de .rtf– Fidèle mais rigide: aucune erreur de stylage tolérée,
extraction préalable des images – Conversion vers SGML
Réalisation: Presses de l’Université de Montréal, Cellule ERAD de l’Université de Lyon 2.
![Page 20: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/20.jpg)
La conversion (2)
● Un bon outil en cours de débogage: Cyberthèses deuxième version– Conversion .doc / .rtf vers XML grâce à
OpenOffice– Transformation du XML OpenOffice vers TEI Lite
par XSLT– Conversion du XML/TEI vers HTML et PDF
![Page 21: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/21.jpg)
La conversion
Cyberthèses deuxième version:● Réalisation: AJLSM (Martin Sévigny), maître
d'oeuvre Université de Lyon 2 / Cyberthèses● Originalité: mise sur le développement
coopératif, en utilisant les méthodes du logiciel libre. Site coopératif: http://sourcesup.cru.fr/cybertheses/ (listes de diffusion)
![Page 22: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/22.jpg)
![Page 23: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/23.jpg)
L'intégration dans Pelleas
● Production des métadonnées: à assez court terme, vers une quasi automatisation
● Un choix important dans Pelleas: séparation entre plateforme Pelleas et le SIGB. Recherche conjointe par Z 39.50
● Passage du traitement du document centré sur sa description à un traitement centré sur sa structuration et sa gestion (droits, migrations).
![Page 24: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/24.jpg)
L'intégration dans Pelleas
● Un apport théorique: le fichier PEL– Enveloppe structurelle de l'ensemble des
constituants du document.– Objectif: gestion informatique des objets composant
le document (migrations, exportations... Contient les métadonnées nécessaires, décrit la structure de l'ensemble); gestion des droits des objets composant le document.
![Page 25: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/25.jpg)
![Page 26: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/26.jpg)
L'intégration dans Pelleas● Chargement des différents fichiers (-XML, -MET, -PEL,
images). Validation, exécution de la feuille de style XSLT...
● Et voilà:
![Page 27: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/27.jpg)
Limites
● Poids du stylage● Multiples possibilités de Word, et imagination
informatique sans limites des auteurs● Limites du XML pour certains documents très
graphiques (du moins avec les grandes DTD documentaires actuelles): séparation fond / forme pas toujours acceptable.
● Le document doit être pensé dès le début pour son support de publication.
![Page 28: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/28.jpg)
Horizon
● Amélioration des outils de conversion● Multiplication des initiatives du même genre,
laissant attendre de rapides progrès.● Logiciels validants mais conviviaux?● Formation des usagers
![Page 29: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/29.jpg)
● Culture bureautique très inégale– Formation à la feuille de style, mais aussi formation
de base à garantir● Culture de l'imprimé vs culture du document
structuré– La structuration n’est pas la présentation
● Méconnaissance des questions de droits d'auteur
II. La conversion des usagers: un chantier essentiel
![Page 30: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/30.jpg)
Instructions aux auteurs
● Un chantier important (qui serait mutualisable): les instructions aux auteurs, pour obtenir des documents conçus en fonction de la publication et de la diffusion électroniques
![Page 31: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/31.jpg)
Comment passer la période transitoire?
● L’objectif du XML peut être considéré comme évident.
● Avantages de s'engager tôt dans la production de documents structurés:– S'engager tôt parce que la formation des auteurs, des équipes, et
des décideurs, est un travail de longue haleine
– Un exemple du bénéfice d'avoir choisi tôt: les thèses. Implication précoce de quelques établissements, d'où orientation nationale, crédits, développement d'outils, expérience croissante, etc.
![Page 32: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/32.jpg)
Comment passer la période transitoire? (2)
● Mais le présent et le futur proche ne sont pas toujours faciles à gérer. Dans l'immédiat, la conversion de certains documents est impossible ou coûteuse.
● Plutôt que de renoncer aux avantages évidents du XML, solution mixte (PDF + XML par exemple)?
● Un choix non sans défauts, mais difficilement évitable selon moi, à moins de ne pas publier du tout certains documents tant que des problèmes techniques demeurent.
![Page 33: Des formats bureautiques au XML: le traitement des documents pour la bibliothèque numérique Pelleas Jean-François Vincent Université de Marne-la-Vallée](https://reader036.vdocuments.net/reader036/viewer/2022062417/551d9da3497959293b8d3b3c/html5/thumbnails/33.jpg)
Merci.