document et structure : vers un web socio-sémantique

48
Document et structure Tutorial RSI Deauville, le 27 septembre 2007 Hervé Le Crosnier Université de Caen

Upload: herveinfounicaenfr

Post on 18-Dec-2014

3.480 views

Category:

Technology


1 download

DESCRIPTION

Supports pour un tutorial sur les nouvelles structures de documents et leur capacité à faire circuler les métadonnées et construire un web socio-sémantique.Tutoriel délivré au congrès RSI, Deauville, septembre 2007.

TRANSCRIPT

Page 1: Document et structure : vers un web socio-sémantique

Document et structure

Tutorial RSIDeauville, le 27 septembre 2007

Hervé Le CrosnierUniversité de Caen

Page 2: Document et structure : vers un web socio-sémantique

Données et documents

● document : destiné à la lecture● données : informations pouvant être

« traitées » (calcul, sélection, agrégation, découverte, indexation,...)

● le numérique produit un rapprochement des données et des documents

Page 3: Document et structure : vers un web socio-sémantique

Données -> document

● établir une facture

● widget météo● données : XML● document :

– html– pdf– image (svg)

Page 4: Document et structure : vers un web socio-sémantique

RSS

● <item>

● <title>La répression des manifestations en Birmanie a fait quatre morts</title>

● <link>http://www.lemonde.fr/web/article/0,1-0@2-3216,36-959582,0.html?xtor=RSS-3208</link>

● <description>Les forces de l'ordre ont chargé les manifestants, mercredi à Rangoun. Le Conseil de sécurité de l'ONU doit se réunir d'urgence.</description>

● <pubDate>Wed, 26 Sep 2007 16:58:08 GMT</pubDate>

● <guid isPermaLink="false">http://www.lemonde.fr/web/article/0,1-0@2-3216,36-959582,0.html?xtor=RSS-3208</guid>

● <enclosure url="http://medias.lemonde.fr/mmpub/edt/ill/2007/09/26/h_1_ill_959654_birmanie.jpg" type="image/jpeg" length="2502"></enclosure>

● </item>

Page 5: Document et structure : vers un web socio-sémantique

Innovation ascendante

● simplicité du format● usage simple (l'alerte de nouveautés)● extensibilité : (X)ML● facilité de créer des parseurs pour

intégrer dans des documents dynamiques

● existence d'agrégateurs

Page 6: Document et structure : vers un web socio-sémantique

Producteur de flux

● intérêt :– faible utilisation de la bande passante– alerter sur les nouveautés de son site– attirer des lecteurs (économie de

l'attention)– insertion de la publicité dans les flux

Page 7: Document et structure : vers un web socio-sémantique

Architecture

Widgets

Data is power

Page 8: Document et structure : vers un web socio-sémantique

Channel

● <?xml version="1.0" encoding="iso-8859-1"?><rss version="2.0" xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#">

● <channel>

● <title>Le Monde.fr : A la une</title>

● <link>http://www.lemonde.fr</link>

● <description>Toute l'actualité au moment de la connexion</description>

● <copyright>Copyright Le Monde.fr</copyright>

● <image><url>http://medias.lemonde.fr/mmpub/img/lgo/lemondefr_rss.gif</url><title>Le Monde.fr</title><link>http://www.lemonde.fr</link></image>

● <pubDate>Wed, 26 Sep 2007 17:05:25 GMT</pubDate>

Page 9: Document et structure : vers un web socio-sémantique

Enclosure (Podcast)

● lier à un objet numérique (son, vidéo,...)● <item>

<title>Musik Please -Hors Série- Spécial 25 ans de Hip Hop</title> <link>http://www.musikplease.com/index.php</link> <description>Une playlist thématique, histoire de tourner ensemble quelques pages de l'histoire musicale du hip hop. [...]</description> <itunes:author>Pierre Fosco</itunes:author> <itunes:subtitle>Une playlist thématique [...]</itunes:subtitle> <itunes:explicit>no</itunes:explicit> <itunes:keywords>podcast,blog</itunes:keywords> <pubDate>Thu, 20 Sep 2007 13:30:12 +0200</pubDate> <enclosureurl="http://pauvcast.net/explorer/podcasts/musikplease/2007/musikpleasehs2.mp3" length="11766717" type="audio/mpeg" /> <guid isPermaLink="false">musikpleasehs2.mp3</guid> <dc:creator>Pierre Fosco</dc:creator> </item>

Page 10: Document et structure : vers un web socio-sémantique

La glu du web 2.0

● nouvelles, flux, blogs● playlists, délinéarisation● espaces de nom (faire cohabiter

plusieurs applications avec la même architecture de document)

● personnalisation de l'information● déterritorialisation (accès à l'unité à

partir d'annotations externes)– digg, del.icio.us, ...

Page 11: Document et structure : vers un web socio-sémantique

Du document aux données

● Extraction de connaissance● Analyse linguistique et sémantique● indexation ->

– accès aux documents– appariement

● découpage de scènes (vidéo)● reconnaissance d'objets (image)

Page 12: Document et structure : vers un web socio-sémantique

Encoder l'information dans le document

● distinction entre le document logique (structure de document)

● le document lisible par un humain (réalisation)

● la (les) feuilles de style● trouver une forme d'encodage qui

facilite l'extraction par des robots– de l'information– des métadonnées

Page 13: Document et structure : vers un web socio-sémantique

Microformats

● hCard, pour la description des personnes et organisations

● <div class="vcard"> <div class="fn org">Wikimedia Foundation Inc.</div> <div class="adr"> <div class="street-address">200 2nd Ave. South #358</div> <div> <span class="locality">St. Petersburg</span>, <abbr class="region" title="Florida">FL</abbr> <span class="postal-code">33701-4313</span> </div> <div class="country-name">USA</div> </div> <div>Phone: <span class="tel">+1-727-231-0101</span></div> <div>Email: <span class="email">[email protected]</span></div> <div> <span class="tel"><span class="type">Fax</span>: <span class="value">+1-727-258-0207</span></span> </div></div>

Page 14: Document et structure : vers un web socio-sémantique

Ce que sont les µf

● un moyen de penser les données dans le document

● des principes de design pour les données

● adapté à « la sémantique du monde réel du XHTML » (lowercase semantic web)

● un support pour la création d'outils de lecture et d'extraction (cf Operator)

Page 15: Document et structure : vers un web socio-sémantique

ce que ne sont pas les µf

● un nouveau langage● une obligation pour les designer à

changer toutes leurs pratiques● une panacée pour toutes les

taxonimies, ontologies,...● une approche entièrement nouvelle qui

jetterait à la poubelle tout ce qui marche actuellement– http://microformats.org

Page 16: Document et structure : vers un web socio-sémantique

Principes des µf

● résoudre des problèmes spécifiques● partir du plus simple possible● un design pour les humains en premier,

les machines ensuite● réutilisation de blocs existant,

modularité, capacité à s'insérer● permet des développements et des

services décentralisés

Page 17: Document et structure : vers un web socio-sémantique

Web 2.0● Un concept marketing● Qui s'appuie sur des

changement réels du web– innovations techniques

– modèle de participation sociale

– changement dans les formes de valorisation économique

● C'est la conjonction de ces trois renouvellements qui fait le Web 2.0

Page 18: Document et structure : vers un web socio-sémantique

La conversation

● les documents servent de support à des relations sociales

● on parle d'autres documents (blogs)● on sélectionne des documents... et on

le fait savoir (taggage, folksonomie)● lecture coopérative● priorité à l'usage (innovations

ascendante, « pro-am révolution » )

Page 19: Document et structure : vers un web socio-sémantique

Web sémantique

● Rendre l'information disponible sur le web utilisable directement par des machines

● pour améliorer le service de filtrage ou d'extraction de connaissances proposé aux utilisateurs

● Un projet décentralisé, à l'image du web

● ... et fédérateur (visant l'ensemble du savoir)

Page 20: Document et structure : vers un web socio-sémantique

Quelques caractéristiques● construire des descriptions sémantiques utilisables

par des communautés à l'intérieur du web

● Le web sémantique s'appuie sur une forte normalisation

– des échanges (SOAP, WSDL, XML)

– des langages de descriptions (RDF, OWL)

– des langages de requêtes et d'inférence (SPARQL)

● Il est nécessaire de consacrer une partie de l'énergie de production de documents à organiser des accès sémantiques (métadonnées, construction de schémas de description et d'ontologies)

Page 21: Document et structure : vers un web socio-sémantique

Web 2.0 et Web sémantique

● utiliser les usages simples, mais cumulés, des lecteurs

● modélisation statistiques par l'usage (cf correcteur orthographique de

Google)

● indexation sociale

● appariement statistique (notamment pour la publicité)

● modéliser les documents et leur accès

● construire des outils répartis et partagés– sémantiques (ontologies,

schémas)

– ressources

● rigueur dans la description (lecture par machine, IA)

● délégation in fine à la machine (échanges multi-agents)

Page 22: Document et structure : vers un web socio-sémantique

Web socio-sémantique

● Fournir des outils (sémantiques et logiciels de traitement) qui sauront prendre place dans l'existant

● Production coopérative de sens (Wikipedia, catalogues coopératifs, bibliothèques numériques, cyberinfrastructures)

● Plusieurs méthodes pour diminuer la pression cognitive sur le lecteur (sélection, résumé, émergence,ou conseil, commentaire, réseau social ?)

Page 23: Document et structure : vers un web socio-sémantique

Un web de métadonnées

● Metadata is machine understandable information about web resources or other things Tim Berners-Lee

● metadata is data les métadonnées sont enregistrées comme des données, et on peut à nouveau faire des assertions sur elles

● The architecture is of metadata represented as a set of independent assertions. chaque assertion est indépendante

● As much as possible of the syntax and semantics should be able to be acquired by reference from a metadata document.

● Un web de métadonnées http://w3c.org/DesignIssues/Metadata

Page 24: Document et structure : vers un web socio-sémantique

Métadonnées

● Données permettant de décrire d'autres documents ou données

● Exploitables par des robots● Utilisées pour classer, repérer,

organiser l'information● Exemple : les fiches catalographiques

des bibliothèques● Exemple : les tag ID3 des fichiers mp3

Page 25: Document et structure : vers un web socio-sémantique

Métadonnées documentaires

● 4 types d'informations– Contenu : titre, sujet, description, source,

langage, relation, couverture– Propriété intellectuelle : créateur,

éditeur, contributeur, droits– Matérialisation : date, type, format,

identifiant.– Géolocalisation : données GPS,

thésaurus des villes et régions

Page 26: Document et structure : vers un web socio-sémantique

Dublin Core

● 1. Title● 2. Creator● 3. Subject● 4. Description● 5. Publisher● 6. Contributor● 7. Date

● 8. Type● 9. Format ● 10. Identifier● 11. Source● 12. Language● 13. Relation

Page 27: Document et structure : vers un web socio-sémantique

Images

● Données EXIF– données physiques– intégrées directement dans l'image par les

appareils numériques

● Données XMP– données physiques et documentaires– usage lié aux logiciels de traitement

d'images (Photoshop, Acrobat,...)– XML : données extensives– http://www.adobe.com/products/xmp/

Page 28: Document et structure : vers un web socio-sémantique

Son

● Nécessité de contextualiser les documents sonores

● Nouveaux enjeux de l'industrie musicale

● appariement (Pandora) ou pression sociale (lastFM)

Page 29: Document et structure : vers un web socio-sémantique

RDF

● RDF : Resource Description Framework

● Un langage de graphe

● indépendance des assertions

● utilisé pour les métadonnées

Page 30: Document et structure : vers un web socio-sémantique

Représentation XML● <?xml version="1.0"?><rdf:RDF xmlns:rdf="http://www.w3.org/1999/02/22-rdf-syntax-ns#" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:exterms="http://www.example.org/terms/">

<rdf:Description rdf:about="http://www.example.org/index.html"><exterms:creation-date>August 16, 1999</exterms:creation-date><dc:language>en</dc:language><dc:creator rdf:resource="http://www.example.org/staffid/85740"/>

</rdf:Description></rdf:RDF>

Page 31: Document et structure : vers un web socio-sémantique

Assertions

● En RDF, chaque assertion est indépendante

● on la représente par un triplet● Sujet : à propos de quoi (about)● Prédicat : quelle relation● Objet : quel renseignement sur cette

relation

Page 32: Document et structure : vers un web socio-sémantique

Exemple● Hernani est une pièce de théâtre dont

l'auteur est Victor Hugo

● Hernani est une pièce de théâtre– Hernani : sujet– est une : prédicat– pièce de théâtre : objet

● Hernani a pour auteur Victor Hugo– Hernani : sujet– auteur : prédicat– Victor Hugo : objet

Page 33: Document et structure : vers un web socio-sémantique

RDF-A

● Intégrer les triplets RDF dans du code HTML

● <p class="contactinfo" about="http://example.org/staff/jo"> My name is <span property="contact:fn">Jo Smith</span>. I'm a <span property="contact:title"> distinguished web engineer </span> at <a rel="contact:org" href="http://example.org"> Example.org </a>. You can contact me <a rel="contact:email" href="mailto:[email protected]"> via email </a> </p>

Page 34: Document et structure : vers un web socio-sémantique

Le « cake » du web sémantique

Page 35: Document et structure : vers un web socio-sémantique

URI

● Chaque élément d'une assertion (triplet) est représenté par un URI

● Uniform Ressource Identifier● Désigner des documents, des modes

d'organisation (schémas, ontologies)● exemple : que veut dire titre en DC● http://dublincore.org/2006/12/18/dces.rdf#title

Page 36: Document et structure : vers un web socio-sémantique

URL

● Uniform ressource Locator● Notation mondiale pour retrouver un

document (nappe de restaurant)● choisir une dénomination claire,

mémorisable● le « nom de domaine » est un choix

pour organiser l'espace mental

Page 37: Document et structure : vers un web socio-sémantique

URL ->architecture de l'information

● éviter les URL trop longs– http://bbf.enssib.fr/sdx/BBF/frontoffice/2007/03/document.xsp?id=bbf-2007-03-0005-

001/2007/03/fam-dossier/dossier&statutMaitre=non&statutFils=non

● ne pas mélanger la désignation du document et la méthode technique utilisée pour le retrouver– http://monsite.com/article.php?534

● clarté des URL (marque de confiance)– http://tinyurl.com/a45r67

● référencement

Page 38: Document et structure : vers un web socio-sémantique

URL rewriting

● Organiser son site pour pouvoir nommer les documents (modèle de la classification)

● Diffuser des versions stables des URL● Ré-écrire les URL à l'entrée du site● Utiliser un « routeur » interne pour

orienter vers les documents

Page 39: Document et structure : vers un web socio-sémantique

Du document aux relations

● XML : balisage sémantique● RDF : relations sémantiques● Lecture : interprétation par un humain● Extraction : transformer l'information

(GRDDL) en utilisant au mieux le balisage (microformats, RDF-A)

● Requêtes logiques : extraire un « sous-graphe » en tenant compte des définitions des

relations logiques (prédicats) – langage SPARQL

Page 40: Document et structure : vers un web socio-sémantique

GRDDL

● Indiquer la présence de données à l'intérieur d'un document (microformats, RDF-a,...)

● Indiquer l'URI d'un programme susceptible de transformer ces données en un fichier RDF

● Glanage : ré-utilisation secondaire des informations diffusées

Page 41: Document et structure : vers un web socio-sémantique

Cycle de vie du document

● maîtriser les outils de création et de gestion,

● faciliter les échanges et la diffusion,● garantir l’accessibilité et la

conservation.● -> de la création à l'archivage (et

éventuellement la destruction)

Page 42: Document et structure : vers un web socio-sémantique

Enjeux

● Organisation : une seule chaîne de traitement pour tous les formats (papier, web, mobile,...)

● Culture commune : formation aux outils, compréhension du devenir des documents – anti-conversation ?

● Economie : faire face à la masse des documents (temps de lecture, synthèse)

● Patrimoine : conserver la mémoire numérique et numériser la mémoire

Page 43: Document et structure : vers un web socio-sémantique

Référence

● Pouvoir se référer à un document numérique

● A tout moment (du présent à l'archivage -> traçabilité documentaire)

● Document et preuve (B2B, contrats)● Pérennité, intégrité, sécurité

Page 44: Document et structure : vers un web socio-sémantique

Questions

● Normalisation (technique, règles de conservation)

● De la base de données au document (du transactionnel au pérenne)

● Signature et horodatage● Support de stockage, de diffusion,

d'archivage● => Architectes de l'information

Page 45: Document et structure : vers un web socio-sémantique

Redocumentarisation

● Les documents numériques ont besoin de clés de description complexes (et d'outils d'interprétation de cette complexité)

● le continuum numérique permet d'associer traces et documents aux relations humaines

● organiser la gouvernance de l'univers documentaire numérique (sélection, validation, conservation,...)

Page 46: Document et structure : vers un web socio-sémantique

Recherche

● RTP-Doc -> Roger T. Pédauque● Réseau coopératif de la recherche sur

le document numérique (170 chercheurs francophones)

● Trois angles :– forme : relation anthropologique à la

lecture– texte : interprétation, classification– médium : relation et organisation sociale

Page 47: Document et structure : vers un web socio-sémantique

Enseignement

● Nécessité de formations assurant la synthèse des trois aspects du DN

● Nouveaux corps de métiers (archivage électronique, cycle de vie, architectes de l'information, ingénierie documentaire, projection et plannification)

● Formation permanente

● Université de Caen + CNAM Paris● Master « Document numérique » à la

rentrée 2008

Page 48: Document et structure : vers un web socio-sémantique

Roger T. Pédauque

● Comme l'ère industrielle a été marquée par l'interchangeabilité des parties, la société de l'information serait caractérisée par la possibilité de ré-utiliser l'information (p.71)

● Un document ne serait finalement qu'un contrat entre les hommes dont les qualités anthropologiques (lisibilité, perception), intellectuelles (compréhension, assimilation) et sociales (sociabilité, intégration) fonderait une part de leur humanité, de leur capacité à vivre ensemble. Dans cette perspective, le numérique n'est qu'une modalité de multiplication et d'évolution de ces contrats.(p. 78)