technologies du web sémantique pour l’entreprise 2.0

298
Université Paris IV - Sorbonne École doctorale V - Concepts et Langages Technologies du Web Sémantique pour l’Entreprise 2.0 Thèse Pour l’obtention du grade de Docteur de l’Université Paris IV - Sorbonne Discipline: Informatique Présentée et soutenue publiquement Le 9 Juin 2009 par Alexandre Passant Défendue devant un jury composé de: – Fabien L. Gandon, INRIA Sophia-Antipolis, Rapporteur – Gilles Kassel, Université de Picardie, Rapporteur – Jean-Pierre Desclés, Université Paris IV - Sorbonne, Directeur – Philippe Laublet, Université Paris IV - Sorbonne, Co-directeur – Ivan Herman, CWI Amsterdam / W3C, Examinateur – François-Xavier Testard-Vaillant, Électricité de France, Examinateur |_|_|_|_|_|_|_|_|_|_| (Numéro d’enregistrement attribué par la bibliothèque)

Upload: patrick-cook

Post on 17-Dec-2015

78 views

Category:

Documents


0 download

DESCRIPTION

Cette thèse s’inscrit dans le cadre des récents travaux relatifs à la complémentarité entre Web Sémantique et Web 2.0, deux visions du Web qui ont souvent été considérées, à tort, comme disjointes. Plus particulièrement, nous nous intéressons à l’utilisation des technologies du Web Sémantique (i.e. langages, modèles, outils et protocoles) dans le contexte de l’Entreprise 2.0, vision où les outils de plus en plus courants du Web 2.0 (blogs, wikis, services de partage de contenus, pratiques de tagging ...) font leur apparition dans les systèmes d’information organisationnels.

TRANSCRIPT

  • Universit Paris IV - Sorbonnecole doctorale V - Concepts et Langages

    Technologies du Web Smantique pourlEntreprise 2.0

    Thse

    Pour lobtention du grade de

    Docteur de lUniversit Paris IV - Sorbonne

    Discipline: InformatiquePrsente et soutenue publiquement

    Le 9 Juin 2009 par

    Alexandre Passant

    Dfendue devant un jury compos de:

    Fabien L. Gandon, INRIA Sophia-Antipolis, Rapporteur Gilles Kassel, Universit de Picardie, Rapporteur Jean-Pierre Descls, Universit Paris IV - Sorbonne, Directeur Philippe Laublet, Universit Paris IV - Sorbonne, Co-directeur Ivan Herman, CWI Amsterdam / W3C, Examinateur Franois-Xavier Testard-Vaillant, lectricit de France, Examinateur

    |_|_|_|_|_|_|_|_|_|_|(Numro denregistrement attribu par la bibliothque)

  • Ce mmoire est mis disposition sous un contrat Creative Commons "Paternit-Pas dUtilisation Commerciale-Pas de Modification 2.0 France". Les dtails dece contrat sont disponibles ladresse suivante : http://creativecommons.org/licenses/by-nc-nd/2.0/fr/

  • Julie

  • Remerciements

    Bien quelles ne maient pas permis de saisir la Grande Question sur la Vie, lUniverset le Reste, ces quatre annes de thse mont apport beaucoup, dun point de vue aussibien personnel que scientifique. Il me tient ainsi cur de remercier un certain nombrede personnes sans qui je naurai sans doute pu franchir ce cap, en mexcusant par avanceauprs de celles et ceux que joublie.

    Tout dabord, je tiens remercier chaleureusement Philippe Laublet pour lencadrementsans faille de cette thse. Nos longues discussions et changes dides mont sans aucundoute fait progresser dans mes recherches et permis de prendre le recul ncessaire pourmieux apprhender celles-ci. Merci davoir toujours pris le temps de rpondre mes re-qutes (souvent tardives) et pour le dtail accord la relecture de ce mmoire. Merci gale-ment Franois-Xavier Testard-Vaillant de mavoir propos cette thse et de mavoir fournice terrain dexprimentation innovant et grandeur nature pour mener bien mes recherchesau sein dEDF R&D. Merci Jean-Pierre Descls davoir permis cette thse en mayant ac-ceuilli dans son quipe et de mavoir montr dautres domaines de recherche, que je nauraisans doute pas eu loccasion daborder en dautres circonstances. Merci Fabien Gandonpour les commentaires apports la lecture de ce mmoire et les diffrentes discussions quenous avons pu avoir ds le dbut de cette thse, grande source de motivation. Merci GillesKassel davoir accept de prsider le jury de cette thse, ainsi que pour lintrt port mesrecherches et aux problmatiques abordes dans ce manuscrit. Merci galement Ivan Her-man pour sa participation dans ce jury et lattention porte mes travaux et leur contexteapplicatif.

    Merci lensemble des personnes avec qui jai pu changer et travailler durant cettethse, de Paris Pkin en passant bien entendu par Galway : Axel, Fabrizio, Hak Lae, Mi-chael, Milan, Philipp, Richard, Sergio, Yves et bien dautres encore. Nos changes et la viva-cit que jai pu constater au sein de cette communaut ont galement t une grande sourcede motivation et me laissent penser que le Web a encore de belles annes devant lui. Mercibien entendu Uldis et John pour notre collaboration fructueuse autour de SIOC, et StefanDecker pour me permettre de continuer mes travaux dans cette direction. Merci galement lquipe du project Athna avec qui jai partag mes journes EDF : Aurlie, Christine,Fabien, Jean-David, Richard et Thierry ainsi que lensemble de la C.A.V.

    Enfin, merci mes amis, Guillaume et Elodie, Fred et Nolwen, Kevin et Anne-Galle,Olivier, Bertrand et Valrie, Pierre-Yves, Vincent et les autres, de mavoir suivi pendant cesquatre annes et de mavoir rappel, de Paris Tokyo, quil y a une vie en dehors du Web.

    i

  • Merci mes deux familles et leurs amis pour leur soutien constant et pour avoir suiviavec intrt lvolution de ma thse. Merci en particulier mes parents de mavoir donnle got de la curiosit et des sciences qui ma men jusquici et de mavoir toujours soutenudans mes dmarches. Merci mes beaux-parents, Anne et Camille, et ma belle famille, So-phie, Valrie, Benot et Damien, pour leurs encouragements permanents et leur joie de vivre.Merci galement Lilou, Prune et Lucas pour leur sourire constant. Enfin, merci celle quia toujours t mes cts pour me soutenir et me comprendre durant cette longue tape et qui je dois tant. Julie, ce mmoire test ddi.

    Alexandre Passant, Galway, Juin 2009

  • Rsum

    Cette thse sinscrit dans le cadre des rcents travaux relatifs la complmentarit entreWeb Smantique et Web 2.0, deux visions du Web qui ont souvent t considres, tort,comme disjointes. Plus particulirement, nous nous intressons lutilisation des techno-logies du Web Smantique (i.e. langages, modles, outils et protocoles) dans le contexte delEntreprise 2.0, vision o les outils de plus en plus courants du Web 2.0 (blogs, wikis, ser-vices de partage de contenus, pratiques de tagging ...) font leur apparition dans les systmesdinformation organisationnels. Si ces outils facilitent le partage et la collaboration entreindividus, dans lobjectif de faire merger une Intelligence Collective au sein de telles struc-tures, ils introduisent de nouvelles problmatiques en termes dexploitation pertinente desinformations produites. Dune part, la diversit des outils utiliss complexifie lintgrationdinformations provenant de diverses sources (blogs, wikis, flux RSS ...) fragmentes au seindu rseau dentreprise. Dautre part, la nature plein-texte des outils utiliss rend dlicate larutilisation de manire autonome des connaissances ainsi produites, notamment au seindes wikis qui permettent pourtant llaboration de bases de connaissances prennes. Enfin,les pratiques de tagging soulvent diffrents problmes en terme de recherche dinforma-tions, dus notamment lambigut et lhtrognit des mots-cls utiliss, ainsi qua leurmanque dorganisation.

    Afin de rpondre ces diffrentes problmes et en reprenant lacronyme SLATES (Search,Links, Authoring, Tags, Extension, Signals) utilis pour identifier lEntreprise 2.0, nous dfinis-sons le paradigme SemSLATES, proposant la mise en place dune architecture de mdiationsociale et smantique venant en support dun ensemble doutils existants. Cette volutionimplique la dfinition et limplmentation de diffrents composants, aussi bien en termes dereprsentation des connaissances que darchitecture logicielle, composants que nous avonsmis en place dans le cadre de cette thse, en sappuyant essentiellement sur les technologiesdu Web Smantique via les standards du W3C.

    Ainsi, nos travaux ont consist dune part en la mise en place dontologies formelles,aussi bien en terme de mtadonnes socio-structurelles (afin de reprsenter les interactionssociales produites au sein des diffrents applications utilises et les contenus issus de cesinteractions) que de mtadonnes mtier (afin dannoter les contenus eux-mmes). En ce quiconcerne le premier type, nous avons particip activement au projet SIOC Semantically-Interlinked Online Communities , dfinissant une ontologie permettant de reprsenter lesactivits des communauts en ligne et les contributions associes. En rapport au secondpoint, nous avons dfini un certain nombre dontologies de domaine, lgres et extensibles,

    iii

  • reposant sur des modles dj existants et adopts sur le Web, proposant ainsi certainesbonnes pratiques relatives la modlisation de telles ontologies. Enfin, afin dtablir unlien entre ces deux niveaux de reprsentation, nous avons mis en place le modle MOAT Meaning Of A Tag permettant de faire le lien entre tags et ressources du Web Smantique(classes et instances dontologies), dans lobjectif de coupler la souplesse des folksonomieset la puissance de lindexation smantique base sur des ontologies. Bien quindpendants,lensemble de ces modles sarticule ainsi de manire cohrente afin de prendre en compteles diffrentes strates de reprsentations des connaissances ncessaires de tels cosystmessmantiques.

    Nous avons galement mis en place diffrents composants logiciels permettant la pro-duction et lexploitation dannotations smantiques de manire intuitive pour les utilisa-teurs finals et communiquant au travers dun ensemble de protocoles ddis. En termes deproduction dannotations, nous avons dvelopp diffrents services permettant lexport au-tomatique dannotations reprsentes avec SIOC depuis des outils de blogs, wikis et fluxRSS dans ce contexte dentreprise. Nos travaux se sont galement concentrs sur la dfi-nition dun service de wiki smantique afin de permettre une constitution collaborative,ouverte et incrmentale de bases de connaissances formelles reposant sur des ontologies,sans pour autant confronter les utilisateurs la complexit des modles sous-jacents. Nousavons galement propos diffrents services innovants venant tirer parti des graphes dan-notation produits. Cest ainsi le cas dun moteur de recherche smantique que nous avonsmis en place et qui permet de visualiser des informations (agrges depuis diffrents outilsdentreprise) au sujet des instances dontologies peuples depuis les wikis, tout en propo-sant dtendre la recherche en considrant lensemble des diffrents graphes dannotationsdisponibles au sein du systme. Nous avons galement propos de nouvelles manires devisualiser ces informations, notamment au travers dun systme de mash-up combinant don-nes internes au systme organisationnel et donnes RDF publiques et reposant sur uneinterface facettes.

    Alors que lensemble de nos recherches ont t valids dans un contexte industriel, laporte de certaines de nos propositions est plus large que ce cadre dentreprise, et plus gn-ralement que ce contexte dEntreprise 2.0. Diffrents travaux ont ainsi t publis sous formedontologies publiques ou de logiciels libres, permettant leur utilisation a grande chelle surle Web. Ainsi, ce manuscrit propose, plus globalement, diffrentes rflexions sur la compl-mentarit, selon nous ncessaire, entre Web 2.0 et Web Smantique, pour mener bien lavision dun Web social et introprable.

    Mots-cls :

    Web 2.0, Entreprise 2.0, Web Smantique, Ontologies, Folksonomies, Wikis, SIOC, MOAT,Linked Data

  • Abstract

    This Ph.D. thesis is part of some recent works regarding the complementarity betweenthe Semantic Web and the Web 2.0, two visions of the Web that have often been conside-red, wrongly, as disjoints. Especially, our focus is the use of Semantic Web technologies (i.elanguages, models, tools and protocols) in Enterprise 2.0 contexts, a vision in which mostof the commonly used Web 2.0 tools (such as blogs, wikis, content-sharing services, taggingpractices ...) became popular in corporate information systems.

    Yet, while these tools can ease the process of information sharing and collaborationsbetween individuals, with the global aim to create a Collective Intelligence within suchstructures, they introduce new issues regarding how to efficiently use the information theyhelped to produce. On the one hand, the nature and diversity of the services used makesthe information integration process a complex task, from various sources fragmented in thecorporate network (blogs, wikis, RSS feeds ...). On the other hand, the plain-text nature ofthese tools makes also difficult to reuse the created knowledge, especially regarding wikis,generally used as valuable knowledge bases. Finally, the practice of tagging raises severalproblems in terms of information retrieval, especially due to the ambiguity and heteroge-neity of the tags used, as well as their lack of organization.

    In order to solve these different issues and considering the SLATES acronym (Search,Links, Authoring, Tags, Extension, Signals) used to define the Enterprise 2.0 vision, we havedefined the SemSLATES paradigm, proposing a social semantic middleware architecture onthe top of existing enterprise services. This proposal implies to define and implement va-rious components, both in terms of knowledge engineering and software architecture, com-ponents that we have developed in the context of this Ph.D., relying essentially on SemanticWeb technologies, via W3C standards.

    Hence, our research have consisted in modeling various formal ontologies, in order todefine both the socio-structural meta-data (in order to represent community interactionshappening in these applications as well as the content emerging from these interactions)and business data (in order to annotate the data contained in the application) Regardingthe first type of ontologies, we have actively participated in the SIOC project Semantically-Interlinked Online Communities that defines a model to represent activities of online com-munities and their related contributions. Regarding the second one, we have defined se-veral domain ontologies, lightweight, extensible and based on existing and Web-used mo-dels, hence defining some good practices regarding lightweight ontologies modeling in suchcontext. Finally, in order to provide some relationships between these two levels of know-

    v

  • ledge representation, we defined MOAT Meaning Of A Tag that allows to create a bridgebetween tags, tagged content and Semantic Web resources (i.e.aclasses and instances fromontologies) in order to benefit both the flexibility of folksonomies and of the power of se-mantic indexing based on ontologies. While being independent, these various models arti-culate themselves in a consistent manner in order to take into account the different layers ofknowledge representation for such semantic ecosystems.

    We have also developed several software components (communicating between eachother thanks to a set of dedicated protocols) in order to produce and use semantic annota-tions in a user-friendly way for end-users. In the context of producing semantic annotations,we wrote different services that automatically export SIOC-based annotations from blogs,wikis and RSS feeds in this enterprise context. We have also defined a semantic wiki ser-vice in order to let end-users participate in a collaborative, open and incremental processto define formal knowledge bases driven by ontologies, without letting these users face thecomplexity of the underlying models. Moreover, we have also designed several innovativeservices using the produced annotations. We wrote a dedicated semantic search engine allo-wing to browse information (aggregated from various enterprise sources) related to ontolo-gies instances, populated via the wikis. The engine also provides a search extension systemby considering the whole graphs of semantic annotations available in the ecosystem. Wehave also proposed new ways to browse these information, building a dedicated mash-upsystem combining internal information and public RDF data and using a faceted browsinginterface.

    While our research has been done in an industrial context, the scope of our proposalsgoes further than this corporate context and more generally than the Enterprise 2.0 context.Hence, various works have then been published as public ontologies or free software, allo-wing to be used at a Web scale. Thus, this thesis suggests, more broadly, different ideas andthoughts regarding the complementarity, in our opinion needed, between Web 2.0 and theSemantic Web, to envision of a social and interoperable Web.

    Keywords :

    Web 2.0, Enterprise 2.0, Semantic Web, Ontologies, Folksonomies, Wikis, SIOC, MOAT,Linked Data

  • Table des matires

    Rsum iii

    Abstract v

    Table des matires vii

    Table des figures xi

    Liste des tableaux xv

    Listings xvii

    Introduction 1Contexte et problmatique scientifique . . . . . . . . . . . . . . . . . . . . . . . . . 1

    Contexte de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1Motivations et axes de recherche . . . . . . . . . . . . . . . . . . . . . . . . 2Principaux rsultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4

    Organisation du mmoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6Plan du mmoire . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6Guide de lecture . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8

    1 Vers une convergence entre Web Smantique et Web 2.0 11Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 111.1 Formalismes et structures de donnes avec le Web Smantique . . . . . . . 12

    1.1.1 Vers un Web interprtable par les machines . . . . . . . . . . . . . 121.1.2 Reprsentation des connaissances avec RDF(S) et OWL . . . . . . 161.1.3 Interrogation de donnes avec SPARQL . . . . . . . . . . . . . . . 251.1.4 Web Smantique et Web of Data . . . . . . . . . . . . . . . . . . . . 27

    1.2 Du consommateur au producteur avec le Web 2.0 . . . . . . . . . . . . . . 311.2.1 Une vision participative du Web . . . . . . . . . . . . . . . . . . . 311.2.2 Blogs, wikis, rseaux sociaux et syndication de contenu . . . . . . 341.2.3 Mtadonnes sociales : tags et folksonomies . . . . . . . . . . . . 39

    1.3 Complmentarit entre les deux domaines . . . . . . . . . . . . . . . . . . . 431.3.1 Synthse des deux visions . . . . . . . . . . . . . . . . . . . . . . . 43

    vii

  • 1.3.2 Apports du Web 2.0 pour le Web Smantique . . . . . . . . . . . . 441.3.3 Apports du Web Smantique pour le Web 2.0 . . . . . . . . . . . . 46

    Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 47

    2 SemSLATES : Une approche smantique pour lEntreprise 2.0 49Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 492.1 Web collaboratif en entreprise : le projet Athna . . . . . . . . . . . . . . . 50

    2.1.1 Origine et objectifs du projet . . . . . . . . . . . . . . . . . . . . . . 502.1.2 Rpondre efficacement aux diffrents besoins . . . . . . . . . . . . 532.1.3 Complmentarit gnrale des outils . . . . . . . . . . . . . . . . . 572.1.4 Retour sur exprience . . . . . . . . . . . . . . . . . . . . . . . . . 59

    2.2 Limites de lapproche classique . . . . . . . . . . . . . . . . . . . . . . . . . 622.2.1 Fragmentation de linformation et htrognit des formats . . . 622.2.2 Capitalisation des connaissances . . . . . . . . . . . . . . . . . . . 632.2.3 Tags et recherche dinformation . . . . . . . . . . . . . . . . . . . . 632.2.4 Synthse des problmes rencontrs . . . . . . . . . . . . . . . . . . 68

    2.3 cosystme smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . 692.3.1 Web Smantique et mthodologie SemSLATES . . . . . . . . . . . 692.3.2 Dfinition dune architecture sociale de mdiation smantique . . 712.3.3 Modles, adaptateurs et services . . . . . . . . . . . . . . . . . . . 732.3.4 Situation de lapproche vis--vis de ltat de lart . . . . . . . . . . 77

    Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    3 Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0 83Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 833.1 Mtadonnes socio-structurelles pour le Web 2.0 avec SIOC . . . . . . . . . 84

    3.1.1 Identification des Besoins . . . . . . . . . . . . . . . . . . . . . . . 843.1.2 Positionnement par rapport de lart . . . . . . . . . . . . . . . . 863.1.3 Prsentation du modle de reprsentation SIOC . . . . . . . . . . 893.1.4 Alignement avec des vocabulaires existants . . . . . . . . . . . . . 933.1.5 SIOC, FOAF et la portabilit des donnes Web 2.0 . . . . . . . . . 963.1.6 Adoption du modle et valuation . . . . . . . . . . . . . . . . . . 101

    3.2 Modlisation des ontologies mtier . . . . . . . . . . . . . . . . . . . . . . . 1033.2.1 Besoins en termes de reprsentation mtier . . . . . . . . . . . . . 1033.2.2 FOAF pour la reprsentation des personnes physiques et morales 1043.2.3 Localisation avec Geonames . . . . . . . . . . . . . . . . . . . . . . 1073.2.4 Ontologies des rles et utilisation de SKOS . . . . . . . . . . . . . 1093.2.5 Articulation globale des diffrentes ontologies mtier . . . . . . . 117

    3.3 MOAT pour lier tags et ontologies . . . . . . . . . . . . . . . . . . . . . . . 1193.3.1 Tags, folksonomies et ontologies : un tat de lart . . . . . . . . . . 1193.3.2 Reprsentation de la signification des tags avec MOAT . . . . . . 1263.3.3 Modle de reprsentation MOAT . . . . . . . . . . . . . . . . . . . 1283.3.4 Positionnement de MOAT par rapport ltat de lart . . . . . . . 134

    Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

  • 4 Annotations smantiques et peuplement collaboratif dontologies 137Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1374.1 Annotation smantique de documents Web 2.0 . . . . . . . . . . . . . . . . 138

    4.1.1 Une approche automatise pour lannotation socio-structurelle . 1384.1.2 Implmentation au sein de la plate-forme Herms . . . . . . . . . 1394.1.3 API SIOC et passage lchelle de lannotation socio-structurelle

    de documents Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . 1434.2 UfoWiki pour le peuplement dontologies mtier . . . . . . . . . . . . . . . 148

    4.2.1 Wikis smantiques et peuplement dontologies : intrt et tat delart . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 148

    4.2.2 Objectifs, principes et architecture dUfoWiki . . . . . . . . . . . . 1544.2.3 Architecture logicielle . . . . . . . . . . . . . . . . . . . . . . . . . 1564.2.4 Utilisation dUfoWiki et peuplement collaboratif dontologies . . 1614.2.5 Evaluation de loutil et statistiques dutilisation . . . . . . . . . . 166

    4.3 Du tagging lindexation smantique . . . . . . . . . . . . . . . . . . . . . 1714.3.1 Processus dindexation smantique associ MOAT . . . . . . . . 1714.3.2 Implmentations logicielles . . . . . . . . . . . . . . . . . . . . . . 175

    4.4 Retour sur lutilisation de MOAT dans notre contexte dEntreprise 2.0 . . . 183Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 185

    5 Intgration et utilisation dannotations smantiques distribues 187Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1875.1 Stockage des donnes et protocoles associs . . . . . . . . . . . . . . . . . . 188

    5.1.1 De la ncessit dun entrept de donnes . . . . . . . . . . . . . . 1885.1.2 Besoins et choix de lentrept . . . . . . . . . . . . . . . . . . . . . 1925.1.3 Protocoles de communication . . . . . . . . . . . . . . . . . . . . . 195

    5.2 Enrichissement des fonctionnalits des wikis . . . . . . . . . . . . . . . . . 1995.2.1 Utilisation de macros smantiques pour lutilisation dannotations 1995.2.2 Contextualisation des macros pour augmenter le potentiel de veille 2045.2.3 Interfaces avances de visualisation et mash-ups smantiques . . . 206

    5.3 Interoprabilit entre applications via les annotations . . . . . . . . . . . . 2105.3.1 Intgration des contenus des blogs au sein des wikis . . . . . . . . 2105.3.2 Indexation de flux RSS guide par les annotations . . . . . . . . . 2125.3.3 Projection de connaissances pour laide la veille technologique . 214

    5.4 Recherche smantique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . . 2155.4.1 Recherche dinformation et Web Smantique . . . . . . . . . . . . 2155.4.2 Mise en place dun moteur de recherche exploitant ontologies et

    annotations . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2165.4.3 Suggestion de concepts et de contenus proches . . . . . . . . . . . 219

    Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 225

    Conclusion gnrale 227Retour sur les impacts de la thse . . . . . . . . . . . . . . . . . . . . . . . . . . . . 227Perspectives et rflexions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 230

  • A Prfixes et espaces de noms utiliss dans ce mmoire 233

    B Requte SPARQL pour la traduction de donnes RSS vers SIOC 235

    C Ontologie des rles 237

    D Exemple dannotations mtier produites avec UfoWiki 239

    E Exemple dannotations socio-structurelles produites avec UfoWiki 243

    F Analyse de proprits DBpedia 247

    Bibliographie 249

  • Table des figures

    0.1 Organisation des chapitres . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    1.1 Proposition darchitecture distribue qui conduira au World Wide Web . . . . . 131.2 Pile du Web Smantique, Fvrier 2008 . . . . . . . . . . . . . . . . . . . . . . . 151.3 Reprsentation graphique de triplets RDF . . . . . . . . . . . . . . . . . . . . . 181.4 Graphes nomms et identification de lauteur dun ensemble de triplets . . . 201.5 Nuage de donnes du projet Linking Open Data . . . . . . . . . . . . . . . . . 281.6 Le document en tant que support de donnes pour le Web Smantique . . . . 291.7 Lcosystme Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 321.8 Etat de la blogosphre, Avril 2007 . . . . . . . . . . . . . . . . . . . . . . . . . . 361.9 Le Web en tant que plate-forme, lexemple de RSS . . . . . . . . . . . . . . . . 391.10 Actions de tagging combines autour dune mme photo . . . . . . . . . . . . 411.11 Exemple de nuage de tags (Delicious) . . . . . . . . . . . . . . . . . . . . . . . 421.12 Web 2.0 pour le Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . . . 451.13 Web Smantique pour le Web 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . 461.14 Convergence entre Web Smantique et Web 2.0 . . . . . . . . . . . . . . . . . . 47

    2.1 Utilisation de Twitter par le service Web 2.0 Slideshare pour communiqueravec ses utilisateurs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    2.2 Interface personnelle de visualisation de flux RSS au sein dHerms . . . . . . 542.3 Coconstruction de connaissances avec les wikis . . . . . . . . . . . . . . . . . . 562.4 Scnario idal dutilisation des diffrents lments de publication de la plate-

    forme . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 582.5 volution des billets et des commentaires sur la plate-forme . . . . . . . . . . 602.6 Rsultats dune recherche associe au tag apple sur Flickr . . . . . . . . . . . 642.7 Tags suggrs par cooccurrence sur Delicious . . . . . . . . . . . . . . . . . . . 662.8 Distribution des tags au sein de notre folksonomie . . . . . . . . . . . . . . . . 672.9 Annotations smantiques en support dun systme dEntreprise 2.0 existant

    selon trois niveaux dannotations . . . . . . . . . . . . . . . . . . . . . . . . . . 702.10 Architecture de mdiation smantique pour lEntreprise 2.0 . . . . . . . . . . 722.11 Reprsentation unifie des mtadonnes documentaires avec SIOC . . . . . . 752.12 Architecture RDF Bus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

    3.1 Intgration de donnes htrognes rparties avec SIOC . . . . . . . . . . . . 86

    xi

  • 3.2 Le modle de classes et proprits de SIOC . . . . . . . . . . . . . . . . . . . . 913.3 Comptes utilisateur et personne physique avec SIOC et FOAF . . . . . . . . . 953.4 Interoprabilit entre donnes sociales avec SIOC et FOAF . . . . . . . . . . . 983.5 Unification de rseaux sociaux distribus avec owl :sameAS . . . . . . . . . . 993.6 Visualisation uniforme de rseaux sociaux distribus . . . . . . . . . . . . . . 993.7 Utilisation combine de FOAF et OpenID avec SparqlPress . . . . . . . . . . . 1003.8 Statistiques de production de donnes SIOC sur le Web . . . . . . . . . . . . . 1023.9 Taxonomie des sous-classes dAgent dans Proton . . . . . . . . . . . . . . . . . 1053.10 Relations gographiques entre entits et transitivit de la proprit parentFeature

    de Geonames . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1103.11 Distinction entre taxonomies et ontologies . . . . . . . . . . . . . . . . . . . . . 1133.12 Taxonomies de domaines en OWL-Full . . . . . . . . . . . . . . . . . . . . . . . 1143.13 Taxonomies de domaines en OWL-Lite . . . . . . . . . . . . . . . . . . . . . . . 1153.14 Taxonomies de domaines avec SKOS . . . . . . . . . . . . . . . . . . . . . . . . 1163.15 Combinaison dontologies et base de connaissance associe pour dfinir des

    assertions au sujet dEDF . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1183.16 Tags et actions de tagging avec la Tag Ontology . . . . . . . . . . . . . . . . . . . 1233.17 Modlisation quadripartite de deux relations de tagging au sein dune folkso-

    nomie . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1283.18 Significations globales du tag apple avec MOAT . . . . . . . . . . . . . . . . . 1303.19 Reprsentation de la signification locale du tag apple avec MOAT et DBpedia 1313.20 Modle de reprsentation MOAT . . . . . . . . . . . . . . . . . . . . . . . . . . 1333.21 Articulation dontologies pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . . 136

    4.1 Processus gnrique de production de donnes RDF depuis des services Web2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

    4.2 Processus de traduction RSS / Atom vers SIOC . . . . . . . . . . . . . . . . . . 1414.3 Processus de traduction des donnes de blogs et wikis vers SIOC . . . . . . . 1444.4 Exemple de traduction dun billet de blog vers SIOC . . . . . . . . . . . . . . . 1444.5 Reprsentation de liens rdfs :seeAlso entre documents RDF avec lAPI SIOC . 1464.6 Cartographie de rseaux sociaux avec FOAFMap . . . . . . . . . . . . . . . . . 1484.7 Du wiki au Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1494.8 Interactions entre annotations documentaires et annotations mtier dans Ufo-

    Wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1574.9 Association dun type de page une classe avec UfoWiki . . . . . . . . . . . . 1584.10 Cration de formulaire pour une classe donne avec UfoWiki . . . . . . . . . . 1594.11 Architecture dun wiki au sein dUfoWiki . . . . . . . . . . . . . . . . . . . . . 1604.12 Slection dun type de contenu avec UfoWiki . . . . . . . . . . . . . . . . . . . 1614.13 dition dune page wiki pour la cration dinstance via UfoWiki . . . . . . . . 1624.14 Gestion dune taxonomie de domaines avec UfoWiki . . . . . . . . . . . . . . 1634.15 Production dannotations bases sur Geonames avec UfoWiki . . . . . . . . . 1654.16 Statistiques dutilisation dUfoWiki : Pages et instances . . . . . . . . . . . . . 1694.17 Statistiques dutilisation dUfoWiki : Pages, instances et triplets . . . . . . . . 170

  • 4.18 Framework utilisateur MOAT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1724.19 Workflow client / serveur et processus MOAT . . . . . . . . . . . . . . . . . . . 1744.20 Interface utilisateur du module MOAT pour Drupal couple au widget Sindice 1754.21 Choix dun concept pour dsambiguser un tag au sein du client MOAT Athna 1774.22 Parcours de la taxonomie des classes pour dfinir une nouvelle signification . 1784.23 Cration dune nouvelle instance et association dun tag via le client MOAT . 1794.24 Visualisation des diffrents tags associs un concept . . . . . . . . . . . . . . 1794.25 Architecture de LODr . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1804.26 Assignation dune URI un tag particulier avec LODr . . . . . . . . . . . . . . 1814.27 Nuage de concepts avec LODr . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

    5.1 Vision globale des actions, annotations et ontologies dun cosystme sman-tique pour lEntreprise 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 189

    5.2 Rpartition des ontologies et annotations au sein du systme . . . . . . . . . . 1905.3 Architecture associe PTSW pour lindexation et la dcouverte de docu-

    ments RDF sur le Web Smantique . . . . . . . . . . . . . . . . . . . . . . . . . 1965.4 doap :store : Annuaire et interface de visualisation de projets logiciels mod-

    liss avec DOAP . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1975.5 Protocoles dabstraction au-dessus de lentrept de donnes du mdiateur . . 1995.6 Processus dinterprtation des macros au sein dUfoWiki . . . . . . . . . . . . 2005.7 Rsultat dune macro smantique listant lensemble des associations recen-

    ses au sein dun wiki . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2035.8 Rsultat dune macro contextualise . . . . . . . . . . . . . . . . . . . . . . . . 2055.9 URIs partages entre graphes dannotations . . . . . . . . . . . . . . . . . . . . 2055.10 Slection de facettes partir de diffrentes ontologies . . . . . . . . . . . . . . 2075.11 Visualisation facettes dun wiki avec Exhibit . . . . . . . . . . . . . . . . . . 2085.12 Interface facettes pour visualiser des donnes SIOC avec SMOB . . . . . . . 2085.13 Golocalisation dun ensemble dacteurs avec Exhibit et Geonames . . . . . . 2095.14 Golocalisation au sein dune macro contextualise . . . . . . . . . . . . . . . 2105.15 Interoprabilit entre applications via lutilisation dannotations smantiques 2115.16 Projection de connaissances sur des contenus internes . . . . . . . . . . . . . . 2145.17 Choix dun concept partir dun terme de recherche . . . . . . . . . . . . . . . 2175.18 Rendu du moteur de recherche smantique au sein dHerms . . . . . . . . . 2185.19 Accs au moteur de recherche via les concepts identifis avec MOAT . . . . . 2195.20 Identification de contenus proches via des relations entre concepts associs . 2205.21 Identification des domaines plus spcifiques qunergie solaire . . . . . . . . . . 2215.22 Identification dacteurs proches de Gaz de France selon une rgle prdfinie . 2225.23 Relations entre experts et non-experts en combinant FOAF, SIOC, MOAT et

    SKOS . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2235.24 Suggestion de concepts proches au sein de LODr . . . . . . . . . . . . . . . . . 2245.25 Systme de recommendations musicales bases sur DBpedia . . . . . . . . . . 2255.26 Vision du Web axe sur une convergence humain-machine-humain . . . . . . . 229

  • Liste des tableaux

    1.1 Exemple de rgles dinfrence RDFS . . . . . . . . . . . . . . . . . . . . . . . . 231.2 Caractristiques compares du Web Smantique et du Web 2.0 . . . . . . . . . 43

    2.1 SLATES et la plate-forme Herms . . . . . . . . . . . . . . . . . . . . . . . . . . 572.2 Utilisateurs et contributeurs au sein dHerms . . . . . . . . . . . . . . . . . . 592.3 Statistiques des flux RSS au sein dHerms . . . . . . . . . . . . . . . . . . . . 592.4 Statistiques des contributions utilisateur au sein dHerms . . . . . . . . . . . 602.5 Tags utiliss pour le concept de Web Smantique sur Delicious . . . . . . . . . 652.6 Distribution des tags au sein de la plate-forme Herms . . . . . . . . . . . . . 672.7 Problmatiques soulevs par lapproche SLATES classique au sein dHerms 682.8 Fonctionnalits compares de SLATES et SemSLATES . . . . . . . . . . . . . . 70

    3.1 Elments du module Types de SIOC . . . . . . . . . . . . . . . . . . . . . . . . 933.2 Comparaison de diffrentes ontologies pour la reprsentation des tags et des

    objets associs . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1253.3 Situation de MOAT par rapport ltat de lart . . . . . . . . . . . . . . . . . . 134

    4.1 Positionnement dUfoWiki par rapport dautres wikis smantiques . . . . . 1684.2 Distribution des tags au sein de la plate-forme Herms . . . . . . . . . . . . . 184

    5.1 Associations entre URIs et termes contrles par les utilisateurs . . . . . . . . 213

    xv

  • Listings

    1.1 Reprsentation Turtle de triplets RDF . . . . . . . . . . . . . . . . . . . . . . 171.2 Reprsentation RDF/XML de triplets RDF . . . . . . . . . . . . . . . . . . . 171.3 Exemple dassertions modlises avec RDFa . . . . . . . . . . . . . . . . . . 181.4 Exemple de base de connaissances associe une ontologie . . . . . . . . . . 231.5 Exemple dontologie reprsente en RDFS et srialise en Turtle . . . . . . . 231.6 Exemple de requte SPARQL SELECT . . . . . . . . . . . . . . . . . . . . . . 251.7 Exemple de requte SPARQL CONSTRUCT . . . . . . . . . . . . . . . . . . . 261.8 Exemple de requte SPARQL ASK . . . . . . . . . . . . . . . . . . . . . . . . 261.9 Exemple de requte SPARQL DESCRIBE . . . . . . . . . . . . . . . . . . . . 261.10 Inconsistence logique cause par lutilisation de liens owl:sameAs entre

    ressources . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 301.11 Exemple de flux RSS 2.0 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 382.1 Reprsentation dassertions au sujet dEDF . . . . . . . . . . . . . . . . . . . 763.1 Exemple de contenu Web 2.0 avec SIOC . . . . . . . . . . . . . . . . . . . . . 913.2 Exemple de requte SPARQL ddie SIOC . . . . . . . . . . . . . . . . . . . 923.3 Exemple de billet de blog avec SIOC et son module Types . . . . . . . . . . . 933.4 Utilisation de proprits issues du DublinCore avec SIOC . . . . . . . . . . . 943.5 Rgle dinfrence pour lier SIOC et FOAF, reprsente en N3 . . . . . . . . . 953.6 Extension de FOAF pour la gestion de diffrents types dagents . . . . . . . 1063.7 Modlisation de partenariats entre agents . . . . . . . . . . . . . . . . . . . . 1073.8 Localisation dune entreprise avec FOAF et le Geo Vocabulary . . . . . . . . 1073.9 Dfinition de la proprit locatedIn de Geonames . . . . . . . . . . . . . . 1093.10 Modle simple pour la reprsentation des rles . . . . . . . . . . . . . . . . . 1113.11 Modle pour la reprsentation des rles avec prise en compte du mtier et

    du domaine . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1123.12 Association dun rle un agent . . . . . . . . . . . . . . . . . . . . . . . . . 1123.13 Modle complet pour la reprsentation des rles . . . . . . . . . . . . . . . . 1163.14 Ensemble dassertions au sujet dEDF laide de diffrents modles . . . . . 1193.15 Significations globales du tag "apple" avec MOAT . . . . . . . . . . . . . . . 1303.16 Signification locale du tag "apple" avec MOAT . . . . . . . . . . . . . . . . . 1313.17 Rgle dinfrence pour MOAT, reprsente en N3 . . . . . . . . . . . . . . . 1324.1 Utilisation de Jena pour reprsenter des donnes RDF . . . . . . . . . . . . . 1454.2 Requte interne au sein de MediaWiki . . . . . . . . . . . . . . . . . . . . . . 152

    xvii

  • 5.1 Requte SPARQL pour linterrogation de donnes SIOC via un moteur sup-portant les principes dinfrence RDFS . . . . . . . . . . . . . . . . . . . . . . 194

    5.2 Restriction dune requte SPARQL aux graphes produits par un wiki donn 2015.3 Fonction PHP et requte SPARQL associes une macro UfoWiki . . . . . . 2025.4 Requte SPARQL avec contextualisation des macros . . . . . . . . . . . . . . 2045.5 Requte SPARQL pour identifier des billets annots avec un concept parti-

    culier . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2125.6 Identification de pages associes un concept proche . . . . . . . . . . . . . 2185.7 Rgle dinfrence pour identifier deux contenus proches en utilisant MOAT,

    SIOC et des relations entre URIs . . . . . . . . . . . . . . . . . . . . . . . . . . 2205.8 Rgle dinfrence base sur SKOS pour lidentification de concepts proches 2215.9 Rgle dinfrence pour lidentification de concepts proches partir de rela-

    tions entre domaines . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222

  • To a computer, the Web is a flat, boring world, devoid of meaning. This is a pity,as in fact documents on the Web describe real objects and imaginary concepts,and give particular relationships between them. For example, a document mightdescribe a person. The title document to a house describes a house and also theownership relation with a person. Adding semantics to the Web involves twothings : allowing documents which have information in machine-readable forms,and allowing links to be created with relationship values. Only when we havethis extra level of semantics will we be able to use computer power to help usexploit the information to a greater extent than our own reading.

    Tim Berners-Lee, Prsentation "W3 future directions"1st World Wide Web Conference, Genve, Mai 1994

  • Introduction

    CONTEXTE ET PROBLMATIQUE SCIENTIFIQUE

    Contexte de la thse

    Les travaux prsents dans ce mmoire sinscrivent dans le cadre dune thse effectueen contrat CIFRE1 en collaboration entre le LaLIC2, Universit Paris-Sorbonne (Paris IV) etle centre de Recherche et Dveloppement dElectricit de France (EDF R&D par la suite) Clamart3. Nous avons ainsi t rattachs EDF R&D de Fvrier 2005 Mai 2008, au seinde trois services successifs, poursuivant ensuite nos travaux part entire au LaLIC puis auDERI4, National University of Ireland, Galway, partir de Septembre 2008.

    Si ce contexte nous a parfois amen chercher un compromis entre impratifs industriels court ou moyen terme et recherche scientifique, il nous a cependant permis de confronternos travaux des situations relles. Ainsi, nous avons pu tester nos diffrentes hypothseset les outils associs au sein dun systme dploy en grandeur nature, nous permettant deprendre en compte les retours utilisateur pour affiner certains choix. Ceci nous a en outreconduit une certaine rigueur et essayer le plus souvent possible denvisager des solutionsvolutives et adaptes un nombre croissant dutilisateurs. Si cette composante appliquenous a conduits dans certains cas dvelopper des solutions ad hoc pour lentreprise, nousavons fait en sorte de toujours garder lesprit une problmatique de recherche plus large demanire gnraliser nos rsultats lchelle du Web, comme nous le verrons tout au longde ce mmoire. Ainsi, si la plupart des travaux prsents ici trouvent leur motivation etsarticulent globalement dans un contexte dEntreprise 2.0, la porte de certains dentre euxsavre plus large que ce cadre industriel. Il nous a en effet sembl pertinent de considrercette thse CIFRE non pas comme un vase clos, mais comme un contexte dexprimentationde ce quil est possible de raliser plus grand chelle sur le Web Smantique, notammenten faisant le choix ds le dbut de nous baser sur les diffrents langages et recommandationsdu W3C5.

    1Conventions Industrielles de Formation par la Recherche2Langages, Logique, Informatique et Cognition http://www.lalic.paris4.sorbonne.fr/. NB : Len-

    semble des liens hypertexte de cette thse ont t vrifis la date du 26 Janvier 2009.3EDF R&D dispose de trois sites sur le territoire franais, rassemblant plus de 2000 chercheurs. Plus dun

    millier dentre eux sont situs sur le site de Clamart, sur des thmatiques aussi diverses que les nergies renou-velables ou la scurit informatique au sein des centrales nuclaires. http://retd.edf.fr

    4Digital Enterprise Research Institute http://deri.org5World Wide Web Consortium http://w3c.org

    1

  • INTRODUCTION

    Enfin, dun pont de vue plus gnral, il est important de mentionner que nous sommesarrivs au Web Smantique (et aux travaux de recherche prsents dans cette thse) par at-trait pour le Web et par volont de participer, notre chelle, lvolution de ce formidablemdium. Cest dailleurs la suite dun IUP Gnie Mathmatiques et Informatique et dunDESS Technologies de lInternet pour les Organisations, accompagns en parallle de plu-sieurs annes dexprience en tant quingnieur dveloppement Web que nous avons dcidde reprendre le chemin des tudes pour mener une thse sur le sujet. Un DEA Informatiqueet Systmes Intelligents6 nous a ainsi amen dcouvrir la notion dontologies ddies la modlisation de donnes sur le Web avant de poursuivre sur un stage relatif lanno-tation sur le Web Smantique au LaLIC, point de dpart de nos travaux. Notre expriencepasse autour des technologies du Web et notre passion pour celui-ci nous semblent im-portants signaler dans la mesure o ils permettent de comprendre certains choix relatifs nos travaux. Nous dfendons ainsi dans ce mmoire une vision assez pragmatique du WebSmantique, et plus gnralement une vision applique de la recherche. Cest en effet selonnous en combinant recherche et standardisation autour de technologies cls associes uncontexte applicatif fort que lon parviendra mener le Web son plein potentiel7.

    Motivations et axes de recherche

    Les travaux prsents dans ce mmoire sinscrivent dans la ligne des recherches au-tour du Web Smantique et du Web 2.0, deux visions rcentes dune certaine volution duWeb. Plus particulirement, nous nous intressons la manire dont celles-ci peuvent co-habiter et bnficier chacune des apports de lautre. Alors quelles ont souvent, tort, tconsidres comme disjointes, il nous semble au contraire pertinent dtudier en quoi leurcomplmentarit permettra de conduire un Web bas sur un ensemble dinteractions so-ciales entre internautes et aux donnes interprtables sans ambigut par des agents logicielsautonomes.

    Cest en envisageant cette complmentarit que lon pourra terme proposer de nou-veaux services innovants en termes dintgration, de visualisation et de recherche dinfor-mation sur le Web, alors considr comme une immense base de donnes sociale et distri-bue. Plus particulirement, ltude de cette convergence nous a amen approfondir nostravaux en fonction de trois thmatiques principales, dont nous prsenterons de maniresuccincte diffrents rsultats dans la seconde partie de cette introduction.

    La modlisation des mtadonnes socio-structurelles associes aux outils Web 2.0

    Si le Web 2.0 a introduit de nouvelles pratiques sociales en termes dchange dinforma-tions et dmergence de communauts en ligne, la diversit des applications et des servicesintroduits nous confronte invitablement une htrognit des formats de modlisation.Chaque outil ou service dispose en effet de ses propres modles de donnes, rendant dece fait complexes lintgration, lchange et la recherche dinformation partir de sourcesmultiples. Si cette diversit est problmatique dans un contexte comme celui du Web, elle

    6Celui-ci, tout comme lIUP et le DESS voqus prcdemment, a t suivi LUniversit Paris-Dauphine(Paris IX).

    7Traduction du slogan du W3C

    2

  • Contexte et problmatique scientifique

    lest galement dans des environnements plus restreints utilisant ces mmes outils, tels queles systmes dinformations dEntreprise 2.0 o un accs pertinent linformation est nces-saire. Ainsi, une partie de nos travaux a consist en la dfinition de modles pour permettrela reprsentation commune des mtadonnes socio-structurelles associes aux outils Web2.0 via lutilisation de technologies du Web Smantique. Par reprsentation des mtadon-nes socio-structurelles, nous entendons la fois la modlisation de notions documentaireset structurelles (distinguer par exemple un billet de blog dune page wiki, identifier le lienentre une page wiki et le wiki associ, etc.) et celle des interactions sociales qui sy rapportent(commentaire sur un blog, dition dune page wiki, etc.). De tels modles permettent de dis-poser dannotations smantiques partages depuis des systmes htrognes, facilitant ainsilintgration de contenus depuis diffrentes plates-formes et en consquence la recherchedinformation associe.

    La reprsentation de connaissances termino-ontologiques et le peuplement dontologies de domaine partir doutils Web 2.0

    Alors que le point prcdent se concentre sur des aspects documentaires et sociaux, il estgalement important de prendre en compte le contenu mme de ces documents Web 2.0. Silon se rfre aux dfinitions actuelles du Web Smantique telles que mises en avant par leW3C "The Semantic Web is a Web of Data"8 , il sagit donc de passer de documents aux re-prsentations des donnes du monde rel quils contiennent. Par exemple, nous souhaitonsmodliser partir dune page wiki intitule LaLIC quil sagit dun laboratoire de recherchebas Paris, i.e. passer du document et du terme la reprsentation du concept associ. Silsagit ici de thmatiques connues de peuplement dontologies, ou de manire plus large dereprsentations de connaissances termino-ontologiques, la problmatique qui nous intresseici est la prise en compte de lutilisateur final dans cette dmarche, notamment au traversdoutils Web 2.0. Alors que le Web 2.0 facilite la production de contenus documentaires,nous avons souhait approfondir la manire dont il permet la cration, lvolution et le par-tage de donnes, toujours au sens Web of Data, via ces outils Web 2.0. Plus particulirementnous nous sommes ici intresss :

    lutilisation de wikis pour le peuplement dontologies, en tudiant de quelle manireces outils permettent un peuplement ouvert, collaboratif et volutif dontologies dedomaine ;

    aux relations entre les systmes dindexation libre (et spontane) base de tags et desprocessus dindexation smantique plus classiques o les termes dindexation sont lis des ressources termino-ontologiques.

    Nos travaux dans ce domaine nous permettent ainsi denvisager en quoi les outils et les pro-cessus du Web 2.0 peuvent faciliter lmergence de donnes reprsentes selon les principesdu Web Smantique.

    8http://w3c.org/2001/sw

    3

  • INTRODUCTION

    Lexploitation de graphes dannotations smantiques pour linteroprabilit, la mise en commun et larecherche dinformation

    Enfin, une troisime thmatique que lon peut extraire de nos travaux et qui vient en co-rollaire des deux prcdentes est lexploitation de graphes dannotations smantiques pourproposer de nouveaux services valeur ajoute aux utilisateurs finals. Une des problma-tiques du Web Smantique est en effet le problme classique de la poule et luf : il est n-cessaire de disposer de donnes pour en montrer toute la puissance mais il est galementncessaire de disposer doutils les exploitant pour inciter leur production. Afin de mettrece cercle vertueux en place, diffrentes questions se posent, principalement vis vis desoutils permettant lexploitation de ces annotations :

    de quelle manire utiliser un nombre croissant dannotations distribues dans un ob-jectif de signalement pertinent dinformation ?

    comment masquer lutilisateur la complexit des graphes dannotations et des algo-rithmes de parcours et de requtes associs ?

    comment mettre en avant les rsultats obtenus pour que lutilisateur final prenneconscience de la valeur des donnes produites et accentue cette dmarche de produc-tion ?

    Ainsi, si lon devait rsumer nos motivations et la problmatique scientifique de cettethse en une phrase synthtique, nous pourrions reformuler de la manire suivante : Com-ment combiner Web Smantique et Web 2.0 afin de tirer profit dinteractions sociales issues doutilsdu Web 2.0 pour la reprsentation et lexploitation de connaissances formalises selon les principesdu Web Smantique ? Notons galement, comme le titre de ce mmoire lindique, que nosmotivations autour de cette convergence entre Web Smantique et Web 2.0 sont lies les-sor rcent de la notion dEntreprise 2.0, qui met en avant lutilisation des technologies etprincipes du Web 2.0 au sein de la sphre professionnelle.

    Principaux rsultats

    Rflexions sur la complmentarit entre Web 2.0 et Web Smantique

    De manire gnrale, nous avons dtaill travers nos travaux en quoi cette complmen-tarit entre Web 2.0 et Web Smantique nous paraissait ncessaire pour conduire un Webo les interactions sociales sont omniprsentes dans un objectif de production de donnesinterprtables et interoprables. Ainsi, nous avons montr en quoi le Web Smantique et sesformalismes de reprsentation des connaissances (au sens RDF(S)/OWL) ne sopposaientpas au contraire lutilisation doutils et de principes Web 2.0 [Passant et Laublet, 2008c].Nos rflexions ont port notamment sur lutilisation couple dontologies et de bases deconnaissances en support de systmes base de tags et de folksonomies [Passant et al., 2006][Passant, 2007c], ou encore sur lutilisation de wikis smantiques pour permettre un peuple-ment dontologies collaboratif, volutif et ouvert [Passant et Laublet, 2008e]. Dans ces deuxcas, il nous semble important de signaler que nous avons pris en compte le rle actif delutilisateur, proposant ainsi une vision du Web Smantique pense pour lutilisateur finalaussi bien en termes de production que dutilisation dannotations smantiques.

    Ces rflexions sur la complmentarit entre Web 2.0 et Web Smantique ont galementdonn lieu lorganisation de diffrents ateliers nationaux [Giboin et al., 2008] et internatio-

    4

  • Contexte et problmatique scientifique

    naux [Breslin et al., 2008] [Hausenblas et al., 2009], la participation plusieurs tutoriels sur lesujet dans des confrences comme WWW9, ESWC10 ou ISWC11 et la cordaction dun livresur le sujet [Breslin et al., 2009].

    Modles de reprsentation

    Afin de mettre en pratique ces rflexions, nous nous sommes attachs la dfinition dediffrentes ontologies permettant de modliser la fois les activits, les interactions et lescontenus crs par des communauts Web 2.0 laide de technologies du Web Smantique.Bien que voues des utilisations distinctes, ces diffrentes ontologies sarticulent de ma-nire complmentaire au sein dune architecture de mdiation smantique pour lEntreprise2.0.

    En termes de modlisation des mtadonnes socio-structurelles, nous avons ainsi contri-bu activement SIOC Semantically-Interlinked Online Communities [Breslin et al., 2005] ,de ses dbuts sa Soumission Membre au W3C en Juin 2007 [Berrueta et al., 2007], en tantque coauteur de la spcification et diteur de deux documents associs. Concernant nos tra-vaux autour de la complmentarit entre ontologies et tags, nous avons dfini le modleMOAT Meaning Of A Tag [Passant et Laublet, 2008b] permettant de rsoudre les pro-blmes classiques des systmes base de tags via lutilisation de bases de connaissances for-melles venant en support des folksonomies. Enfin, de manire plus proche des besoins decette convention CIFRE, nous avons galement dvelopp plusieurs vocabulaires permet-tant la reprsentation des connaissances mtier, en se basant notamment sur des modlespublics et abondamment utiliss sur le Web Smantique et en proposant certaines bonnespratiques dans ce contexte.

    Ainsi, nos diffrentes rflexions en termes de modles de reprsentation ont t bn-fiques aussi bien dans le contexte dentreprise de cette thse que de manire plus large surle Web.

    Ralisations logicielles

    En plus des modles voqus prcdemment, nos travaux ont galement conduit laralisation de diffrentes implmentations logicielles. Si celles-ci sont lies aussi bien aucontexte dentreprise de notre thse qu des dveloppements plus larges sur le Web, ellesont toutes en commun lobjectif de mettre en avant ce lien fort entre Web Smantique et Web2.0.

    Dune part, nous avons mis en place un ensemble doutils pour lEntreprise 2.0 agrmen-ts de modules ddis la production automatise dannotations smantiques, notamment partir de blogs, ainsi quun serveur de wikis smantiques permettant la reprsentationde donnes formalises selon les principes du Web Smantique [Passant et Laublet, 2008d].En termes dutilisation de ces annotations, nous avons dvelopp diffrents services de vi-sualisation de donnes RDF ainsi quun moteur de recherche smantique pour lentreprisevenant exploiter ontologies et annotations smantiques pour la recherche de documents an-

    9World Wide Web Conference http://www.iw3c2.org/10European Semantic Web Conference11International Semantic Web Conference http://iswc.semanticweb.org/

    5

  • INTRODUCTION

    nots [Passant et al., 2009c]. Cette architecture logicielle, propose sous la forme dun mdia-teur smantique pour lEntreprise 2.0 [Passant, 2008a], combine ainsi outils et principes duWeb 2.0 pour la production et visualisation dannotations et technologies du Web Sman-tique pour la reprsentation de celles-ci.

    Dautre part, nous avons dvelopp diffrentes applications Web dans cet objectif deconvergence entre Web 2.0 et Web Smantique, certains dveloppements ayant t mutua-liss avec les outils mis en place en entreprise, comme par exemple diffrents plug-in pourla production dannotations smantiques depuis le systme Drupal en utilisant les voca-bulaires SIOC et MOAT. Nous avons galement propos une API permettant de gnra-liser la production automatique dannotations smantiques socio-structurelles avec SIOC[Bojars et al., 2006], ainsi que des applications comme LODr [Passant, 2007a], permettantdappliquer les principes de MOAT des contenus Web 2.0 issus de services comme Flickrou Delicious, ou SMOB, service de microblogging ouvert et dcentralis reposant entire-ment sur les standards et technologies du Web Smantique [Passant et al., 2008]. En termesde visualisation de donnes, nous pouvons galement citer FOAFMap [Passant, 2006], undes premiers services de mash-up smantique, proposant la golocalisation de rseaux so-ciaux modliss en RDF.

    ORGANISATION DU MMOIRE

    Plan du mmoire

    Ce manuscrit est dcoup en cinq chapitres auxquels viennent sajouter cette introduc-tion et une conclusion. Si le plan gnral ne suit pas une approche traditionnelle qui consiste introduire ltat de lart puis nos travaux et leur valuation, chacun des chapitres reviendrasur ces diffrents aspects en fonction du domaine abord. Ce mmoire, qui peut se consid-rer la fois comme un ensemble de propositions autour de la convergence entre Entreprise2.0 (et plus gnralement Web 2.0) et Web Smantique et comme ltude dun cas pratiqueautour de cette convergence, sorganise ainsi de la manire suivante.

    Chapitre 1: Vers une convergence entre Web Smantique et Web 2.0, page 11

    Ce premier chapitre introduira les notions de Web Smantique et de Web 2.0, essentiellespour la bonne comprhension de ce mmoire. Dans la premire partie, nous prsenterons unbref historique du Web et introduirons ensuite les fondements du Web Smantique. Nousexpliciterons RDF et la notion dURIs pour la reprsentation de donnes, lutilisation deRDFS et OWL pour la dfinition dontologies et lutilisation de SPARQL pour linterrogationde donnes. Nous reviendrons galement sur le projet Linking Open Data et la vision dunWeb of Data, notamment par rapport au Web tel que nous le connaissons aujourdhui. Laseconde partie dtaillera la notion de Web 2.0 et les principaux changements introduits parcelui-ci. Nous prsenterons tout dabord les principes gnraux de cette vision participativedu Web, puis introduirons diffrents composants qui seront au cur de nos travaux parmilesquels blogs, wikis et systmes dannotation base de tags. Enfin, nous prsenterons unaperu gnral de la convergence possible entre ces deux domaines. Nous conclurons ainsice chapitre en introduisant certains des travaux qui seront dtaills par la suite dans ce

    6

  • Organisation du mmoire

    mmoire, comme la notion de modles communs pour les outils Web 2.0 ou lutilisation dewikis smantiques pour le peuplement dontologies.

    Chapitre 2: SemSLATES : Une approche smantique pour lEntreprise 2.0, page 49

    Nous introduirons le chapitre suivant en prsentant la notion dEntreprise 2.0 et le sys-tme dinformation initial que nous avons mis en place au sein dEDF. Nous identifieronsensuite ses limites, qui motivent nos travaux relatifs la mthodologie SemSLATES que nousavons dfinie et qui sera dtaille dans ce chapitre. Nous prsenterons ainsi lapport dunearchitecture de mdiation smantique dans ce contexte dEntreprise 2.0, architecture venantse greffer au dessus de lexistant sans pour autant remettre en cause celui-ci. Nous verronsen quoi lajout de diffrents composants logiciels sur des outils dj prsents permet de b-nficier dune smantique commune qui ouvre la voix une interoprabilit accrue entreapplications. Nous comparerons galement notre proposition certains travaux similaires,et tcherons de montrer en quoi notre approche nous semble novatrice et pertinente parrapport ltat de lart. Ce chapitre nous permettra galement dintroduire les trois cha-pitres suivants, qui dtailleront les diffrents aspects ncessaires pour mener bien cetteapproche, savoir (1) des modles communs de reprsentation, (2) des outils dannotationssmantiques et de peuplement dontologies et (3) des services exploitant ces ontologies etbases de connaissances.

    Chapitre 3: Rle et dfinition dun ensemble dontologies pour lEntreprise 2.0, page 83

    Ce troisime chapitre prsentera en dtail diffrentes ontologies que nous avons misesen place dans ce contexte dEntreprise 2.0, en distinguant les modles axs sur la reprsen-tation de donnes mtier et ceux mis en place pour la reprsentation des structures docu-mentaires et des interactions sociales sur le Web 2.0. La premire partie prsentera prin-cipalement nos travaux autour de SIOC, modle pour la reprsentation des mtadonnessocio-structurelles pour les outils et communauts Web 2.0. Nous prsenterons dautres mo-dles poursuivant un but similaire et dtaillerons lalignement de SIOC avec des vocabu-laires existants. Nous aborderons galement le rle de SIOC vis--vis des problmatiquesde portabilit des donnes sociales. La seconde partie prsentera ensuite les diffrentes on-tologies de domaine utilises dans notre architecture de mdiation. Alors que ces modlessont par nature dpendants du contexte applicatif, il nous semble utile de revenir dessusnotamment pour expliciter en quoi lutilisation et lextension de vocabulaires existants noussemble une bonne pratique dans un contexte dentreprise. Nous prsenterons galementcertaines problmatiques de modlisation dontologies auxquelles nous avons t confron-tes, et comment nous y avons fait face. Nous dtaillerons ensuite nos travaux en matirede reprsentation des tags et plus particulirement la dfinition de MOAT, modle permet-tant de prendre en compte et de modliser la signification des tags via des concepts duWeb Smantique, offrant ainsi la possibilit dtablir un lien souple entre folksonomies etontologies. Cette partie sera galement loccasion de comparer ce modle aux autres ontolo-gies permettant la reprsentation des tags et des folksonomies mais aussi de faire le parallleavec les approches permettant lenrichissement smantique de folksonomies de manire au-tomatique ou semi-automatique.

    7

  • INTRODUCTION

    Chapitre 4: Annotations smantiques et peuplement collaboratif dontologies, page 137

    Aprs avoir prsent les diffrents modles utiliss dans de tels cosystmes sman-tiques, nous dtaillerons dans ce quatrime chapitre les moyens mis en place pour permettreleur peuplement et ainsi produire les annotations smantiques sy rattachant. Nous dtaille-rons ainsi les diffrentes extensions que nous avons mises en place pour les outils exis-tants, en prsentant galement certains de nos efforts plus gnraux pour simplifier lanno-tation smantique et le peuplement dontologies depuis des services Web 2.0. Ce chapitre,plus technique que le prcdent, nous permettra tout dabord de prsenter les processus deproduction automatique dannotations smantiques modlises avec SIOC depuis des ou-tils existants. Nous nous attarderons ensuite sur notre prototype de wiki smantique, Ufo-Wiki, notamment sur la manire dont il permet de coupler la cration dannotations socio-structurelles et le peuplement dontologies mtier. Enfin, nous expliciterons les processusparticipatifs associs MOAT, permettant lindexation smantique de contenus partir desystmes base de tags et dtaillerons diffrentes implmentations logicielles associes, uti-lises aussi bien dans ce contexte de mdiation pour lEntreprise 2.0 que sur le Web.

    Chapitre 5: Intgration et utilisation dannotations smantiques distribues, page 187

    Aprs avoir prsent la dfinition de diffrentes ontologies pour lEntreprise 2.0 et laproduction des annotations smantiques associes, nous dtaillerons leur utilisation. Nousreviendrons tout dabord sur le caractre distribu de ces annotations et le besoin de dispo-ser dune architecture nous permettant facilement deffectuer des requtes sur celles-ci viaun entrept de donnes centralis. Ceci nous permettra de prsenter les diffrents protocolesde communication mis en place, la fois en termes dagrgation de donnes et dexploitationde celles-ci. Nous prsenterons ensuite diffrents services venant enrichir les outils existantspar lintermdiaire des annotations produites. Nous dtaillerons principalement (1) lenri-chissement des wikis smantiques via un systme de macros, (2) lutilisation dinterfacesde visualisation avances et la mise en place de mash-ups smantiques et (3) la ralisationdun moteur de recherche smantique venant sintgrer cette architecture. Plus particu-lirement, nous insisterons dans ce chapitre sur la manire dont ces outils permettent demasquer la complexit des requtes et des modles et langages utiliss lutilisateur final.

    Conclusion gnrale, page 227

    Enfin, nous conclurons ce mmoire en revenant sur les diffrents travaux prsents etla manire dont ils rpondent aux problmatiques initiales, tout en essayant de porter unregard critique sur ceux-ci. Nous envisagerons galement certains travaux futurs quil noussemble important de garder lesprit dans cette perspective globale de convergence entreWeb Smantique et Web 2.0.

    Guide de lecture

    Afin de guider le lecteur dans le parcours de ce mmoire, nous proposons le guide delecture suivant (Figure 0.1, page 9). Pour un aperu global de nos travaux, on pourra selimiter aux deux premiers chapitres qui donneront une vision gnrale et synthtique denos recherches. Le premier chapitre prsente ainsi les diffrentes notions manipules alors

    8

  • Organisation du mmoire

    que le second donne une aperu global de nos problmatiques de recherche et des solutionsapportes. Les trois chapitres suivants dtaillent en profondeur nos travaux et peuvent parailleurs se considrer comme un tout permettant dapprofondir les thmes abords dans lesecond chapitre.

    Chapitre 1

    Introduction aux concepts

    utiliss

    Prsentation gnrale des

    travaux

    Prsentation dtaille des

    travaux

    Chapitre 2

    Chapitre 5

    Chapitre 4

    Chapitre 3

    Figure 0.1: Organisation des chapitres

    9

  • Chapitre 1

    Vers une convergence entre WebSmantique et Web 2.0

    INTRODUCTION

    Ces dernires annes ont vu la monte en puissance de deux visions du Web, que lonpourrait premire vue considrer comme disjointes. La premire, le Web Smantique, pro-pose une extension de celui-ci dfinissant des formalismes de reprsentations unifies pourles donnes dans une optique dchange et de comprhension de celles-ci par les agents lo-giciels [Berners-Lee et al., 2001]. Lautre, communment appele Web 2.01, est beaucoup pluspragmatique et met laccent sur la place centrale de lutilisateur au sein de la dmarche deproduction dinformation [OReilly, 2005]. Elle met en avant les changes, louverture et lacollaboration entre internautes par lintermdiaire doutils et services simples dutilisation.

    Dans ce chapitre, nous introduirons tout dabord les principes du Web Smantique et desformalismes de reprsentation associs, tout en revenant plus particulirement sur certainsaspects qui nous paraissent fondamentaux pour la bonne comprhension de ce mmoire.Nous introduirons donc la notion dURI et prsenterons le langage RDF (Section 1.1.2, page16), qui permet de reprsenter les donnes sur le Web Smantique selon la vision du W3C,avant daborder les notions de vocabulaires et dontologies ainsi que les langages associs, savoir RDFS et OWL (Section 1.1.2, page 21). Si ces diffrents points sont relatifs la pro-duction de donnes, ou annotation smantique, il nous semble galement intressant deprsenter les mcanismes relatifs leur interrogation. Nous expliciterons ainsi lutilisationdu langage et protocole SPARQL (Section 1.1.3, page 25), celui-ci jouant un rle importantdans lavnement du Web Smantique et plus concrtement dans les outils que nous allonsprsenter par la suite. Enfin, nous aborderons linitiative Linking Open Data, qui vise tra-duire en RDF et interconnecter un grand nombre de donnes prsentes sur le Web, dansune vision plus pragmatique du Web Smantique et de ce que lon appelle maintenant pluscommunment Web of Data (Section 1.1.4, page 27).

    Dans la seconde partie du chapitre, nous prsenterons ce qui caractrise le Web 2.0 etexpliciterons en quoi cette vision nintroduit selon nous pas de rvolution technologiquemajeure (particulirement en termes de reprsentation des connaissances) mais en contre-

    1Nous ne discuterons pas lutilisation de ce terme. Gardons simplement lesprit que, malgr les appella-tions, il ny a quun seul Web.

    11

  • CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB 2.0

    partie modifie de manire profonde la faon dont les contenus sont publis et changs enligne (Section 1.2, page 31). Cette rupture concernant la production dinformations en ligne,qui est donc plus sociale que technologique saccompagne dun certain nombre doutils quenous prsenterons ici. En particulier, nous dtaillerons deux outils phares de cette mou-vance, savoir les blogs (Section 1.2.2, page 34) et les wikis (Section 1.2.2, page 36), ainsi quela notion de rseaux sociaux (Section 1.2.3, page 42), les principes de syndication de contenu(Section 1.2.2, page 37) et la notion de tagging (Section 1.2.3, page 39), mthode collaborative,incrmentale et ouverte de catgorisation. Ces diffrents points tant au cur des travauxqui seront prsents par la suite dans ce mmoire, il nous semble important de bien dtaillerleur fonctionnement et dentrevoir certaines de leurs limites que nous prsenterons par lasuite (Section 2, page 49).

    Enfin, nous indiquerons dans la troisime partie de ce chapitre pourquoi il nous sembleutile, voire ncessaire, de faire cohabiter ces deux visions pour parvenir terme un Web olutilisateur est au centre de la production de donnes, mais o celles-ci sont reprsentes demanire unifie afin dautomatiser, ou tout du moins de simplifier, certaines tches (Section1.3, page 43). Nous reviendrons ici sur les prjugs supposs entre ces deux visions avantdtudier cette convergence, qui conduira des espaces informationnels combinant princi-pesaWeb 2.0 et technologies du Web Smantique. Ainsi, nous prsenterons dune part quelspeuvent tre les avantages du Web 2.0 pour le Web Smantique, essentiellement en termesdinterfaces ddition et dannotations smantiques et dautre part les avantages du Web S-mantique pour le Web 2.0, cette fois-ci en termes de structuration de donnes et de formatsdchange. Ces deux aspects nous permettrons ainsi de voir de quelle manire cette conver-gence conduit un cercle vertueux entre Web Smantique et Web 2.0. Cette dernire partiedu chapitre permettra galement dentrevoir plus en dtail les travaux qui seront dvelop-ps dans la suite de ce mmoire, savoir lutilisation des technologies du Web Smantiquepour modliser et structurer les donnes issues de services Web 2.0, de manire enrichirleurs fonctionnalits.

    1.1 FORMALISMES ET STRUCTURES DE DONNES AVEC LE WEB SMANTIQUE

    1.1.1 Vers un Web interprtable par les machines

    En 1989, Tim Berners-Lee imagine pour le CERN2 une architecture informatique distri-bue permettant dinterconnecter les diffrents lments du systme dinformation interne[Berners-Lee, 1989]. Il reprsente alors celui-ci comme un graphe o les nuds, tout commeles arcs, sont typs et peuvent ainsi reprsenter (pour les nuds) des outils, des documents,des projets ou des personnes ou bien encore (pour les arcs) des relations de production,dinclusion ou dappartenance. Afin de faciliter la navigation dans un tel systme, sa propo-sition se base sur lutilisation de lhypertexte, tel que dfini par Ted Nelson ds les annes60 au sein du projet Xanadu3 [Nelson, 1965]. Cest cette proposition darchitecture dcen-tralise qui donnera par la suite naissance au World Wide Web tel que nous le connaissonsaujourdhui.

    2Organisation europenne pour la recherche nuclaire http://cern.ch3http://www.xanadu.com/

    12

  • 1.1 Formalismes et structures de donnes avec le Web Smantique

    Figure 1.1: Proposition darchitecture distribue qui conduira au World Wide Web[Berners-Lee, 1989]

    Si lon observe le schma correspondant cette vision dorigine du Web (Figure 1.1,page 13) et que lon prend en compte ltat actuel de celui-ci, on ne peut sempcher deconstater que l o la proposition initiale fait tat de ressources et de liens fortement typs, leWeb tel que nous le connaissons aujourdhui ne considre que des documents, quils soienttextuels ou multimdia et des liens hypertextes non typs pour tablir des relations entreceux-ci. Ainsi, si un utilisateur est en mesure didentifier le concept induit par un document(une personne ou un projet donn ...) ainsi que la nature du lien dfini entre deux concepts (partir des liens entre documents), cette identification nest pas ralisable de manire simplepar un agent logiciel. En effet, celui-ci ne considre que des documents plein-texte (encodsdans un langage dont il ne sait pas interprter la smantique) connects entre eux par deshyperliens unidirectionnels non typs. De plus, les mtadonnes associes ces documents(auteur, date de cration ...) sont elles aussi difficilement interprtables. Enfin, mme pour unutilisateur, ces interprtations peuvent-tre biaises puisquelles font appel lexprience,la culture, et laffect mental de celui-ci, qui peut diffrer selon les personnes pour un mmedocument.

    Ainsi se pose le problme dun Web interprtable non seulement par les humains maissurtout par les machines. Cest en ce sens que se situe linitiative du Web Smantique quivise rsoudre cette problmatique dinterprtation des donnes par les agents logiciels :

    13

  • CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB 2.0

    "The Semantic Web is an extension of the current Web in which information is given well-definedmeaning, better enabling computers and people to work in cooperation" [Berners-Lee et al., 2001].Cest donc bien dextension et non pas de refonte dont il est question pour dfinir ce Webcomprhensible par les machines4. On parle galement de Web de Donnes (Web of Data)afin dvoquer la faon dont celui-ci permet de modliser sur le Web des reprsentationsinterprtables de donnes et non plus uniquement de documents au sujet de ces donnes.Nous reviendrons un peu plus tard sur cet aspect (Section 1.1.4, page 27).

    Cette volution du Web repose sur la prsence dannotations smantiques, permettant demodliser de manire formelle (1) les mtadonnes (date de cration, auteur, etc.) associesaux documents prsents sur le Web et (2) les donnes prsentes au sein de ces documents.Ces annotations smantiques, qui permettent ainsi denvisager linterprtation des contenusen ligne, sont envisageables partir du moment o lon dispose :

    dune part dun modle commun pour identifier les ressources sur le Web. Cest le rlejou par lutilisation des URIs Uniform Resource Identifier [Berners-Lee et al., 2005] couples RDF Ressource Description Framework [Klyne et Carroll, 2004] (Section1.1.2, page 16) ;

    dautre part de vocabulaires permettant de dfinir de manire formelle, mais sur-tout interprtable et interoprable, la smantique de ces donnes. Les ontologies, ausens informatique du terme [Gruber, 1995], jouent ici un rle important. Nous ver-rons plus loin comment modliser des ontologies sur le Web Smantique avec deslangages RDFS RDF Schema [Brickley et Guha, 2004] et OWL Web Ontology Lan-guage) [Patel-Schneider et al., 2004] (Section 1.1.2, page 21).

    Nous verrons par la suite que ces annotations peuvent tre produites selon diffrents ob-jectifs, de lindexation de documents la modlisation du contenu de ceux-ci, les deux ap-proches pouvant galement tre associes (Section 2.3.1, page 69).

    Si cette initiative est aujourdhui essentiellement guide par les travaux du W3C, viadiffrents groupes de travail et efforts de standardisation mens depuis 20015, il est impor-tant de signaler dautres travaux plus anciens, notamment Ontobroker [Decker et al., 1999],WebKB [Martin et Eklund, 1999] ou encore SHOE6 [Heflin et Hendler, 2000]. Ce dernier in-tgre en effet diffrents composants permettant de rendre le contenu de pages Web compr-hensible et exploitable par des agents logiciels :

    un langage SHOE : Simple HTML Ontology Extensions7 [Luke et Heflin, 2000] dfinisous forme dextension de HTML et permettant dinclure directement des donnesinterprtables au sein de pages Web. Celui-ci permet dune part de modliser les don-nes mais aussi de dfinir leur smantique via la description dontologies (Section 1.1.2,page 21) au sein des pages ;

    un agent Expos permettant de retrouver sur le Web les diffrentes pages annotes4La machine ninterprtant quune succession de 0 et 1, il est dlicat de parler rellement de comprhension

    par les machines. On devrait plutt parler de contraintes dinterprtation, comme le souligne [Bachimont, 2000]en voquant la notion dengagement ontologique. On utilisera cependant ce terme comprhension par abus delangage au sein de ce mmoire.

    5http://www.w3.org/2001/sw6http://www.cs.umd.edu/projects/plus/SHOE/7http://www.cs.umd.edu/projects/plus/SHOE/spec.html

    14

  • 1.1 Formalismes et structures de donnes avec le Web Smantique

    pour les stocker ensuite dans un systme ddi - PARKA [Rager et al., 1997], sur lequelil est possible deffectuer diffrentes requtes via un langage spcifique PIQ.

    On retrouve bien dans la vision actuelle du Web Smantique des similarits avec cetteapproche combinant (1) des langages de description de donnes et de modlisation donto-logies comme RDF(S)/OWL et (2) des langages de requtes comme SPARQL (Section 1.1.3,page 25) et lutilisation dentrepts de donnes RDF. ceux-ci viennent sajouter des no-tions de logique formelle, de preuve et de confiance utilises terme par diffrentes appli-cations et reprenant certains principes de lIntelligence Artificielle [Russell et Norvig, 2003](Figure 1.2, page 15).

    Figure 1.2: Pile du Web Smantique, Fvrier 20088

    Pour terminer cette introduction au Web Smantique et avant de dtailler les diffrentsformalismes de reprsentation utiliss dans ce contexte, nous signalerons les travaux devisionnaires comme Vannevar Bush et le Memex [Bush, 1945], Ted Nelson et Xanadu, ouencore Douglas Engelbert et ses propositions de systmes informatiques pour augmen-ter lefficience intellectuelle [Engelbart, 1962] ou ses travaux sur lOpen Hyperdocument Sys-tem9 [Engelbart, 1990]. Ceux-ci imaginaient il y a plusieurs dizaines dannes dj des m-thodes pour unifier et connecter des reprsentations du monde rel via des relations types,couples des processus de navigation dans ces reprsentations. Cest galement ce que[Berners-Lee, 1989] proposait dans sa vision dorigine dun systme dinformations inter-connectes : "The system we need is like a diagram of circles and arrows, where circles and arrowscan stand for anything". Nous pensons que les travaux du Web Smantique permettrons

    8http://www.w3.org/2001/sw/9http://www.csl.sri.com/projects/ohs/

    15

  • CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB 2.0

    terme de raliser ces visions dun systme o linformation est universellement accessible,interconnecte mais surtout dfinie avec une smantique formelle et interprtable par desagents logiciels autonomes, de manire proposer de nouveaux services innovants notam-ment en termes de navigation et de recherche dinformation. Cest galement de cette ma-nire que les social machines dfinies par [Berners-Lee et Fischetti, 1999] pourront galementvoir le jour, dans un modle unifi dinteractions entre humains et machines.

    1.1.2 Reprsentation des connaissances avec RDF(S) et OWL

    Avant-propos

    Nous prsenterons ici uniquement des formalismes proposs ou standardiss via lesactivits du W3C, formalismes que nous utilisons par ailleurs au sein des diffrents travauxprsents dans cette thse. Pour dautres modes de reprsentation des connaissances, enparticulier les Topic Maps [Biezunski et al., 2002] [Auillans et al., 2002] et leur utilisation surle Web Smantique, le lecteur pourra se rfrer la thse [Amardeilh, 2007].

    Reprsentation des ressources : les URIs et RDF

    RDF Ressource Description Framework [Klyne et Carroll, 2004] est un lment fonda-mental du Web Smantique puisquil permet de reprsenter des ressources sur le Web demanire uniforme pour les agents logiciels l o ceux-ci ne voient dans un document textequune succession de caractres inexploitables. Pour ce faire, chaque ressource est identifiede manire universelle par une URI, qui peut tre assigne aussi bien (1) une donne pr-sente sur le Web (un document, un compte utilisateur sur un service donn ...), (2) un objetdu monde rel (un pays, une personne ...) auquel on souhaite associer un identifiant dansce contexte de reprsentation en ligne, ou encore (3) une relation (lappartenance, la filiation...). Par exemple :

    http://example.org/blog/112 identifie un billet de blog sur un site donn ; http://sws.geonames.org/3017382/ identifie la France en tant que zone gogra-

    phique ; http://apassant.net/alex identifie lauteur de ce mmoire (et non sa page per-

    sonnelle) : http://www.w3.org/2000/01/rdf-schema#label identifie la relation qui lie une

    ressource son label.Afin de dcrire ces ressources, RDF se base sur la notion de triplets, permettant de dfinir

    des assertions au sujet de celles-ci. Chaque triplet se compose de : un sujet, i.e. la ressource laquelle on assigne une proprit, identifie par une URI ; un prdicat, i.e. la proprit assigne la ressource, galement identifie par une URI ; un objet, i.e. la valeur de la proprit. Celle-ci peut tre de type primitif (chane de ca-

    ractre, entier ...) ou tre nouveau une ressource. Elle peut ainsi tre son tour sujetdun autre triplet conduisant la formation dun graphe, les nuds tout comme lesarcs tant reprsents par des URIs. Tim Berners-Lee considre ainsi le Web Sman-tique comme un Giant Global Graph par analogie avec le World Wide Web10, dans le

    10http://dig.csail.mit.edu/breadcrumbs/node/215

    16

  • 1.1 Formalismes et structures de donnes avec le Web Smantique

    sens o il connecte des ressources types via des proprits identifies, l o le Webconnecte simplement des documents via des liens hypertextes (Section 1.1.4, page 27).

    Diffrentes srialisations permettent de reprsenter des assertions modlises en RDF.Cest le cas de N3 [Berners-Lee, 2006c], Turtle [Beckett et Berners-Lee, 2008] (sous-dialectedu prcdent), RDF/XML 11 [Beckett, 2004], ou encore des reprsentations graphiques12.Ainsi, les deux exemples de code et la figure qui suivent (Figure 1.3, page 18) dfinissent lesmmes informations qui se traduisent par "EDF est une organisation situe en France", infor-mation constitue dans cet exemple de deux triplets13, la srialisation RDF/XML tant ellesous forme condense. Nous remarquerons aussi dans cet exemple lutilisation de prfixeset despaces de noms ainsi que la prsence du raccourci N3 "a" utilis pour rdf:type14.

    @prefix foaf: .@prefix rdfs: .@prefix geonames: .@prefix athena: .

    athena:EDF a foaf:Organization ;geonames:locatedIn ;rdfs:label "Electricit de France" .

    Listing 1.1: Reprsentation Turtle de triplets RDF

  • CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB 2.0

    athena:EDF foaf:Organization

    http://sws.geonames.org/3017382/

    rdf:type

    geonames:locatedIn

    Electricit de France rdfs:label

    Figure 1.3: Reprsentation graphique de triplets RDF

    que lajout de mtadonnes directement au sein de pages Web (comme le proposait SHOE)est aujourdhui au cur de diffrents travaux. En effet, reprsenter les annotations au seinde documents annexes introduit gnralement un problme de duplicit dinformations.Dans lexemple prcdent, on peut supposer que le fait de dfinir la chane de caractre"Electricit de France" comme valeur pour rdfs:label est redondant avec une in-formation dj prsente au sein de la page Web associe, certes en (X)HTML mais avec cettemme chane de caractres (par exemple dans une balise ). Des travaux comme eRDF15ou RDFa [Adida et Birbeck, 2008] permettent ainsi linclusion directe dannotations RDF ausein de documents (X)HTML, le second se basant sur lintroduction de nouveaux attributsXHTML pour y parvenir, comme le montre lexemple ci-dessous (Listing 1.3, page 18).

  • 1.1 Formalismes et structures de donnes avec le Web Smantique

    puissants que RDF(S)/OWL en termes dexpressivit (subsomption, infrence ...), mais sontnanmoins utiliss plus frquemment sur le Web. De plus, ceux-ci ne bnficient pas dela mme ouverture que les ontologies, puisquun microformat ne peut voluer quaprsconsensus de la communaut. Ces diffrentes limites leurs valent parfois le nom de lower-case semantic web, en opposition au Web Smantique et ses modles plus formels. Nan-moins, lutilisation de GRDDL Gleaning Resource Descriptions from Dialects of Languages [Connolly, 2007] permet de faire le pont entre ces diffrentes visions. GRDDL offre en effetla possibilit de traduire diffrents dialectes XML en RDF et permet ainsi de transformer undocument XHTML contenant des microformats ou des annotations RDFa en donnes RDFbrutes qui peuvent tre utilises comme nimporte quelles donnes RDF natives.

    Pour en revenir aux assertions RDF elles-mmes, il est galement possible de considrerun ou plusieurs triplets RDF comme source(s) de nouveaux triplets, par exemple pour dfi-nir la date laquelle une assertion a t tablie. Si une premire approche pour modliser ceprocessus se base sur lutilisation des principes de rification RDF17, celle-ci introduit diff-rents problmes (notamment une explosion du nombre de triplets [Caroll et Stickler, 2004])que [Carroll et al., 2005] permettent de rsoudre avec lutilisation des graphes nomms (na-med graphs). La notion de graphes nomms tend celle de graphe RDF (i.e. un ensemble detriplets18) en permettant dassigner chacun une URI propre. Cette URI permet de consi-drer chaque graphe comme une ressource part entire et donc de lutiliser comme sujetdune nouvelle relation. Il est ainsi possible de modliser lauteur dun ensemble de tri-plets (Figure 1.4, page 20) ou encore de certifier les informations via un systme de signa-ture de graphes [Caroll, 2003] dans une optique de confiance des sources dinformationscomme dfinie par la pile du Web Smantique (Figure 1.2, page 15). Malgr ces avantageset en raison de la structure par triplets de RDF, lutilisation des graphes nomms au sein dedocuments RDF est complexe et ncessite une volution des syntaxes actuelles. Les exten-sions TRIX19 [Caroll et Stickler, 2004] ou TRIG [Bizer et Cyganiak, 2007] permettent de mo-dliser ces graphes nomms respectivement en RDF/XML et Turtle. [Bottollier et al., 2007]ont propos une nouvelle manire de procder via lutilisation dune proprit spcifique(http://www.inria.fr/acacia/corese#graph) pour indiquer la source dun ensemblede triplets au sein de documents RDF/XML. En pratique cependant, une manire simplede procder lidentification de ces sources et de regrouper les triplets dans un documentaccessible en ligne est de considrer lURL du dit document comme lURI du graphe source.Ces mthodes sont en outre toutes compatibles avec lutilisation de la clause GRAPH au seinde requtes SPARQL (Section 1.1.3, page 25).

    Il est galement important lorsquon modlise une ressource sur le Web Smantique,de faire la distinction entre son URI (i.e. son identifiant) et lURL du ou des documents ladcrivant, quil sagisse dun document RDF regroupant un certain nombre dassertions son sujet ou dune description (X)HTML. On considre ainsi ce sujet [Lewis, 2007] :

    les ressources informationnelles (un document, un billet de blog ...) pour lesquelleslURL du document peut correspondre lURI de son identifiant. Il est en effet coh-

    17http://www.w3.org/TR/rdf-mt/#ReifAndCont18http://www.w3.org/TR/2004/REC-rdf-concepts-20040210/#dfn-rdf-graph19http://sw.nokia.com/trix/TriX.html

    19

  • CHAPITRE 1 : VERS UNE CONVERGENCE ENTRE WEB SMANTIQUE ET WEB 2.0

    athena:EDF foaf:Organization

    http://sws.geonames.org/3017382/

    rdf:type

    geonames:locatedInAlexandre Passant

    dc:creatorhttp://example.org/ng_1

    Figure 1.4: Graphes nomms et identification de lauteur dun ensemble de triplets

    rent de considrer que le document identifi par cette URI correspond au documentsitu cette mme adresse ;

    les ressources non-informationnelles, i.e. des donnes monde rel (une personne, unpays ...) que lon souhaite reprsenter sur le Web et o la distinction est ncessaire.On ne peut en effet pas considrer que http://fr.wikipedia.org/wiki/Francecorrespond lidentifiant de la France, puisquon a dun ct un document Web et delautre un pays20.

    Ainsi : http://sws.geonames.org/3017382 correspond une URI identifiant la France

    (et non pas un document son sujet) ; http://sws.geonames.org/3017382/about.rdf correspond au document RDF

    associ comportant un certain nombre de triplets son sujet ; http://www.geonames.org/3017382/republic-of-france.html correspond

    sa description (X)HTML associe.Cette distinction est particulirement importante au moment de la dfinition dassertions.Lorsquon va modliser des informations au sujet du pays (par exemple sa population),on va utiliser lURI identifiant la ressourc