interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · groupe math...

246
Interrogation d’un r´ eseau s´ emantique de documents : l’intertextualit´ e dans l’acc` es ` a l’information juridique Nada Mimouni To cite this version: Nada Mimouni. Interrogation d’un r´ eseau s´ emantique de documents : l’intertextualit´ e dans l’acc` es ` a l’information juridique. Recherche d’information [cs.IR]. Doctorat de l’Universit´ e Paris 13 - Sorbonne Paris Cit´ e, 2015. Fran¸ cais. <tel-01230641> HAL Id: tel-01230641 https://hal.archives-ouvertes.fr/tel-01230641 Submitted on 18 Nov 2015 HAL is a multi-disciplinary open access archive for the deposit and dissemination of sci- entific research documents, whether they are pub- lished or not. The documents may come from teaching and research institutions in France or abroad, or from public or private research centers. L’archive ouverte pluridisciplinaire HAL, est destin´ ee au d´ epˆ ot et ` a la diffusion de documents scientifiques de niveau recherche, publi´ es ou non, ´ emanant des ´ etablissements d’enseignement et de recherche fran¸cais ou ´ etrangers, des laboratoires publics ou priv´ es. Copyright

Upload: others

Post on 13-Oct-2020

1 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Interrogation d’un reseau semantique de documents :

l’intertextualite dans l’acces a l’information juridique

Nada Mimouni

To cite this version:

Nada Mimouni. Interrogation d’un reseau semantique de documents : l’intertextualite dansl’acces a l’information juridique. Recherche d’information [cs.IR]. Doctorat de l’UniversiteParis 13 - Sorbonne Paris Cite, 2015. Francais. <tel-01230641>

HAL Id: tel-01230641

https://hal.archives-ouvertes.fr/tel-01230641

Submitted on 18 Nov 2015

HAL is a multi-disciplinary open accessarchive for the deposit and dissemination of sci-entific research documents, whether they are pub-lished or not. The documents may come fromteaching and research institutions in France orabroad, or from public or private research centers.

L’archive ouverte pluridisciplinaire HAL, estdestinee au depot et a la diffusion de documentsscientifiques de niveau recherche, publies ou non,emanant des etablissements d’enseignement et derecherche francais ou etrangers, des laboratoirespublics ou prives.

Copyright

Page 2: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Groupe Mathematique, Informatique, Signal Sorbonne Paris Cite

Ecole doctorale Galilee

Interrogation d’un reseau semantiquede documents : l’intertextualite dans

l’acces a l’information juridique

THESE

presentee et soutenue publiquement le 27 Janvier 2015

pour l’obtention du

Doctorat de l’Universite Paris 13 – Sorbonne Paris Cite

(specialite informatique)

par

Nada Mimouni

Composition du jury

Rapporteurs : Sylvie Calabretto Professeur, INSA de LyonOllivier Haemmerle Professeur, Universite Toulouse - Jean Jaures

Examinateurs : Daniele Bourcier Directrice de recherche CNRS, CERSA - ParisAldo Gangemi Professeur, Universite Paris 13Amedeo Napoli Directeur de recherche CNRS, LORIA - NancyChantal Reynaud Professeur, Universite Paris Sud

Encadrants : Adeline Nazarenko Professeur, Universite Paris 13 (directrice)Sylvie Salotti Maıtre de conferences, Universite Paris 13 (co-encadrante)

Laboratoire Informatique de Paris Nord — CNRS UMR 7030

Page 3: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

/

Page 4: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Remerciements

En tout premier lieu, j’aime exprimer ma vive gratitude et reconnaissance à ma directricede thèse Adeline Nazarenko qui m’a aidée et guidée durant toutes les étapes de mon travail. Sesconseils étaient très précieux tout le long de mon aventure et allaient bien au-delà de l’obtentiond’un titre universitaire et l’accomplissement d’un projet de recherche. Merci pour le profession-nalisme, la motivation et surtout pour la patience. Merci de m’avoir enseignée que les nouvellesidées sortent d’un esprit ouvert et évoluent en s’ouvrant sur les idées des autres.

Je suis particulièrement reconnaissante pour le soutien et les conseils de ma co-encadranteSylvie Salotti, pour l’enthousiasme et l’encouragement et d’avoir eu confiance en moi. Mercisurtout pour la touche personnelle qui a fait que cette aventure soit sereine et rendu le travailplus facile.

Je tiens également à remercier tous les partenaires académiques et industriels du projetLégilocal, en particulier Danièle Bourcier, Meritxell Fernandez et Ève Paul, les experts juristesdu projet, pour toutes les discussions et les précieux conseils qui m’ont aidé à découvrir undomaine qui m’était inconnu auparavant.

Mes remerciements vont également à M. Claudio Fabiani, chef d’unité au Parlement Européenet responsable du projet IT4AM, M. Michel Brogard, chef de l’unité production documentaire,et M. Pierre Henrard, responsable de l’atelier SGML/XML du PE à Luxembourg, pour leurdisponibilité et leur collaboration.

Je tiens à remercier tous les membres passés et présents de l’équipe RCLN pour avoir été debons collègues et pour leur attitude amicale ainsi que tous les membres du laboratoire LIPN enparticulier Faouzi Boufarès, Pierre Boudes et tous ceux avec qui j’ai travaillé sur des modulesd’enseignement. Mes remerciements vont également à Brigitte Guéveneux, Marie Fontanillas etles autres secrétaires du LIPN, très débordées mais toujours souriantes et disponibles.

Merci à mes collègues doctorants Nouha Omrane, Sarra Ben Abbes, Aicha Ben Salem, LeilaAbidi, Sondes Bannour, Ines Bannour, Ines Chebil, Hanène Ochi, Manisha Pujari, AbdoulayeGuisse, Zied Yakoubi, Ehab Hassan et tous les autres : vous avez fait des petites pauses un vraimoment de plaisir dans les longues journées de travail. Je vous souhaite tout le meilleur pour unavenir plein de réalisations.

Je ne manque pas de remercier vivement toute personne qui a participé, de près ou de loin,à la bonne réalisation de ce travail et son déroulement dans les meilleures conditions.

Enfin, je remercie chaleureusement mes parents, mes sœurs et mon frère qui ont toujours suêtre présents quand il le fallait. Qu’ils trouvent tous ici l’expression de mon profond respect.

Cela va sans dire, personne n’a été plus important dans la poursuite de ma thèse que monmari..

i

Page 5: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

ii

Page 6: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Je dédie ce travailà ma mère, à mon père,

à Nizar et Lilou

iii

Page 7: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

iv

Page 8: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des matières

Table des figures xi

Liste des tableaux xv

1 Introduction 1

1.1 Contexte général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.2 Recherche d’information sémantique et sur le web . . . . . . . . . . . . . 2

1.2 Contexte applicatif : le projet Légilocal . . . . . . . . . . . . . . . . . . . . . . . . 2

1.3 Enjeux de la recherche d’information juridique . . . . . . . . . . . . . . . . . . . 3

1.4 Objectif et contributions . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5

1.5 Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

2 Accès à l’information juridique 9

2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

2.2 Caractéristiques des données juridiques . . . . . . . . . . . . . . . . . . . . . . . . 10

2.2.1 Structure et hiérarchie des sources de loi . . . . . . . . . . . . . . . . . . . 10

2.2.2 Réseau de réglementations et complexité juridique . . . . . . . . . . . . . 11

2.3 Efforts de structuration de l’information juridique . . . . . . . . . . . . . . . . . . 14

2.3.1 Création ou édition de la réglementation . . . . . . . . . . . . . . . . . . . 14

2.3.2 Représentation des documents . . . . . . . . . . . . . . . . . . . . . . . . . 15

2.3.3 Ontologies du droit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 17

2.3.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Méthodes d’accès à l’information juridique . . . . . . . . . . . . . . . . . . . . . . 20

2.4.1 Portails généralistes de sources de droit . . . . . . . . . . . . . . . . . . . 20

2.4.2 Outils spécialisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22

2.4.3 Données gouvernementales ouvertes sur le web . . . . . . . . . . . . . . . 24

2.5 Traitement de l’intertextualité . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24

2.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

v

Page 9: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des matières

3 Recherche d’information et graphe de documents 29

3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 29

3.2 Recherche d’information classique . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

3.2.1 Indexation ou processus de représentation . . . . . . . . . . . . . . . . . . 30

3.2.2 Appariement ou processus de recherche . . . . . . . . . . . . . . . . . . . 31

3.2.3 Tri de résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.4 Reformulation de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.5 Modèles de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 32

3.2.6 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.2.7 Interface utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Recherche d’information sémantique . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.1 Annotation sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

3.3.2 Modèles de RI numériques et à base de connaissances . . . . . . . . . . . 35

3.3.3 Modèles logiques de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4 RI et Analyse de liens . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 38

3.4.1 Intertextualité dans les systèmes de RI existants . . . . . . . . . . . . . . 38

3.4.2 Analyse de graphes de citation . . . . . . . . . . . . . . . . . . . . . . . . 39

3.4.3 Analyse des liens hypertextes (algorithmes Page Rank et HITS) . . . . . . 39

3.4.4 Analyse socio-sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

4 Méthodes pour la modélisation et l’interrogation de données complexes 43

4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43

4.2 AFC et ARC : fondements théoriques . . . . . . . . . . . . . . . . . . . . . . . . . 45

4.2.1 Notions de base de la théorie des treillis . . . . . . . . . . . . . . . . . . . 45

4.2.2 L’Analyse Formelle de Concepts . . . . . . . . . . . . . . . . . . . . . . . 46

4.2.3 L’Analyse Relationnelle de Concepts . . . . . . . . . . . . . . . . . . . . . 52

4.3 Applications de l’AFC et ARC . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

4.4 Web sémantique et web de données . . . . . . . . . . . . . . . . . . . . . . . . . . 62

4.4.1 Les technologies du web sémantique . . . . . . . . . . . . . . . . . . . . . 63

4.4.2 Le web de données et les données liées sur le web . . . . . . . . . . . . . . 69

4.4.3 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.5 Application à l’analyse documentaire dans le web sémantique . . . . . . . . . . . 73

4.5.1 Vocabulaires conceptuels et annotation sémantique . . . . . . . . . . . . . 73

4.5.2 Ontologies documentaires . . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

vi

Page 10: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5 Interrogation d’un réseau sémantique de documents : application aux sources

de droit 79

5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 L’enjeu de l’intertextualité dans Légilocal . . . . . . . . . . . . . . . . . . . . . . 80

5.2.1 Objectif de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.2.2 Intertextualité dans les sources de droit . . . . . . . . . . . . . . . . . . . 81

5.3 Modélisation des collections documentaires . . . . . . . . . . . . . . . . . . . . . . 83

5.3.1 Caractéristiques des collections documentaires . . . . . . . . . . . . . . . . 83

5.3.2 Les collections comme graphes de documents . . . . . . . . . . . . . . . . 83

5.3.3 Exemples de collections juridiques . . . . . . . . . . . . . . . . . . . . . . 84

5.4 Interrogation des collections documentaires . . . . . . . . . . . . . . . . . . . . . 88

5.4.1 Langage de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.4.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.4.3 Analyse des besoins des juristes . . . . . . . . . . . . . . . . . . . . . . . . 91

5.4.4 Jeu de requêtes types . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

6 RI et intertextualité : approche conceptuelle 101

6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

6.2 Collection documentaire et choix de modélisation . . . . . . . . . . . . . . . . . . 102

6.3 Modélisation du contenu sémantique par l’AFC . . . . . . . . . . . . . . . . . . . 103

6.3.1 Construction des treillis formels . . . . . . . . . . . . . . . . . . . . . . . . 104

6.3.2 Interprétation des structures conceptuelles . . . . . . . . . . . . . . . . . . 105

6.4 Modélisation des liens intertextuels par l’ARC . . . . . . . . . . . . . . . . . . . . 107

6.4.1 Modèle de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 107

6.4.2 Construction des treillis relationnels . . . . . . . . . . . . . . . . . . . . . 108

6.4.3 Interprétation de la structure relationnelle . . . . . . . . . . . . . . . . . . 109

6.4.4 Modèle de la collection documentaire . . . . . . . . . . . . . . . . . . . . . 111

6.5 Interrogation du modèle documentaire . . . . . . . . . . . . . . . . . . . . . . . . 111

6.5.1 Stratégie de recherche dans le modèle documentaire . . . . . . . . . . . . . 112

6.5.2 Requêtes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113

6.5.3 Requêtes relationnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114

6.5.4 Déroulement sur un exemple . . . . . . . . . . . . . . . . . . . . . . . . . 117

6.6 Navigation dans la structure conceptuelle . . . . . . . . . . . . . . . . . . . . . . 119

6.6.1 Raffinement et expansion des résultats . . . . . . . . . . . . . . . . . . . . 120

6.6.2 Recherche par exemple de documents . . . . . . . . . . . . . . . . . . . . . 123

vii

Page 11: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des matières

6.6.3 Recherche de réponses approchées . . . . . . . . . . . . . . . . . . . . . . 127

6.7 Algorithmes d’interrogation et de navigation . . . . . . . . . . . . . . . . . . . . . 129

6.8 Requêtes exprimables par le modèle . . . . . . . . . . . . . . . . . . . . . . . . . 132

6.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

7 RI et intertextualité : approche sémantique 139

7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 139

7.2 Bonnes pratiques pour la construction de vocabulaires . . . . . . . . . . . . . . . 140

7.3 Première ontologie documentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 141

7.3.1 Structure globale de l’ontologie . . . . . . . . . . . . . . . . . . . . . . . . 142

7.3.2 Modélisation de la collection documentaire . . . . . . . . . . . . . . . . . . 144

7.3.3 Modélisation des documents . . . . . . . . . . . . . . . . . . . . . . . . . . 147

7.3.4 Modélisation sémantique des contenus textuels . . . . . . . . . . . . . . . 152

7.4 Deuxième ontologie documentaire . . . . . . . . . . . . . . . . . . . . . . . . . . . 154

7.4.1 Gestion des versions d’un document . . . . . . . . . . . . . . . . . . . . . 156

7.4.2 Gestion des références . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 156

7.4.3 Structure globale de l’ontologie . . . . . . . . . . . . . . . . . . . . . . . . 163

7.4.4 Positionnement par rapport au standard juridique Metalex . . . . . . . . . 165

7.5 Mise en œuvre des ontologies documentaires . . . . . . . . . . . . . . . . . . . . . 166

7.5.1 Instanciation et interrogation dans la première ontologie . . . . . . . . . . 166

7.5.2 Instanciation et interrogation dans la deuxième ontologie . . . . . . . . . . 173

7.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

8 Experimentation 181

8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 181

8.2 Corpus OIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

8.2.1 Description du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

8.2.2 Requêtes OIT et réponses pertinentes . . . . . . . . . . . . . . . . . . . . 183

8.2.3 Approche conceptuelle : AFC/ARC . . . . . . . . . . . . . . . . . . . . . . 183

8.2.4 Approche sémantique : première ontologie . . . . . . . . . . . . . . . . . . 187

8.2.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.3 Corpus Légilocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.3.1 Description du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.3.2 Requêtes Légilocal et réponses pertinentes . . . . . . . . . . . . . . . . 193

8.3.3 Exécution sur la première ontologie documentaire . . . . . . . . . . . . . . 193

8.3.4 Exécution sur la deuxième ontologie documentaire . . . . . . . . . . . . . 198

8.3.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

viii

Page 12: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

9 Conclusion et perspectives 203

9.1 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 203

9.2 Perspectives . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 204

Bibliographie 207

ix

Page 13: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des matières

x

Page 14: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des figures

2.1 Activités d’un système d’information législatif [Sartor et al., 2011]. . . . . . . . . 102.2 Hiérarchie des sources de loi. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 122.3 Exemple de documents juridiques et de types de liens qui existent entre eux. . . . 122.4 Extrait d’un document décrit en Metalex . . . . . . . . . . . . . . . . . . . . . . . 162.5 Extrait d’un document décrit en Metalex : identification de références . . . . . . 162.6 La plate-forme Légilocal [Amardeilh et al., 2013]. . . . . . . . . . . . . . . . . . . 23

3.1 Vue générale d’un système de recherche d’information. . . . . . . . . . . . . . . . 31

4.1 Le treillis de concepts LP correspondant au contexte formel KP donné dans latable 4.1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4.2 Le treillis de concepts LF correspondant au contexte formel KF donné dans latable 4.2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

4.3 Le treillis relationnel L∀,+PFcorrespondant au contexte formel KP enrichi par codage

universel par la relation "Like" par rapport au treillis LF . . . . . . . . . . . . . . 554.4 Le treillis relationnel L∃,+PF

correspondant au contexte formel KP enrichi par codageexistentiel par la relation "Like" par rapport au treillis LF . . . . . . . . . . . . . 56

4.5 Le treillis relationnel L∀,+PPcorrespondant au contexte formel KP enrichi par codage

existentiel par la relation Ami. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 584.6 Le treillis relationnel L∀,+PP,F

correspondant au contexte formel KP enrichi par co-dage universel par les relations Ami et "Like". . . . . . . . . . . . . . . . . . . . . 59

4.7 Architecture du web sémantique (semantic web stack). . . . . . . . . . . . . . . . 634.8 Graphe de données décrivant la relation "Like" entre un utilisateur d’un réseau

social et un film. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 644.9 Graphe RDF avec types sémantiques des sujets et des objets. . . . . . . . . . . . 654.10 Le nuage de données liées (Linked data cloud diagram). Chaque cercle représente

un ensemble de données publiées selon les principes des données liées. La tailledes cercles représente le nombre de triplets qu’ils contiennent. Le jeu de couleursidentifie les domaines. Les flèches indiquent qu’au moins 50 triplets relient lesensembles de données. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71

4.11 Ontologie correspondant aux données (Personne,Film). . . . . . . . . . . . . . . . 76

5.1 Arrêté du 25 Avril 2003 relatif à la limitation du bruit dans les établissementsd’enseignement citant l’article R111-23-2 du Code de la construction et de l’habi-tation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83

xi

Page 15: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des figures

5.2 Langage de graphes : description des graphes de collections documentaires. Leséléments du vocabulaire terminal sont notés entre guillemets simples (ex. ‘(’), lesnon-terminaux sont en italiques (ex. prédicat) et les métasymboles utilisés sontla flèche de réécriture (← ), les crochets pour former les groupes ([ ]), la barred’alternative (|) et l’étoile de Kleene pour marquer la répétition de l’élément oudu groupe précédent pour un nombre quelconque d’occurrences (*). . . . . . . . . 84

5.3 Exemple de graphe modélisant une collection documentaire comportant 4 unitésdocumentaires. Pour des questions de lisibilité les attributs et relations partagéspar plusieurs documents sont représentés en double. Les unités documentairessont représentées par des cercles. Les relations sont notées comme des flèches. lesattributs sont reliés aux documents par des traits pleins (descripteurs sémantiques)ou pointillés (types de documents). . . . . . . . . . . . . . . . . . . . . . . . . . . 85

5.4 Exemple de collection juridique avec annotations sémantiques et lien de référence. 855.5 Collection Bruit. Pour des questions de lisibilité les descripteurs sémantiques

partagés par plusieurs documents sont représentés en double. Les unités docu-mentaires sont représentées par des cercles. Les relations sont notées comme desflèches. les attributs sont reliés aux documents par des traits pleins (descripteurssémantiques) ou pointillés (types de documents). . . . . . . . . . . . . . . . . . . 87

5.6 Langage de requêtes. Les éléments du vocabulaire terminal sont notés entre guille-mets simples (ex. ‘(’), les non-terminaux sont en italiques (ex. prédicat) et lesmétasymboles utilisés sont la flèche de réécriture (← ), les crochets pour formerles groupes ([ ]), la barre d’alternative (|) et l’étoile de Kleene pour marquer larépétition de l’élément ou du groupe précédent pour un nombre quelconque d’oc-currences (*). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

6.1 Schéma d’un exemple de collection de documents juridiques. . . . . . . . . . . . . 1026.2 Ensemble de contextes correspondant à la collection juridique de la figure 6.1. . . 1046.3 Le treillis de concepts Larr correspondant au contexte formel des arrêtés Karr . . 1066.4 Le treillis de concepts Ldec correspondant au contexte formel des décrets Kdec . . 1066.5 Ensemble de contextes correspondant à la collection juridique de la figure 6.1. . . 1076.6 Treillis relationnel L+arr résultant de l’enrichissement relationnel entre les objets

du contexte des arrêtés et du contexte des décrets. . . . . . . . . . . . . . . . . . 1106.7 Correspondance entre le schéma des données (documents dans la collection) et le

graphe de la requête relationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . 1156.8 Requête simple Qdec

s sur le treillis des décrets LQ,dec. . . . . . . . . . . . . . . . . 1186.9 Requête relationnelle Qr sur la FTR (L+Q,arr, LQ,dec). . . . . . . . . . . . . . . . . 1196.10 Exemple de navigation par généralisation basée sur une requête simple . . . . . . 1216.11 Exemple de navigation par généralisation à partir d’une requête relationnelle . . 1226.12 Un exemple de navigation pour retourner des réponses approchées dans le cas

d’une requête simple . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1296.13 Un exemple de navigation pour retourner des réponses approchées dans le cas

d’une requête relationnelle . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1306.14 Conjonction de requêtes simples sur le treillis des décrets Ldec. . . . . . . . . . . 1336.15 Aperçu de l’approche conceptuelle de RI relationnelle. . . . . . . . . . . . . . . . 137

7.1 Ontologie de collection documentaire : modules et dépendances . . . . . . . . . . 1437.2 Les concepts de haut niveau de l’ontologie documentaire. . . . . . . . . . . . . . . 1447.3 Une décision de justice . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 145

xii

Page 16: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4 Un acte local . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1457.5 Un document éditorial . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1467.6 Hiérarchie des types de documents. . . . . . . . . . . . . . . . . . . . . . . . . . . 1477.7 Types de liens entre les documents et leur hiérarchie. . . . . . . . . . . . . . . . . 1477.8 Les classes modélisant la structure d’un document. . . . . . . . . . . . . . . . . . 1497.9 Gestion du cycle de vie d’une unité documentaire (document ou article). . . . . . 1517.10 Dates associées à une unité documentaire ou un article. . . . . . . . . . . . . . . 1517.11 Gestion de versions d’un article. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1527.12 Ressources et annotation sémantique. . . . . . . . . . . . . . . . . . . . . . . . . . 1537.13 Concepts terminologiques représentant les ressources sémantiques. Hiérarchie entre

concepts de la ressource Environnement. . . . . . . . . . . . . . . . . . . . . . . . 1537.14 Gestion des versions des documents d’une collection et la relation de réalisation

entre un document (œuvre) et ses versions (expression). La classe DocumentText

représente les fragments de documents qui peuvent être annotés et la classe CitableDocumentObjectreprésente les unités documentaires qui peuvent en outre être citées. . . . . . . . 157

7.15 Transposition de la directive 2004/114/CE, cible de la relation de transposition(la source de la relation est le texte de loi Loi n 2006−911 du 24 Juillet 2006 ) etobjet de l’opération de transposition (le résultat est l’article Art. L221 − 33 (M)du Code monétaire et financier). . . . . . . . . . . . . . . . . . . . . . . . . . . . 158

7.16 Gestion des liens intertextuels. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1597.17 Classe Citation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1597.18 Opération documentaire de modification : participants et liens de référence et

citation résultants. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1617.19 Classe DocumentaryOperation. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1617.20 Codification de l’Article 46 quater-00 A bis du 4 juillet 1992. . . . . . . . . . . . 1637.21 Ontologie de collection documentaire avec gestion des versions et des références

(relations ternaires). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1647.22 Graphes réponses à une requête relationnelle. . . . . . . . . . . . . . . . . . . . . 1667.23 Exemple 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1677.24 Exemple 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1687.25 Exemple 3 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1697.26 Modélisation de la collection arrêtés-décrets. . . . . . . . . . . . . . . . . . . . . . 1717.27 Annotations sémantiques des arrêtés et des décrets. . . . . . . . . . . . . . . . . . 1727.28 Codification de l’article L362 − 1 du code de l’environnement par l’Ordonnance

n 2000− 914. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1747.29 Modification de l’article L362−1 du code de l’environnement par la Loi n 2006−436.1757.30 Modification de l’article L362 − 1 du code de l’environnement par l’Ordonnance

n 2012− 34. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1767.31 Abrogation de la Loi n 2006− 436 par l’Ordonnance n 2000− 914. . . . . . . . . 177

8.1 Treillis des conventions avant enrichissement relationnel. . . . . . . . . . . . . . . 1858.2 Graphes réponses exactes et approchées de la requête OIT1-2. . . . . . . . . . . . 1878.3 Graphe réponse de la requête OIT1-1. . . . . . . . . . . . . . . . . . . . . . . . . 1878.4 Graphe RDF sur la première ontologie : instances de la classe CodifiedText. . . 1958.5 Opération documentaire de modification de l’article L2213-1 : l’œuvre, les deux

versions qui réalisent l’œuvre et le texte source de modification. . . . . . . . . . . 200

xiii

Page 17: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Table des figures

xiv

Page 18: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Liste des tableaux

2.1 Exemples de types de relations entre les sources de droit . . . . . . . . . . . . . . 132.2 Les éléments de structure des textes juridiques dans les systèmes francophone et

anglophone. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 142.3 Thésaurus et catalogues juridiques. . . . . . . . . . . . . . . . . . . . . . . . . . . 182.4 Ontologies juridiques. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19

4.1 Contexte formel KP décrivant des utilisateurs d’un réseau social. . . . . . . . . . 474.2 Contexte formel KF décrivant les films associés à leurs catégories. . . . . . . . . . 484.3 Contexte relationnel Amis décrivant la relation d’amitié entre les utilisateurs du

réseau social. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 534.4 Contexte relationnel "Like" liant les utilisateurs du réseau social et les films. . . 534.5 SPARQL vs. Algèbre relationnelle (AR). . . . . . . . . . . . . . . . . . . . . . . . 674.6 Mapping FCA/RCA vers OWL DL. . . . . . . . . . . . . . . . . . . . . . . . . . 764.7 Tableau comparatif RDF/SPARQL vs AFC/ARC. . . . . . . . . . . . . . . . . . 78

5.1 Composition de la collection Bruit . . . . . . . . . . . . . . . . . . . . . . . . . . 865.2 Vocabulaire utilisé pour l’annotation sémantique de la collection Bruit . . . . . 865.3 Vocabulaire utilisé pour la modélisation de la collection OIT et les requêtes asso-

ciées. Les types et les identifiants de documents ont une majuscule à l’initiale ; lesidentifiants comportent en outre un indice ; les noms de relations et les descrip-teurs sémantiques ont une initiale minuscule mais les noms de relations sont desverbes. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

5.4 Vocabulaire utilisé pour la formation de la collection Légilocal et des requêtesassociées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

5.5 Vocabulaire utilisé dans le jeu de requêtes-types . . . . . . . . . . . . . . . . . . . 98

6.1 Le contexte formel des arrêtés Karr. . . . . . . . . . . . . . . . . . . . . . . . . . 1046.2 Le contexte formel des décrets Kdec. . . . . . . . . . . . . . . . . . . . . . . . . . 1056.3 Relation : fait_référence . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1086.4 Le contexte formel des arrêtés K1

arr à l’itération 1 du processus d’enrichissementrelationnel (dans les attributs rf : ci, les ci correspondent aux concepts du treillisdes décrets). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 109

6.5 Tableau récapitulatif de la typologie des requêtes exprimables par l’AFC et l’ARCet leur correspondance avec les requêtes-types issues de l’analyse des besoins. . . 136

7.1 Classes et propriétés réutilisés par le vocabulaire LIDO. . . . . . . . . . . . . . . 1557.2 Classes et propriétés reliées à la classe DocumentaryOperation. . . . . . . . . . . 162

xv

Page 19: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Liste des tableaux

8.1 Requêtes OIT avec réponses pertinentes. . . . . . . . . . . . . . . . . . . . . . . . 1838.2 Propriétés de la collection OIT : Nb. objets, Nb. attributs, Nb. concepts dans le

treillis, Nb. arcs, Nb. niveaux (hauteur) du treillis. . . . . . . . . . . . . . . . . . 1848.3 Description de la collection Légilocal : les documents, leurs types et leurs relations.1928.4 Requêtes Légilocal avec réponses pertinentes. . . . . . . . . . . . . . . . . . . . 1938.5 Vocabulaire utilisé pour la formation de la collection Légilocal et des requêtes

associées . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194

xvi

Page 20: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 1

Introduction

Sommaire1.1 Contexte général . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

1.1.1 Recherche d’information . . . . . . . . . . . . . . . . . . . . . . . . . . . 11.1.2 Recherche d’information sémantique et sur le web . . . . . . . . . . . . 2

1.2 Contexte applicatif : le projet Légilocal . . . . . . . . . . . . . . . . . 21.3 Enjeux de la recherche d’information juridique . . . . . . . . . . . . 31.4 Objectif et contributions . . . . . . . . . . . . . . . . . . . . . . . . . . 51.5 Structure du document . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

1.1 Contexte général

Au cours des dernières années, les « données liées » sont apparues comme une nouvelletendance qui a régi l’évolution du web et l’a transformé d’un espace d’information global dedocuments liés (avec des liens hypertextes) à un espace d’information où documents et donnéessont liés avec des liens qui sont typés. En effet, dans le modèle hypertexte classique, la naturede la relation entre deux documents liés est implicite [Heath and Bizer, 2011], ceci est dû au faitque le format de données (HTML) est expressivement insuffisant pour permettre à des entitésindividuelles décrites dans un document particulier d’être reliées par des liens typés à des entitésconnexes. Le terme « données liées » (ou Linked Data) décrit une méthode de publication desdonnées structurées (provenant de différentes sources) de sorte qu’ils peuvent être interconnectés.Pour ce faire, les relations entre les données doivent être explicitées afin de créer cet espace globalde données interdépendantes (par opposition à une simple collection d’ensembles de données) quipeuvent être interrogées. Determiner comment représenter (quel modèle) et interroger (quelletechnique de recherche d’information) une collection de documents inter-reliés est l’enjeu globalauquel nous proposons de répondre dans cette thèse.

1.1.1 Recherche d’information

Avec la croissance continue de l’information disponible et librement accessible en ligne, il estdevenu essentiel d’automatiser le processus de représentation des données et d’avoir un proces-sus de recherche et de gestion de contenus capable de traiter toute cette information. Dans laplupart des cas, l’information est représentée par des documents et les utilisateurs exploitentles collections de documents afin de satisfaire leurs besoins en information. Les systèmes de re-cherche d’information permettent d’automatiser le processus de recherche en construisant une

1

Page 21: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 1. Introduction

représentation adaptée des documents et des requêtes (opération d’indexation) puis en compa-rant la représentation des requêtes et des documents pour déterminer si le document est pertinentpour la requête (opération d’appariement). Les techniques classiques de description du contenuet de traitement des requêtes en recherche d’information (RI) sont basées sur des mots-clés. Lessystèmes de RI basés sur le modèle classique représentent les documents comme des sacs demots auxquels sont assignés des poids mesurant leur importance dans le texte (poids binaire,fréquence, etc.). La recherche est ensuite faite sur cet ensemble de mots pondérés. Les moteurs derecherche actuels utilisant une technique de recherche par mots-clés (par ex. Google) introduisentconstamment de nouvelles fonctionnalités pour améliorer l’expérience de recherche des utilisa-teurs (nouveaux mécanismes pour gérer le contenu multimédia, personnalisation des résultats enutilisant l’information contextuelle, etc.).

1.1.2 Recherche d’information sémantique et sur le web

Visant à résoudre les limitations des modèles par mots-clés, la recherche sémantique (recherchepar le sens plutôt que par les chaînes de caractères) a fait l’objet d’une grande vague de recherchedans les communautés de la RI et du web sémantique.

Dans le domaine de la RI, plusieurs approches sémantiques ont été définies. Certaines sontbasées sur des méthodes statistiques qui étudient la co-occurrence des termes dans le texte,d’autres appliquent des algorithmes basés sur des techniques de traitement du langage natureltout en s’appuyant sur des thésaurus et des taxonomies (par ex. Wordnet).

Le web sémantique a été lancé pour automatiser des tâches qui nécessitent un certain niveaude compréhension conceptuelle des objets impliqués et permettre à des logiciels de combiner les in-formations et les ressources d’une manière cohérente [Fernández et al., 2011]. L’utilisation des on-tologies [Gruber, 1993], élément clé dans les nouvelles technologies du web pour la représentationdes connaissances, a permis de surmonter les limites de la recherche par mots-clés dans le domainede la RI (par ex. en utilisant les annotations sémantiques des documents [Kiryakov et al., 2004a]).La RI sur le web sémantique est différente de la RI sémantique par le fait qu’elle traite prin-cipalement des objets, par la complexité des interfaces d’interrogation initialement destinées àmanipuler des bases de connaissances et par l’absence des algorithmes de classement de résultatsà une grande échelle qu’est le web.

1.2 Contexte applicatif : le projet Légilocal

Notre travail s’inscrit dans le projet Légilocal 1 qui vise à rendre l’acte administratif et ju-ridique facilement accessible au citoyen et aux collectivités locales de façon adaptée à leursbesoins [Amardeilh et al., 2013].

Le besoin des citoyens d’être informés et d’interagir dans un espace public est reconnu commeun droit dans la société de l’information. Les citoyens, mais aussi le monde des affaires souhaitentsavoir qui est en charge de la conduite des affaires de la communauté, de comprendre les déci-sions qui sont prises par les collectivités locales et leurs représentants, et d’anticiper les décisionsqui peuvent influer sur leur vie quotidienne (par exemple en matière d’urbanisme). De plus, cesacteurs s’interrogent sur les fondements ou la validité juridique des actes qui leur sont apposés.Toutefois, si l’information produite par l’état et par l’UE est généralement disponible à par-tir de Legifrance 2 pour les citoyens et les acteurs français, les informations produites par les

1. Projet FUI, http ://www.mondeca.com/fr/R-D/Projets/LegiLocal-Projet-FUI-9-Cap-digital-2010-20132. www.legifrance.gouv.fr/

2

Page 22: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

1.3. Enjeux de la recherche d’information juridique

communautés locales ne sont pas systématiquement disponibles en ligne.Un autre défi pour les administrations locales est la qualité des documents juridiques qu’elles

produisent. Les petites municipalités et groupements de municipalités ont peu de personnel.Le secrétaire de mairie qui produit et publie des documents juridiques n’est généralement pasun avocat en soi et de nombreux actes municipaux sont attaqués (peut-être de l’ordre de 15-20%) pour des motifs de procédure, comme l’inadéquation de visas. Les secrétaires de mairiesont souvent isolés, alors qu’ils ont besoin d’interagir les uns avec les autres, à partager leurexpérience et à harmoniser la législation et les décisions locales entre les différents niveaux decollectivités locales ou avec les collectivités voisines.

Le projet Légilocal, « La loi locale tout simplement partagée », vise à résoudre ces problèmesen développant les outils et l’infrastructure qui aident les administrateurs locaux à préparer età publier les actes locaux, décisions et règlements de telle façon qu’ils soient faciles à rechercherpour eux-mêmes et pour les citoyens, assurant ainsi l’accessibilité, la transparence et la qualitéde la législation locale. L’originalité de l’approche suivie par le projet consiste à combiner desoutils de gestion de contenu et des services de gestion d’interaction dans une plate-forme uniqueet facile d’accès pour les agents administratifs et les citoyens par le biais de widgets intégrés dansdes outils de bureautique (pour l’édition) ou les sites web des municipalités (pour l’accès auxdocuments) [Amardeilh et al., 2013].

Le projet est mené par Victoires Editions, un éditeur juridique spécialisé dans le droit descommunautés locales. Il réunit des partenaires industriels et académiques en charge du dévelop-pement des technologies et des ressources sur lesquelles la plate-forme Légilocal est construite.Un groupe pilote de petites municipalités est également associé au projet à des fins de test.

Pour résumer, le projet possède un triple objectif :– Faciliter l’accès aux données administratives et juridiques locales (interrogation, consulta-

tion) pour les citoyens.– Faciliter l’accès aux ressources et la collaboration au sein des collectivités locales (la prise

de décision locale doit s’appuyer sur les décisions similaires antérieures).– Permettre aux citoyens de s’informer et de commenter les décisions des collectivités locales.

Ces nouvelles fonctionnalités sont mises en œuvre en intégrant les techniques du web sémantiquepour une meilleure exploitation du contenu des documents juridiques :

– des ontologies et des standards juridiques sont utilisés pour permettre l’interopérabilitédocumentaire entre les collectivités locales et l’ouverture aux citoyens ;

– des services web simples sont créés pour la recherche d’information par interrogation (for-mulation de requêtes) ou par consultation (navigation) ;

– un réseau social unique à l’ensemble des collectivités locales est développé.

1.3 Enjeux de la recherche d’information juridique

Les documents juridiques sont des documents structurés fortement interconnectés. L’accès àl’information dans ce domaine est aussi problématique pour les citoyens qui essayent de com-prendre la norme qui s’applique à leur cas particulier que pour les juristes professionnels quidoivent déterminer comment la loi s’applique sur des cas particuliers. Le domaine juridique posede ce fait des questions spécifiques en terme de recherche d’information.

Structure d’un document La structure du document est importante à prendre en compte.Un texte juridique, notamment le texte d’une loi, est composé d’articles qui ont un cycle de vieautonome. Ils peuvent être modifiés ou même abrogés indépendamment de la loi considérée dans

3

Page 23: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 1. Introduction

son ensemble. Il est essentiel pour un juriste de pouvoir consolider un texte de loi, c’est-à-direretrouver toutes les modifications qui s’appliquent à ce texte, et retrouver la version en vigueurà une date donnée, parce qu’il faut pouvoir déterminer le droit qui s’applique à un momentparticulier du passé. Il faut également pouvoir ajuster la granularité documentaire (texte completou article de ce texte) aux besoins de l’utilisateur et prendre en compte la complexité du cyclede vie du document juridique qui peut être signé, publié, entré en vigueur, promulgué, modifiéet abrogé à des dates différentes. Les systèmes actuels d’accès à l’information juridique, commeNormattiva 3 ou UK Legislation 4, prennent partiellement en compte ce type de propriétés quandils proposent un accès temporel aux sources juridiques (point in time access).

Document indépendant vs. collection documentaire Le plus souvent cependant, dansces systèmes, les notions de modification ou d’abrogation – qui sont en réalité des relations inter-textuelles – sont modélisées comme des attributs de documents. On peut savoir quel est le statutd’un document juridique mais on n’a pas directement accès au texte qui lui confère ce statut. Ladimension intertextuelle des collections de documents juridiques est mal prise en compte. Elleest pourtant centrale dans la compréhension du raisonnement juridique : un texte ne s’interprètepas isolément, indépendamment de la jurisprudence et des interprétations auxquelles il a donnélieu, des textes qui sont venus le modifier ou des décrets qui en précisent l’application. La di-mension intertextuelle des collections juridiques est reconnue comme un facteur de complexitémajeur [Bourcier, 2011] pour la compréhension du droit. Ouvrir cette complexité est aujourd’huiun défi majeur pour l’accès à l’information juridique 5.

Des efforts sont faits pour développer des modèles technologiques qui facilitent l’accès etassurent l’interopérabilité des données dans le domaine juridique. Ces technologies ne sont im-plémentées que de façon limitée [Sartor et al., 2011] par les systèmes d’accès à l’informationjuridique existants. Ainsi, même si une grande quantité de données juridiques est disponible surle web, son exploitation reste limitée du fait qu’elle est stockée dans différents formats (word,pdf, html, xml, etc.), elle est interrogeable par des moteurs de recherche (avec un bon rappel,mais avec beaucoup de bruit et peu de pertinence).

Ouvrir la complexité dans l’accès à l’information juridique suppose d’être en mesure de lancerdes requêtes relationnelles sur un moteur de recherche et de retrouver non pas une liste dedocuments autonomes mais une liste de graphes de documents qui respectent les contraintesrelationnelles formulées en entrée par l’utilisateur.

Les requêtes des utilisateurs peuvent porter sur les cas d’application d’une règle de droit(Quels sont les textes de jurisprudence qui ont appliqué un texte de loi donné ? ), une date devalidité (Quels sont les textes locaux qui parlent de bruit et qui sont valides à une date donnée ? ),des liens de modification (Quels sont les lois qui modifient un code donné ? ), ou porter surplusieurs contraintes à la fois (Quels sont les textes de jurisprudence relatifs au texte de loi donnéavant la date d’abrogation de ce dernier ? ).

Contenu d’un document Au-delà de ces besoins particuliers au domaine juridique, il fautégalement fournir des outils sémantiques d’accès au contenu pour permettre aux utilisateurs deretrouver des documents à partir de leurs métadonnées d’identification (date de publication,titre, type de document, numéro d’un article, etc.) mais aussi de certaines notions clés.

3. http ://www.normattiva.it/ricerca/avanzata/vigente4. http ://www.legislation.gov.uk/search/point-in-time5. Les efforts de simplification juridique actuels portent essentiellement sur la normalisation et le contrôle du

lexique, à ce jour.

4

Page 24: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

1.4. Objectif et contributions

Le domaine juridique et la RI logique Il est essentiel de comprendre que le tri des résultatsretournés par un moteur de recherche n’est pas central dans le domaine juridique, où la recherched’information se doit d’abord d’être exhaustive. La sécurité juridique impose en effet de prendreconnaissance de tous les documents qui se rapportent à un cas particulier. Il est préférable delaisser le contrôle au juriste qui peut progressivement affiner sa requête en fonction de ses besoinsplutôt que de lui présenter un sous-ensemble de documents sélectionnés en fonction d’un critèrede pertinence défini a priori. En cela, la recherche d’information juridique se distingue clairementdes moteurs de recherche généralistes sur le web.

Les logiques formelles ont été utilisées efficacement dans la RI du fait qu’elles sont bienadaptées pour la représentation des connaissances [Baader et al., 2003] et pour la constructionde modèles de RI intégrant formellement des connaissances dans le processus de recherche. Leurutilisation dans le web sémantique en est le témoin. En effet, les logiques de descriptions formentla théorie mathématique qui est à la base de certaines technologies du web sémantique commepar exemple OWL-DL sur lequel s’appuient les ontologies. Dans les modèles de RI basés surla logique, l’appariement entre les documents et les requêtes est principalement binaire (unecorrespondance existe ou non), ce qui est en adéquation avec les besoins dans le domaine juridiqueen terme d’exhaustivité des résultats.

En relation étroite avec les logiques formelles, la théorie des treillis a été utilisée commebase pour des modèles de RI où l’implication logique devient une relation d’ordre partiel. Unedes premières études qui ont exploité la structure algébrique des treillis dans la RI est présentéedans [Mooers, 1958] et a été reprise par [Priss, 2000] avec l’AFC (Analyse Formelle de Concepts).Le processus de recherche est la recherche booléenne classique. Le travail présenté dans cette thèses’inscrit dans le cadre de modèles de RI basés sur la logique.

1.4 Objectif et contributions

Dans ce travail, nous nous intéressons à la recherche d’information dans une collection docu-mentaire, où les documents sont inter-reliés par différents types de relations et où l’interprétationd’un document se fait en référence à son contexte (nous définissons le contexte d’un documentpar l’ensemble des documents auxquels il est relié).

Le but de ce travail est d’exploiter la richesse de collections de documents (dans le cas général)en essayant d’intégrer les liens et le contenu dans le processus de recherche qui comporte donc undouble aspect relationnel et sémantique. Dans le domaine juridique, il s’agit de rendre compteà la fois de la complexité sémantique et de la complexité relationnelle des sources du droit, ens’appuyant sur une typologie des documents qui les composent. Sur le plan sémantique les sourcesde droit utilisent un langage juridique complexe qui n’est pas le même pour les différents typesde documents. Sur le plan relationnel, les liens sont régis par une typologie partiellement induitepar les documents qu’ils relient.

Prendre en compte l’intertextualité (les relations entre documents) dans un processus de RIpour en améliorer les résultats forme l’enjeu global de ce travail de thèse. Pour répondre à cetenjeu, nous nous fixons les objectifs suivants :

– mettre en évidence l’intérêt de la prise en compte des relations entre les documents dansun processus de recherche dans une collection documentaire ;

– proposer un modèle unifié pour la prise en compte de la sémantique des documents dansune collection documentaire et des liens qu’ils entretiennent ;

– définir des méthodes d’accès et d’exploitation de ce modèle dans un processus de recherched’information ;

5

Page 25: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 1. Introduction

– appliquer ce modèle et ces techniques d’accès au domaine juridique, le contexte applicatifde notre travail.

Le travail effectué dans cette thèse peut être réparti en trois grandes parties commençant parune analyse de besoins dans le domaine juridique, puis la proposition de deux approches, concep-tuelle et sémantique, pour résoudre la problématique de la thèse. Nos principales contributionspeuvent être résumées par les points suivants :

1. Analyse et identification des besoins en RI dans le domaine juridique. Un ensemble derequêtes formulées par les spécialistes du domaine juridique est collecté parmi lesquellesles requêtes relationnelles sont fréquentes.

2. Définition d’un formalisme logique pour décrire la collection de documents et le langagede requêtes. Une liste des types de requêtes importantes à traiter dans un système derecherche d’information juridique est tirée de l’analyse des requêtes recueillies auprès desjuristes interviewés.

3. Utilisation des treillis de concepts formels et relationnels pour la classification de documentsinter-reliés d’une collection documentaire. Il s’agit de s’appuyer sur la théorie de l’AnalyseFormelle de concepts (AFC) et l’Analyse Relationnelle de Concepts (ARC) pour organiserl’ensemble des documents en fonction de leurs annotations sémantiques et des relationsintertextuelles qu’il entretiennent.

4. Définition de méthodes de recherche de documents pertinents dans les treillis formels etrelationnels. La recherche peut être effectuée soit de manière directe en interrogeant lestreillis de concepts par l’intermédiaire de requêtes simples et relationnelles, soit de manièreprogressive en naviguant dans le treillis, soit en combinant les deux modes (interrogationet navigation).

5. Utilisation des technologies du web sémantique pour la modélisation de collections docu-mentaires en prenant en compte toutes les caractéristiques de la collection : la typologiedes documents, les liens intertextuels et leurs différents types, la structure des documents,leur contenu sémantique et leur cycle de vie :– Première proposition d’ontologie documentaire pour les textes juridiques contenant trois

modules : module document (structure), module collection (types des documents et liensintertextuels) et module sémantique (ressources sémantiques pour les concepts de do-maine).

– Propositions d’améliorations de l’ontologie pour permettre la gestion avancées des opé-rations documentaires (versions des documents et relations n-aires).

1.5 Structure du document

Le chapitre 2 aborde la problématique de la connaissance juridique face aux techniques duweb sémantique. Il décrit la complexité du domaine juridique et les efforts pour la structurationdu contenu des documents. Il liste les principales méthodes d’accès à l’information juridique etde traitement de l’intertextualité dans ce domaine.

Le chapitre 3 présente et définit brièvement les concepts de base de la RI classique et de laRI sémantique ainsi que les différents modèles de cette dernière (numérique et logique). Il décritégalement les principaux modèles de traitement de l’intertextualité dans les systèmes existantsde RI.

Le chapitre 4 présente l’état de l’art des approches candidates pour notre travail (l’approcheconceptuelle et l’approche sémantique).

6

Page 26: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

1.5. Structure du document

Le chapitre 5 introduit un formalisme logique pour décrire les collections de documents etle langage de requêtes. Il liste les types de requêtes à traiter dans un système de recherched’information juridique.

Le chapitre 6 détaille l’approche conceptuelle, basée sur l’analyse formelle et l’analyse re-lationnelle de concepts, pour la création d’un modèle unifié de collections documentaires et ladéfinition de méthodes d’accès par interrogation et par navigation.

Le chapitre 7 détaille l’approche sémantique, basée sur les technologies du web sémantique,pour la modélisation et l’interrogation de collections documentaires.

Le chapitre 8 décrit les expérimentations réalisées pour évaluer les approches proposées derecherche d’information dans une collection de documents.

Le chapitre 9 conclut le travail et en donne les principales perspectives.

7

Page 27: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 1. Introduction

8

Page 28: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2

Accès à l’information juridique

Sommaire2.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92.2 Caractéristiques des données juridiques . . . . . . . . . . . . . . . . . 10

2.2.1 Structure et hiérarchie des sources de loi . . . . . . . . . . . . . . . . . . 102.2.2 Réseau de réglementations et complexité juridique . . . . . . . . . . . . 11

2.3 Efforts de structuration de l’information juridique . . . . . . . . . . 142.3.1 Création ou édition de la réglementation . . . . . . . . . . . . . . . . . . 142.3.2 Représentation des documents . . . . . . . . . . . . . . . . . . . . . . . 152.3.3 Ontologies du droit . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 172.3.4 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

2.4 Méthodes d’accès à l’information juridique . . . . . . . . . . . . . . . 202.4.1 Portails généralistes de sources de droit . . . . . . . . . . . . . . . . . . 202.4.2 Outils spécialisés . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 222.4.3 Données gouvernementales ouvertes sur le web . . . . . . . . . . . . . . 24

2.5 Traitement de l’intertextualité . . . . . . . . . . . . . . . . . . . . . . 242.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26

2.1 Introduction

Le modèle documentaire classique a fait ses preuves dans la recherche d’information géné-raliste qui se caractérise par le volume de documents appréhendés, la diversité des requêtes desutilisateurs et la redondance de l’information. Dans des domaines spécialisés, comme la méde-cine ou le domaine réglementaire, ce modèle trouve ses limites. C’est en particulier le cas dans ledomaine juridique, où les documents sont de plusieurs types (législation, jurisprudence, etc.) etliés par différents types de relations. Ces relations sont en général le résultat de l’activité d’unagent sur un document donné (document législatif, décret d’application, etc.) dans un systèmed’information juridique. Par exemple, dans le cas de la législation, un système d’informationjuridique comporte plusieurs activités comme le montre la figure 2.1.

Les documents dans le domaine juridique sont liés les uns aux autres par des relations d’amen-dements, de dérivation, de transposition, de complémentation, de jurisprudence, etc. et cette in-tertextualité est reconnue comme un source importante de complexité juridique [Bourcier, 2011].

9

Page 29: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

Figure 2.1 – Activités d’un système d’information législatif [Sartor et al., 2011].

Dans les sections suivantes nous décrivons les caractéristiques des sources juridiques (sec-tion 2.2), leur structuration (section 2.3) ainsi que les méthodes d’accès à cette information(section 2.4).

2.2 Caractéristiques des données juridiques

Les documents dans le domaine juridique présentent des caractéristiques qui les distinguentdans le traitement des corpus textuels habituellement manipulés par les outils de recherched’information. D’un côté, les documents possèdent des structures internes bien spécifiques àchaque type de documents, d’un autre côté ils sont fortement inter-connectés avec plusieurstypes de liens entre eux. L’analyse et l’accès à ces documents présente un problème différent decelui des corpus textuels. Nous étudions ces deux caractéristiques importantes des documentsjuridiques dans ce qui suit.

2.2.1 Structure et hiérarchie des sources de loi

La structure des documents réglementaires possède trois caractéristiques spécifiques [Lau, 2004]qui font de l’étude et l’analyse de ces corpus un problème intéressant.

– Les réglementations possèdent une hiérarchie arborescente profonde. Ce sont des docu-ments semi-structurés organisés dans une structure d’arbre. Selon les types des documents,les sous-parties structurées peuvent être des sections ou des articles. Par exemple l’article11.4.5(a) peut être interprété comme sous-partie ou noeud fils de l’article 11.4.5 et unnoeud frère de l’article 11.4.5(b). Cette structure est cruciale pour la compréhension en

10

Page 30: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.2. Caractéristiques des données juridiques

contexte des différentes parties des documents.

– Pour certains types de réglementations, les articles sont massivement inter-reliés dans unmême texte réglementaire (liens internes). Par exemple, l’article 11.4.5(a) peut faire réfé-rence à l’article 8.2 pour des besoins de conformité. Dans l’analyse et l’exploitation desprovisions, cette information de lien est très importante, puisque les règles prescrites dansun article ne sont complètes que par l’inclusion des références.

– Les termes importants utilisés dans une réglementation particulière sont généralement dé-finis dans une partie relativement avancée de cette réglementation. La définition des termesajoute clairement une information sémantique aux phrases spécifiques au domaine et aidela compréhension des réglementations. Un traitement automatique de ces définitions s’avèreutile pour l’analyse des phrases différentes qui partagent les mêmes définitions.

Nous ajoutons une quatrième caractéristique à celles citées ci-dessus, que nous estimons trèsimportante pour l’analyse d’un corpus de documents réglementaires (étudiée en détail dans lasection 2.2.2).

– Les textes réglementaires sont fortement interconnectés entre eux (liens externes). Parexemple, l’arrêté du 23 avril 2012 JORF 2 mai 2012 (Avenant n 80 du 16 novembre 2011)qui parle du droit des salariés aux congés payés sous certaines conditions fait référence auxdispositions de l’article L.122− 26− 10 du code du travail.

Nous constatons, dans l’exemple cité, que le lien va d’un arrêté vers un article de code. Ceciest typique aux relations de hiérarchie qui réglementent et ordonnent les types de documents ju-ridiques. La figure 2.2 montre une hiérarchie de types de documents relativement à leurs portées.La figure 2.3 donne un exemple de documents juridiques de différents types et les relations qu’ilsentretiennent 6. En règle générale, un document juridique ne peut pas contredire un autre docu-ment juridique hiérarchiquement supérieur. Par exemple, un arrêté ne peut pas contredire une loi.

2.2.2 Réseau de réglementations et complexité juridique

La complexité du droit et des textes juridiques a souvent été soulignée, notamment la disper-sion des règles de droit dans différents textes qui crée une forte interconnexion entre ces textes(exprimée par des relations). Le tableau 2.1 cite différents types de relations qui peuvent existerentre les sources de droit.

La multiplicité et la diversité de ces relations fait de la structure de la collection documentaireun aspect important à prendre en compte si nous souhaitons satisfaire au mieux les besoins d’unutilisateur en termes de recherche d’information.

Geist [Geist, 2009] observe que le réseau des citations réglementaires doit bien être le ré-seau de citations le plus ancien, le plus grand et le mieux documenté jamais créé. Les juristesapprennent à l’utiliser sans forcément en connaître la structure globale. Des travaux récents

6. Les noms des relations dans la figure et les types des documents qu’elles relient résultent des premièresdiscussions que nous avons eues avec un expert du domaine juridique. Une description évoluée et plus précise destypes des documents et des relations entre eux est donnée dans les chapitres suivants.

11

Page 31: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

Figure 2.2 – Hiérarchie des sources de loi.

Figure 2.3 – Exemple de documents juridiques et de types de liens qui existent entre eux.

12

Page 32: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.2. Caractéristiques des données juridiques

Table 2.1 – Exemples de types de relations entre les sources de droit

Liens entre sources de droit Type de relationUne loi en modifie une autre Modification/AmendementUn texte local interprète Interprétation/Dérivationun texte nationalUn décret applique une loi ApplicationUne directive européenne est transposée Transpositionen droit nationalUn texte codifie une loi ou un article CodificationLa jurisprudence (les jugements) s’appuie Jurisprudencesur des lois (cas concret d’application)

se sont particulièrement intéressés à l’étude des réseaux de réglementation pour comprendreleurs topologies et étudier l’impact du facteur d’interconnexion (références entre les sources deloi) sur la complexité de l’accès à l’information juridique [Bourcier, 2011, Boulet et al., 2011,Winkels and de Ruyter, 2011, Winkels et al., 2013].

[Bourcier, 2011] cite parmi les principales sources de complexité des systèmes juridiques« l’auto-organisation d’un système textuel fortement interconnecté » et « la lecture enchevê-trée des textes pour un usager du droit (citoyen, décideur, juge) ». L’intertextualité, définiecomme étant une interaction entre un ensemble de textes, identifiée par l’ensemble des liens quiles relient, forme ainsi une source incontournable de la complexité des systèmes juridiques. Cequi explique que cette intertextualité soit un facteur majeur de complexité, c’est la multiplicitéet la diversité des types de liens entre les sources de droit. L’évolution des textes de droit donnelieu à la création, l’abrogation ou à la codification d’autres textes.

L’hypothèse faite par Bourcier [Bourcier, 2011] "que le droit est normalement complexe etque cette complexité doit être maintenue, gérée, exploitée par des modèles adéquats" ainsi quel’observation de Geist [Geist, 2009] justifient la perspective de notre travail qui vise à proposerun modèle permettant d’exploiter le matériau juridique tout en tenant compte de la complexitédue à son facteur d’intertextualité.

Les opérateurs juridiques sont de plus en plus conscients de la complexité du droit. Celle-cipeut être abordée de plusieurs points de vue, selon le degré de détail des lois [Tullock, 1995] ou enfonction d’autres paramètres comme les renvois. Les sciences qui étudient les systèmes complexesont été utilisées pour favoriser l’émergence de nouvelles approches pour l’analyse du droit et dessystèmes juridiques sous la forme de réseaux [Ruhl, 1997]. On met généralement l’accent sur lacomplexité du droit en lien avec les nombreuses citations croisées entre les textes juridiques. Cer-tains travaux ont construit des cartographies des branches du droit sur la base des renvois entre lesarticles de différents codes [Bourcier and Mazzega, 2007a, Bourcier and Mazzega, 2007b, Boulet et al., 2011].Cette analyse du réseau juridique vise à construire une méta-représentation des relations (graphede relations) entre les codes. Cette représentation a fait apparaître certaines proximités entrecodes, en conformité avec les groupements obtenus à partir du partitionnement de graphe, quiétaient jusque-là inconnus des juristes. Cette nouvelle cartographie du système juridique ouvreaux chercheurs de nouvelles possibilités d’analyse, une nouvelle échelle dans la perception dudroit, et de nouvelles pistes en matière d’ingénierie de la loi dans les "usines du droit" [Boulet et al., 2011].

13

Page 33: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

En plus du facteur d’intertextualité, l’évolution du système juridique, c’est-à-dire les modifi-cations et abrogations des sources juridiques, forme aussi une source importante de complexitédu droit mais les deux aspects sont liés puisqu’une modification crée une nouvelle version pourun document existant.

Nous faisons l’hypothèse que la modélisation du système juridique sous la forme d’un réseaudocumentaire va permettre d’améliorer l’accès à l’information juridique. Le travail de cette thèsepropose de s’appuyer sur les liens du réseau de réglementation pour offrir une nouvelle formed’interrogation des corpus juridiques et de leurs réseau de relations intertextuelles.

2.3 Efforts de structuration de l’information juridique

Les textes juridiques possèdent des structures complexes et variables selon le type des do-cuments. Des efforts sont faits pour structurer les documents juridiques et faciliter l’échange etl’exploitation de ces données. Des outils d’aide à l’édition réglementaire sont proposés. En pa-rallèle, plusieurs standards XML juridiques sont définis pour normaliser la structure des textesde loi et assister la production de ces textes. Des efforts sont également faits pour rendre cesdonnées compatibles avec les standards et normes définis dans le web sémantique (XML, RDF,SPARQL) et définir des modèles sémantiques (ontologies) pour différents domaines. Ces effortsont pour but d’assurer l’interopérabilité des données, faciliter leur gestion et leur accès par lesutilisateurs.

2.3.1 Création ou édition de la réglementation

[Engeljehringer and Schefbeck, 2006] indique que le terme écriture de la loi (legislative draf-ting ou writing law) fait référence au cadre formel de l’exécution de cette tâche. Il décrit leprocessus de rédaction comme un processus itératif composé de trois étapes :

1. comprendre, analyser les règles et les instructions (qui ne sont pas toujours écrites) ;2. modéliser, composer, structurer, éditer les documents législatifs ;3. ajouter des détails en toute liberté (par ex. pour la formulation des définitions).

Selon le type du document, la création du texte doit respecter un certain nombre de contraintessur la structure. Le tableau 2.2 donne les principaux éléments de structure des documents dansles deux systèmes francophone et anglophone (comme décrit par G.Schefbeck).

Table 2.2 – Les éléments de structure des textes juridiques dans les systèmes francophone etanglophone.

Système francophone Système anglophoneUnités de haut ni-veau

livre, titre, chapitre, sous-chapitre

chapitre, partie, division,sous-division

Unité de base article sectionUnités de bas ni-veau

numéro, alinéa sous-section, paragraphe,sous-paragraphe, item,sous-item

Il existe des ressources qui sont mises à la disposition des agents pour les aider dans la tâched’écriture de la loi. Par exemple :

14

Page 34: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.3. Efforts de structuration de l’information juridique

– La collection de manuels/aide au drafting (essentiellement pour les pays anglophones) 7 ;– Commission manual 8 (en Europe) ;– Practical Legal Drafting Guidelines 9 (pour les pays de l’Afrique).

Des outils d’aide à l’écriture de la loi sont également disponibles (par exemple : Meta-vex [Ven et al., 2007], Bungeni Editor 10). Leur but est d’assister les secrétaires de mairies dansla tâche lourde et fastidieuse de l’édition du contenu des réglementations et de leur faire gagnerdu temps. Des outils d’aide à l’édition et à la gestion de la modification des textes existants sontaussi disponibles : par exemple, AT4AM (Authoring Tool for Amendments) est un outil webd’édition d’amendements pour le Parlement Européen, il est accessible en open source 11.

2.3.2 Représentation des documents

La mise à disposition des documents juridiques sur le web enrichis avec de l’informationlisible et traitable par la machine contribuent à l’émergence du web sémantique juridique. Dansce cadre, des nouvelles technologies se développent et se multiplient [Sartor et al., 2011]. Desstandards sont définis pour

– identifier les ressources juridiques : chaque document juridique, produit par n’importequelle autorité, peut être identifié de façon unique (et par conséquent peut être retrouvé) ;

– structurer les documents juridiques, de n’importe quel type, respectant des définitions XMLbien spécifiques.

Des ontologies juridiques sont créées (et liées aux ontologies générales) pour :– organiser et annoter les documents juridiques ;– permettre de faire du raisonnement sur ces documents.Les standards XML fournissent une description uniforme des documents de différentes sources

assurant une meilleure interopérabilité. Ces standards facilitent la production de documents (enutilisant les mêmes outils dans des systèmes juridiques différents), la présentation des documents(affichage, impression) et l’accessibilité (interconnexion des réseaux de documents) [Biasiotti et al., 2008].

Différentes initiatives dans plusieurs pays (en Europe, en Afrique ou aux États Unis) ont in-troduit des standards pour la description et l’identification des documents juridiques : Metalex 12,LexDania 13, AkomaNtoso 14, NormeInRete 15, Formex 16, etc. Nous avons étudié en détails troisde ces standards :

Metalex [Boer et al., 2002, Boer et al., 2007, Boer et al., 2008, Boer, 2009] (Pays-Bas) définitles éléments partagés entre les documents juridiques de différentes juridictions avec pos-sibilité d’ajouter des détails pour décrire les éléments spécifiques à chaque juridiction. Lastructure d’un document est décrite par des articles, considérés comme des éléments indé-pendants du reste du document, qui contiennent une ou plusieurs phrases et peuvent êtreregroupés en parties (voir figure 2.4). Le schéma affecte des URIs aux documents, permet

7. http ://www.ili.org/ld/manuals.htm8. http ://ec.europa.eu/governance/better_regulation/documents/legis_draft_comm_en.pdf9. http ://www.apkn.org/lrp/guidelines/guidelines

10. http ://code.google.com/p/bungeni-editor/11. OPEN Authoring Tool for Amendments (OPEN at4am) : https ://code.google.com/p/open-at4am/.12. http ://www.metalex.eu/13. http ://lawin.org/lexdania/14. http ://www.akomantoso.org/15. http://www.interno.gov.it/mininterno/export/sites/default/it/sezioni/sala_stampa/notizie/

internet/app_notizia_15466.html

16. http ://formex.publications.europa.eu/

15

Page 35: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

la gestion du temps en définissant un certain nombre de dates pour chaque document etpermet l’identification des références entre documents et vers des concepts (voir figure 2.5).L’initiative CEN-Metalex (Comité Européen de Normalisation), basée sur Metalex, vise àproposer un standard européen au delà des standards nationaux.CEN MetaLex [Winkels et al., 2003] est un standard XML pour la représentation, la pu-blication et l’échange de la structure des sources juridiques. CEN MetaLex est un formatd’échange, considéré comme le plus petit dénominateur commun pour d’autres normes. Iln’est pas destiné à remplacer les normes spécifiques à la juridiction et les formats pro-priétaires dans le processus de publication, mais d’imposer une vue normalisée sur lesdocuments juridiques à fin d’échange d’informations et d’interopérabilité dans le cadre dudéveloppement d’outils spécialisés. Pour répondre à ces exigences, CEN MetaLex définit unmécanisme pour l’extension de schéma, les métadonnées ajoutant des références croisées,la construction des documents composites et une convention de nommage. Pour chaqueélément de structure d’un document juridique, un identifiant basé sur un IRI (Internatio-nalized Resource Identifier 17) est fixé comme indiqué par la convention standard de noms(standard naming convention) [Law, 2009].MetaLex définit une ontologie qui contient l’information de ce qui est considéré commeune métadonnée de MetaLex, la façon dont elle est stockée dans un document MetaLex,les classes d’entités et les propriétés (prédicats).

Figure 2.4 – Extrait d’un document décrit en Metalex

Figure 2.5 – Extrait d’un document décrit en Metalex : identification de références

17. http ://www.w3.org/2001/Talks/0912-IUC-IRI/paper.html

16

Page 36: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.3. Efforts de structuration de l’information juridique

AkomaNtoso [Palmirani et al., 2003] produit des DTD pour les documents parlementaires, lé-gislatifs et judiciaires de plusieurs pays africains. Les Schémas XML AkomaNtoso rendent"visibles" la structure et la sémantique des composants pertinents de documents numé-riques afin de soutenir la création de services d’information à forte valeur ajoutée et ac-croître l’efficacité et la responsabilité dans le contexte parlementaire, législatif et judiciaire.Akoma Ntoso [Barabucci et al., 2011] propose une gestion avancée des références et des mo-difications [Palmirani et al., 2009, Palmirani and Cervone, 2009, Palmirani and Brighi, 2010]utilisant une base de données XML native et des éléments XML spécifiques (passiveRef,activeRef) pour permettre l’accès aux citations qui ont modifié le document original ouqui modifient le document actuel. Il permet aussi une gestion automatique des mises àjour [Brighi and Palmirani, 2009]. Une autre caractéristique intéressante de AkomaNtosoest la façon dont il gère la distinction entre les annotations et les interprétations des agentsde l’autorité ou de tiers. Il propose une structure en couches qui permet la séparation ducontenu original créé par les chambres du Parlement (données) et le contenu ajouté par lesdifférents acteurs (métadonnées).

NormeInRete définit des DTDs et des schémas XML pour la législation italienne. Ces sché-mas représentent les métadonnées nécessaires pour automatiser la gestion du cycle de viedes documents législatifs. Ils représentent des informations structurelles et des informa-tions administratives et sémantiques. En rendant les documents disponibles en XML, ilspermettent de fournir des fonctionnalités avancées de recherche.

Dans le cadre du projet Légilocal, une réflexion a eu lieu pour choisir un standard pour ladescription des documents. Le format de la DILA (Direction de l’Information Légale et Admi-nistrative) 18 est adopté pour les documents du projet étant donné qu’une grande partie desdocuments de la collection Légilocal est extraite de Legifrance. Dans le cadre de notre travail, etdans une perspective d’ouverture de données sur le web, nous nous positionnons par rapport austandard Metalex, et plus spécifiquement par rapport à l’ontologie qu’il définit (voir chapitre 7).

2.3.3 Ontologies du droit

Avec la numérisation des documents juridiques et la définition des standards XML, des res-sources ontologiques et terminologiques sont parallèlement créées pour représenter et spécifier lecontenu sémantique de ces documents [Shaheed, 2005, Gangemi et al., 2005, Després and Szulman, 2007,Hoekstra et al., 2009, Mommers, 2010]. Ces ressources existent sous plusieurs formes : des ca-talogues et index numériques non structurés (vocabulaires contrôlés destinés à l’indexation decontenus), des thésaurus (ensemble de descripteurs structurés à travers des relations d’équi-valence, de généralité ou de spécificité, par ex. Eurovoc), des ontologies lexicales (ressourcesterminologiques structurées sur la base de relations linguistiques : hyperonymie, hyponymie,synonymie) et des ontologies (ressources sémantiques contenant des classes, des attributs, desrelations et des instances) [Bourcier and Fernández-Barrera, 2012]. Selon le degré d’abstractiondu domaine couvert, les ontologies peuvent être classées en trois catégories :

– ontologies de haut-niveau ou top ontologies (par ex. DOLCE),– ontologies noyaux ou core ontologies (par ex. LKIF core, CLO),– ontologies de domaine.Les tableaux 2.3 et 2.4 donnent une description de quelques ressources sémantiques définies

pour le domaine juridique.

18. Format d’échange de publication de données, utilisé dans Legifrance.

17

Page 37: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

Table 2.3 – Thésaurus et catalogues juridiques.

Ressource DescriptionEUROVOC 19 thésaurus multilingue (16 langues officielles) qui couvre tous les domaines

d’activité de la communauté européenne : la politique, les relations inter-nationales, le droit, l’économie, le commerce, etc. Quelques domaines sontplus développés que d’autres parce qu’ils sont plus proches des centres d’in-térêt de la communauté. Ainsi, par exemple, les noms des régions de chaqueétat membre de la communauté est dans Eurovoc mais pas ceux des paysqui n’appartiennent pas à la communauté. Il a pour objectif de représenterd’une façon non équivoque (univocal way) les documents et les concepts de re-cherche. Il contient des descripteurs (mots ou expressions qui décrivent sansambiguïté les concepts), des non-descripteurs (mots ayant des sens équiva-lents ou expressions pour les descripteurs) et des relations sémantiques entredescripteurs d’une part et entre descripteurs et non-descripteurs d’autre part.Les concepts d’Eurovoc sont utilisés pour décrire les documents, pour faireune recherche par mots-clés et aussi pour étendre la recherche à d’autres do-cuments décrits par le même concept. Il contient 6501 descripteurs qui sontrépartis dans 21 domaines et 127 microthésaurus. Consultable en ligne, ou enfichiers pdf (gratuitement).

ECLAS 21 Thésaurus ECLAS (European Commission Library Automated System) : édi-tion de janvier 2005. Bilingue français/anglais. Mis à jour 2 à 3 fois par an.Édité par la Bibliothèque Centrale de la Commission Européenne. Domainesd’activités de l’Union Européenne. Environ 6 300 descripteurs complétés par12 000 non-descripteurs dans d’autres langues, répartis dans 19 domaines.Consultable en ligne.

Interdoc 22 Édité par Interdoc, l’association des documentalistes de Conseils généraux(France). Représente un langage documentaire, hiérarchisé et normalisé, eta pour ambition d’harmoniser et de rendre cohérent le traitement documen-taire des services documentation des collectivités territoriales. Contient 8563descripteurs et 1012 non-descripteurs répartis dans 21 domaines.

Urbamet 23 Thésaurus bilingue français/anglais. Édité par l’Association Urbamet. Ilcouvre les champs thématiques de l’urbanisme, l’aménagement, l’habitat, laconstruction, l’architecture et les équipements. Contient 4151 descripteurs,497 non descripteurs et 348 termes reliés par la relation associative, répartisdans 24 champs sémantiques. Consultable en ligne.

Jurivoc 24 Thésaurus juridique trilingue français/allemand/italien, mis à jour mensuel-lement et édité par le Tribunal fédéral suisse. Environ 9500 descripteurs et20 000 non-descripteurs par langue, répartis dans 37 champs sémantiques.Téléchargeable et consultable en ligne.

18

Page 38: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.3. Efforts de structuration de l’information juridique

Table 2.4 – Ontologies juridiques.

Ressource DescriptionFOLaw[Breuker and Hoekstra, 2004]

Functional Ontology of Law. Ontologie noyau du droit (core onto-logy) développée dans le Leibniz Center of Law pour définir unebase réutilisable comme le dénominateur commun des différents do-maines juridiques. FOLaw forme le point de départ d’un certainnombre d’ontologies et systèmes de raisonnement juridiques dansdivers projets européens.

LRI-Core[Breuker and Hoekstra, 2004]

Ontologie noyau du droit basée sur les notions de sens-commun(common sense). Elle se compose de cinq grandes parties("worlds") : classes physiques, classes mentales, classes abstraites,rôles et événements.

LKIF-Core[Hoekstra et al., 2009]

Développée dans le cadre du projet européen Estrella (Europeanproject for Standardised Transparent Representations in order toExtend Legal Accessibility). Trois types différents d’usagers sontvisés : les citoyens, les professionnels et les juristes. Les trois groupesd’usagers ont fourni des termes de domaine qui ont été classifiésselon leur degré d’abstraction. Cette classification initiale a donnélieu à des clusters de concepts qui ont été reliés à des catégories deLRI-Core.

DOLCE[Gangemi et al., 2002]

Descriptive Ontology for Linguistic and Cognitive Engineering.Ontologie fondationnelle (OF) développée dans le cadre du pro-jet EU WonderWeb. Les OFs sont indépendantes d’un domaine,contiennent une axiomatisation riche de leurs vocabulaires. DOLCEest une OF top-level. DOLCE+ est une extension de DOLCEqui contient quelques modules dédiés aux ontologies noyaux decontextes, temps, espace, etc.

CLO [Gangemi et al., 2005] Core Legal Ontology. CLO formalise les catégories du domaine juri-dique qui existent dans n’importe quel système juridique, comme loi,norme juridique, régulation, agent juridique et rôle juridique, etc.Ces catégories sont connectés à l’ontologie fondationnelle DOLCE+.

19

Page 39: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

2.3.4 Synthèse

Le web sémantique, par ses différentes techniques, offre beaucoup d’opportunités pour letraitement de l’information juridique, en particulier la législation. Ces techniques ont permis defaciliter le processus de production interne aux instances juridiques (écriture de la loi, mainte-nance des sources de loi, gestion des workflows et procédures législatives), améliorer l’interactionavec les acteurs externes (publication des procédures et des informations, communication avec lescitoyens, dialogue avec les institutions nationales et internationales). La définition des standardset la création de nouvelles techniques appropriées pour les documents législatifs peut effecti-vement créer et nouer le lien entre la production de la législation et son utilisation dans lacommunauté juridique [Sartor et al., 2010].

2.4 Méthodes d’accès à l’information juridique

La présentation de l’information juridique a évolué. Ce changement est essentiellement dû àl’évolution des technologies de l’information et de la communication et les développements dansl’informatique juridique. La progression rapide de la numérisation de l’information juridiquefait qu’une large quantité de textes de loi est disponible au format électronique : législation,réglementations, décisions administratives , jurisprudence, contrats, données fiscales, etc. Cettenumérisation a permis entre autres le transfert et l’échange sur internet des textes de loi. Danscertains domaines, le web est d’ores et déjà la principale source d’information juridique pour lesjuristes et les citoyens.

Un des résultats de la numérisation des textes de loi, c’est la diversité, toujours en croissance,des fournisseurs de l’information juridique. Entre organismes publics et entreprises privées, leduel dure depuis le début des années 1970 [Sartor et al., 2010]. En même temps, internet afavorisé l’émergence de nouveaux acteurs dans la fourniture de l’information juridique. Institutsd’information juridique, établissements d’enseignement, associations professionnelles, cabinetsjuridiques et centres de recherche offrent une très grande quantité d’information juridique enlibre accès. Il existe aussi des portails qui ont pour objectif spécifique d’offrir l’accès à desressources juridiques en ligne.

2.4.1 Portails généralistes de sources de droit

Legifrance 25 est le portail officiel des données juridiques du gouvernement français. Il offre unservice public pour la diffusion du droit national, européen et international. Les documentssont accessibles en ligne et en libre accès. Le site présente ou fait référence à tous les textesen vigueur depuis 1539 et la jurisprudence des tribunaux supérieurs depuis 1986. Plusieursliens vers d’autres sites juridiques sont également répertoriés sur Legifrance. Le portail offreun large éventail de types de documents juridiques qui sont classés par catégories :– droit français : lois et règlements (constitution, codes en vigueur, autres textes législatifs

et réglementaires), jurisprudence (constitutionnelle, administrative, judiciaire), conven-tions collectives ;

– droit européen : traités européens, journal officiel de l’Union Européenne, transpositiondes directives, jurisprudence européenne ;

– droit international : traités internationaux, jurisprudence internationale.

25. http ://www.legifrance.gouv.fr

20

Page 40: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.4. Méthodes d’accès à l’information juridique

L’accès aux documents de la base de données de Legifrance se fait soit par interrogationsoit par navigation. L’interrogation se fait en introduisant un ou plusieurs mots-clés et lerésultat est une liste de documents ou parties de documents (articles) qui contiennent aumoins l’un des mots-clés de la requête. La navigation se fait selon les types et les thèmes desdocuments qui sont organisés ainsi dès la page d’accueil et en suivant les liens hypertextesentre les documents.

EUR-Lex 26 est un portail d’accès au droit de l’union européenne : traités, législation, juris-prudence, travaux préparatoires, questions parlementaires. EUR-Lex donne un accès libreaux documents juridiques officiels publiés par les institutions de l’union européenne ainsiqu’aux autres documents considérés comme publics. Il est géré par l’office de publications del’union européenne. Le site contient aux alentours de 3 650 000 documents dans 23 languesavec des textes postérieurs à 1951. La base de données est mise à jour quotidiennement.Chaque année, à peu près 15 000 nouveaux documents sont ajoutés à la base.Le site offre des fonctionnalités simples (par mots clés, numéro de document, date, référencedu Journal Officiel, numéro CELEX, etc.) ou avancées (selon le type des documents :traités, accords internationaux, législation en vigueur, législation consolidée, jurisprudence,questions parlementaires ou travaux préparatoires) pour l’accès aux documents.

UK Legislation Le site UK legislation 27 est le lieu officiel de publication de la législation ré-cemment adoptée au Royaume-Uni. Les versions originales (adoptées) et révisées de lalégislation sont publiées par et sous l’autorité du Contrôleur de HMSO (Her Majesty’s Sta-tionery Office). Le site comporte la plupart des types de la législation avec leurs documentsexplicatifs. Toute la législation postérieure à 1988 et une grande partie de la légidlationantérieure sont disponibles sur le site. La plupart des types de législation primaire (parexemple, lois, mesures, ordonnances du conseil) sont sous la forme ’révisé’ : les modifica-tions apportées par la législation ultérieure sont incorporées dans le texte. Le site permetde rechercher les modifications apportées par la loi depuis 2002.

Normattiva 28 est le site web officiel de l’état italien publié le 19 Mars 2010 et créé par ledécret-loi du 22 Décembre 2008, n.200, sur les mesures urgentes pour la simplification dela législation, qui vise à la création d’un service gratuit de consultation des lois italiennes.Il contient, à l’heure actuelle, les normes italiennes depuis 1940. Le site, en plus de mettreà jour immédiatement la base de données avec les nouvelles normes publiées au Journalofficiel de la République Italienne, offre un service de consultation en mode multi-validité 29,qui permet la consultation d’une norme à une date donnée, puis l’affichage du documentdans sa précédente version et éventuellement toutes les modifications qui ont eu lieu aprèsla date indiquée.

Portails privés Le site de Legifrance propose une liste de portails privés 30 (éditeurs juridiques,universités, centres de recherche ou associations, etc.). Cette liste est proposée dans le butde « développer la synergie entre la mission de service public de diffusion des données es-sentielles du droit français assurée par Legifrance, et la valeur ajoutée apportée par les sitesjuridiques privés, payants ou non, grâce aux sélections, commentaires et enrichissementsde toutes sortes qu’ils effectuent ».

26. http ://eur-lex.europa.eu/fr/index.htm27. www.legislation.gov.uk/28. http ://www.normattiva.it/29. Le terme "multi-validité" signifie, en particulier, le mode d’édition utilisé pour mettre à jour l’instrument

juridique qui permet à l’utilisateur de visualiser le chemin historique de la loi et les changements qu’elle a subisau fil du temps, avec les dates correspondantes de validité.

30. http ://www.legifrance.gouv.fr/Sites/Portails-juridiques

21

Page 41: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

2.4.2 Outils spécialisés

Plusieurs techniques et outils ont été proposés pour l’exploitation du contenu de la réglementa-tion [Lau, 2004, Geist, 2009, Chieze et al., 2010, Palmirani et al., 2003, Amardeilh et al., 2013].

Dans [Chieze et al., 2010] les auteurs présentent leur système DecisionExpress qui offre unbulletin des décisions récentes des Canadian federal courts et provincial tribunals. Le systèmetraite automatiquement les décisions juridiques et fait en sorte que les informations quotidiennesutilisées par les juristes soient plus accessibles en les présentant sous forme de résumés. Lesystème permet aussi d’extraire l’information essentielle de l’ensemble de ces décisions de mêmetype et de les présenter de façon accessible sous forme de feuillets d’information (factsheets).Les auteurs proposent un outil de recherche permettant de faire des recherches dans la base dedonnées du Canadian federal courts and tribunals. L’outil offre de nouvelles fonctionnalités derecherche, en plus de celles proposées par la plupart des fournisseurs canadiens de l’informationjuridique (QuickLaw 31, Westlaw-Carswell 32) qui se basent sur la recherche dans les factsheets.L’utilisateur peut formuler sa requête en se basant sur le nom du juge, sa conclusion, le domainede la loi, le sujet de la décision, les mots-clés, etc.

Au niveau national, une plate-forme d’accès à l’information juridique a été développée dansle cadre du projet Légilocal [Amardeilh et al., 2013]. La plate-forme a deux caractéristiques prin-cipales :

– Elle permet aux juridictions locales de rendre leurs actes publics et accessibles en ligne surleurs sites web (en consultation et en recherche). Ce résultat est obtenu grâce à l’utilisationde vocabulaires sémantiques (les annotations des documents) qui sont enrichis de méta-données pour la recherche, et un moteur de recherche sémantique qui permet aux acteurs(personnel administratif, représentants ou citoyens) de trouver les documents pertinents.

– Elle permet aux secrétaires de mairies d’éditer des actes plus rapidement et de produiredes actes plus sûrs. Ce résultat est obtenu par le partage de documents entre les différentesmunicipalités et avec des experts, grâce à des outils qui soutiennent la gestion de contenuet l’interaction humaine dans ce contexte et à travers un système de détection basé sur lavérification de la validité de documents.

La plate-forme Légilocal (figure 2.6) se base sur quatre fonctionnalités principales : la gestiondes documents, l’enrichissement sémantique des documents, la recherche sémantique et la miseen réseau des acteurs et des documents. Elle est composée d’un ensemble complexe d’outils etde référentiels et présente deux fonctionnalités : le réseau social REZODAC pour l’usage internedes secrétaires de mairies et un moteur de recherche sémantique intégré dans les sites web desmunicipalités pour les citoyens.

Sur la figure 2.6, trois catégories d’utilisateurs peuvent interagir avec la plate-forme Légilocal :– l’éditeur, administrateur de la plate-forme, met en place et maintient REZODAC, gère les

ressources sémantiques et publie les sources des documents éditoriaux ;– les secrétaires de mairies sont responsables de l’édition et de la publication des documents

administratifs (à la fois dans REZODAC et sur le web), mais ils peuvent également recher-cher des documents et de l’expertise au sein du réseau REZODAC. Toutes ces tâches sonteffectuées dans le réseau sur lequel les employés doivent être connectés ;

– les citoyens ont accès au moteur de recherche sémantique Légilocal, qui est intégré commeun simple widget dans les sites des mairies.

31. www.lexisnexis.ca/en-ca/products/quicklaw-full-service.page32. http ://www.carswell.com/products/westlawnext-canada/

22

Page 42: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.4. Méthodes d’accès à l’information juridique

Figure 2.6 – La plate-forme Légilocal [Amardeilh et al., 2013].

23

Page 43: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

La gestion unifiée des contenus et interactions sur le contenu repose sur des outils développéesou adaptés dans le cadre du projet Légilocal [Amardeilh et al., 2013] :

1. le système de gestion de réseau permet l’installation du réseau REZODAC qui contrôle lacirculation de l’information entre les acteurs et le traitement des documents ;

2. l’annotateur qui enrichit les documents avec des balises, des métadonnées et des annotationssémantiques ;

3. un moteur de recherche sémantique qui permet la navigation à facettes basée sur desdocuments et le raffinement de requêtes ;

4. un système de mise en réseau qui permet la recherche experte et le chat dans REZODAC.

Un système de gestion de ressources, qui ne fait pas partie de la plate-forme Légilocal, estutilisé pour la conception et l’entretien des ressources sémantiques. La plate-forme s’appuie éga-lement sur divers types de ressources. Les documents sont regroupés dans une grande base dedocuments. Certains sont publiés par l’éditeur pour assister les secrétaires de mairies dans laproduction des actes, mais la plus grande partie de la base est composée d’actes administratifsproduits par les secrétaires de mairies en REZODAC et progressivement enrichis avec des méta-données et des annotations sémantiques. Les ressources sémantiques sont utilisées pour annoteret rechercher dans la base de documents.

2.4.3 Données gouvernementales ouvertes sur le web

Des organismes gouvernementaux et des organisations du secteur public produisent unegrande quantité de données : données statistiques, données économiques, registres d’entreprises,résultats de vote des élus, etc. Dans de nombreux pays, une partie significative de ces donnéesest mise en ligne par souci de transparence. Ces données sont devenues facilement accessibles etont permis à des utilisateurs de les analyser et d’en tirer de nouvelles connaissances qui peuventproduire de nouveaux services (par ex. la proposition sous forme structurée des emplois de lafonction publique 33). L’utilisation des techniques du web sémantique pour la publication des don-nées sous forme de données liées (Linked Open Data [Heath and Bizer, 2011]) a montré qu’ellesfacilitent l’accès aux données gouvernementales, comme dans le cas des initiatives data.gov.uk 34

et data.gov 35.

2.5 Traitement de l’intertextualité

Dans le domaine juridique, la cohérence des composants de la loi est exigée. La vérification dela cohérence ne peut se faire qu’à travers l’étude des liens intertextuels entre les sources de droit(vérification des interactions inter-réglementaires). L’avancée des techniques de traitement etd’accès à l’information juridique a rendu plusieurs tâches, difficiles et fastidieuses il y a quelquesannées, plus faciles pour les utilisateurs (juristes, secrétaires de mairies, citoyens). Les techniqueset outils proposés ont traité la structure d’un document dans tous ses détails (structure logiquedu texte, les concepts, les dates, etc.) ce qui permet une interrogation plus précise sur le contenud’un document. L’étude de la structure de la collection documentaire (les documents considérésdans leur ensemble aussi bien qu’individuellement) dans un but de recherche d’information areçu moins d’attention.

33. http ://www.civilservice.gov.uk/34. http ://data.gov.uk/linked-data35. http ://www.data.gov/semantic

24

Page 44: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.5. Traitement de l’intertextualité

L’un des défis de tout système de RI juridique est de gérer la complexité du réseau de sourcesjuridiques qui contient les informations nécessaires à l’utilisateur. Habituellement, cette informa-tion est répartie sur les différents documents de la collection. En d’autres termes, la connaissancejuridique est structurée en morceaux contenus dans divers documents et le but de l’utilisateurest de les identifier et de les interpréter conjointement. Un système de RI juridique doit doncpermettre de suivre les « traces des connexions » entre des éléments de connaissances juridiqueset de les présenter de manière cohérente à l’utilisateur. Ces traces sont définies comme des réfé-rences explicites et implicites. Identifier les références implicites demande des connaissances trèsspécialisées (ontologies, règles, etc.) contrairement aux références explicites qui sont plus directe-ment accessibles par leur représentation textuelle [Brighi and Palmirani, 2009]. L’identificationdes références explicites a permis de mesurer la complexité juridique en termes d’intertextualité,fournissant ainsi une idée approximative de la quantité de références croisées que les profession-nels du droit doivent connaître sur le domaine réglementaire étudié.

La complexité du droit est bien illustrée par plusieurs travaux qui se situent à l’intersectiondu domaine juridique et de la théorie des graphes. Ces travaux sont classés en deux grandescatégories : analyse du réseau à haut-niveau (macro-level network analysis), qui explorent lastructure globale du réseau de citations, et à bas-niveau (micro-level network analysis) qui seconcentrent sur une granularité plus fine des documents [Gultemen and van Engers, 2013]. Parexemple, une analyse du réseau de citations de la cour suprême des États-Unis est présentéedans [Chandler, 2005, Fowler et al., 2007, Fowler and Jeon, 2008] ; le code des États-Unis est éga-lement analysé comme un réseau dans [Bommarito and Katz, 2009] ; dans [Boulet et al., 2009]les auteurs font une analyse similaire du réseau constitué par les citations dans le code de l’en-vironnement français et dans [Winkels and de Ruyter, 2011] un réseau de citations de la coursuprême néerlandaise (15053 décisions entre 1965 et 2008 avec 106559 citations) a été étudié.Ces travaux sur la structure des réseaux de réglementations ont fourni un certain nombre d’in-dicateurs aux acteurs du domaine qui aident à la compréhension des caractéristiques et au suivide l’évolution de ces réseaux mais pas à des fins de recherche d’information.

À ce jour, les liens juridiques entre les documents ont été exploités de façon limitée par lessystèmes de recherche d’information à des fins d’interrogation. Dans ce qui suit nous présentonsquelques exemples de la gestion des liens entre des documents juridiques dans des systèmesopérationnels de recherche documentaire juridique.

Légifrance Les liens explicites sont traités le plus souvent manuellement. Certains d’entre euxsont formalisés sous la forme de liens navigables (liens hypertextes) mais les liens ne sontparfois conservés que sous la forme d’états juridiques (attributs) associés aux documents :Vigueur (V), Vigueur différée (VD), Vigueur avec terme (VT), Abrogé (Ab), Annulé (A),Disjoint (D), Modifié (M), Périmé (P), Substitué (S), Transféré (T).

UK Legislation L’utilisateur peut interroger la base de données en spécifiant la législationmodifiée ou la source juridique qui introduit le changement. La liste des résultats indiqueégalement les types de modifications (mots abrogés, insertion, abrogation partielle, cessa-tion d’effets, renumérotation, etc.) effectuées sur les documents. Le système traite le liengénéral « modifie / modifié par » comme une relation entre documents mais des typesde modifications plus spécifiques ne sont représentées que comme des attributs de docu-ments. UK Legislation permet également d’accéder à la version d’un document juridiqueen vigueur à une certaine date. « En vigueur » est un attribut qui peut être associé auxdocuments juridiques dans le système de recherche d’information de UK Legislation.

Normattiva Le site permet aussi l’accès point-in-time à la législation, de telle sorte que l’uti-

25

Page 45: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

lisateur puisse récupérer les différentes versions d’un document en vigueur à des datesdifférentes.

À partir de l’analyse de ces systèmes, nous pouvons distinguer quatre façons d’exploiter lesliens explicites entre les documents juridiques. La liste ci-dessous décrit les différentes techniquesde représentation des liens classées de la moins opérationnelle à la plus opérationnelle [Mimouni et al., 2013] :

– les liens sont représentés comme des chaînes de caractères dans le texte du document : engénéral, ils apparaissent dans la partie finale du document et sont ajoutés manuellement(par une équipe éditoriale). Les liens intégrés dans le texte ne peuvent être interrogés quepar des requêtes en plein texte ;

– les liens sont encodés sous la forme d’hyperliens qui sont navigables lors de la consultationdu document. Les liens sont des références qui pointent vers des objets de la collection(d’autres documents juridiques ou des fragments de ces documents). Cette représentationrend les liens plus opérationnels car ils permettent à l’utilisateur d’accéder aux documentscités directement sans interroger à nouveau la base de données ;

– les liens sont représentés comme des statuts juridiques qui sont interrogeables comme des at-tributs de documents. L’utilisateur peut chercher des documents avec des attributs comme« modifié » ou « abrogé » ;

– Les liens juridiques sont intégrés dans la base documentaire comme des liens entre docu-ments qui sont interrogeables via des requêtes relationnelles. Seule la base UK Legislationprésente cette fonctionnalité mais pour une unique relation générique de « modification »sans précision sur le type de la modification.

En résumé, les trois systèmes présentés prennent en compte les liens juridiques, mais de façonlimitée et rarement sous le forme de relations entre documents à proprement parler. Les systèmestraitent le statut juridique résultant des relations entre les documents, plutôt que des relationselles-mêmes : au lieu de représenter le fait que « le document x modifie le document y », lesystème encode le fait que le document y a un statut juridique « modifié ».

L’objectif de notre travail est d’aller plus loin dans le traitement de l’intertextualité en re-présentant plusieurs types de liens juridiques comme des relations entre les documents de lacollection et en exploitant ces relations dans un système de recherche d’information juridiqueacceptant des requêtes relationnelles. Nous estimons que cette représentation reflète de manièreplus précise la façon dont les professionnels du droit conçoivent le réseau des normes et permettraune interaction plus naturelle entre l’utilisateur et le système.

2.6 Conclusion

L’accès aux connaissances juridiques présente des défis particuliers pour les systèmes derecherche d’information :

– les connaissances juridiques sont souvent exprimées dans des formes linguistiques complexeset possèdent des structures complexes ;

– la complexité dûe au facteur d’intertextualité et aux différents types de liens qui existententre les documents ;

– le besoin d’exhaustivité des résultats.Les systèmes d’accès à l’information juridique existants ne proposent pas de solutions directes

pour prendre en compte une recherche d’information qui porte aussi bien sur le contenu séman-tique que sur les liens intertextuels. Ils contournent cette difficulté avec des techniques simples,par exemple, en modélisant les liens comme des attributs qui sont intégrés dans la base (parexemple « modifié par », « abrogé par ») et qui peuvent être interrogés. Les résultats retournés

26

Page 46: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

2.6. Conclusion

ne se présentent pas comme des graphes et l’utilisateur est amené à parcourir les liens hypertextespour construire le contexte de la réponse.

On ne peut se contenter de visualiser les citations et de proposer des systèmes pour naviguerde proche en proche dans les bases documentaires (un utilisateur peut facilement s’y perdresans trouver ce qu’il cherche). Il faut proposer des outils de recherche d’information axés surl’intertextualité pour retrouver les documents en fonction des liens qu’ils entretiennent. Cecireprésente l’objectif principal de ce travail de thèse.

Le chapitre suivant décrit les méthodes de recherche d’information classique et sémantiqueexistantes et donne les définitions de base des techniques utilisées. Nous positionnons notre travailpar rapport à ces approches, notamment celles qui intègrent la dimension intertextuelle.

27

Page 47: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 2. Accès à l’information juridique

28

Page 48: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3

Recherche d’information et graphe dedocuments

Sommaire3.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 293.2 Recherche d’information classique . . . . . . . . . . . . . . . . . . . . 30

3.2.1 Indexation ou processus de représentation . . . . . . . . . . . . . . . . . 303.2.2 Appariement ou processus de recherche . . . . . . . . . . . . . . . . . . 313.2.3 Tri de résultats . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.4 Reformulation de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.5 Modèles de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 323.2.6 Mesures d’évaluation . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 333.2.7 Interface utilisateur . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 33

3.3 Recherche d’information sémantique . . . . . . . . . . . . . . . . . . . 343.3.1 Annotation sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . . 343.3.2 Modèles de RI numériques et à base de connaissances . . . . . . . . . . 353.3.3 Modèles logiques de RI . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

3.4 RI et Analyse de liens . . . . . . . . . . . . . . . . . . . . . . . . . . . 383.4.1 Intertextualité dans les systèmes de RI existants . . . . . . . . . . . . . 383.4.2 Analyse de graphes de citation . . . . . . . . . . . . . . . . . . . . . . . 393.4.3 Analyse des liens hypertextes (algorithmes Page Rank et HITS) . . . . 393.4.4 Analyse socio-sémantique . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

3.1 Introduction

Le but de ce chapitre est d’étudier comment l’intertextualité est prise en compte dans lessystèmes de RI existants. Les systèmes de recherche d’information servent d’interface entre lacollection de documents et les utilisateurs. Ils proposent des fonctionnalités de stockage, d’or-ganisation, de recherche d’information en réponse à des requêtes et de retour de l’informationpertinente pour ces requêtes. Différents modèles de représentation de l’information (stockage, or-ganisation), de mécanismes d’appariement (recherche d’information en réponse à des requêtes) et

29

Page 49: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

d’interfaces (retour de l’information pertinente pour ces requêtes) ont été proposés pour améliorerles performances des systèmes de RI 36.

Les systèmes de RI ont également vu une amélioration grâce à l’essor des techniques séman-tiques. En effet, l’énorme augmentation de la quantité et la complexité de l’information accessiblesur le web a provoqué une demande pour des outils et des techniques qui peuvent traiter les don-nées sémantiquement. L’approche classique de recherche d’information repose principalement surla recherche par mots-clés dans les textes des documents, eux-mêmes modélisés avec des sacs demots sans tenir compte de l’information sémantique. Des modèles de représentation de connais-sances, principalement les ontologies, sont proposés pour faire face à ce problème en ajoutantune couche de sémantique aux textes bruts (métadonnées, concepts). Ils forment actuellement labase de tout système de RI sémantique.

Bien que les interfaces d’interrogation les plus classiques soient à base de mots clés (commedans Google), les systèmes spécialisés de RI s’orientent vers les techniques sémantiques basées surdes modèles logiques. C’est le cas dans le domaine juridique, avec plusieurs initiatives d’ouver-ture de données gouvernementales lesquelles sont annotées avec des métadonnées ou vocabulairesouverts et partagés. De plus, le besoin d’exhaustivité des résultats dans ce domaine exige unerecherche booléenne dans les collections de documents, caractéristique des techniques d’interro-gation sémantique.

Dans cette thèse nous nous intéressons à l’accès à l’information dans le domaine juridique.Notre travail s’intègre dans le contexte de la recherche d’information sémantique et en particuliercelle qui repose sur un modèle logique.

Ce chapitre commence par présenter et définir brièvement les concepts de base de la RIclassique (section 3.2), avant de décrire les notions de base de la RI sémantique (section 3.3)et ses différents modèles (numérique et logique). Une description des principaux modèles detraitement de l’intertextualité dans les systèmes existants de RI est donnée dans la section 3.4.

3.2 Recherche d’information classique

La figure 3.1 présente une vue d’ensemble d’un système de RI : un utilisateur exprime des be-soins en information via l’interface qui lui est proposée (en langage naturel, par formulaire, etc.),le système de RI construit une représentation des documents de la collection interrogée et de larequête sous forme d’index, ensuite il compare les deux représentations afin d’établir la corres-pondance entre eux et identifier, selon des métriques prédéfinies, les documents pertinents pourla requête. Une fonction de classement peut être exécutée par la suite pour trier les documentsselon leur degré de pertinence. Selon les résultats, l’utilisateur peut choisir de procéder à unraffinement de requête. Dans le cas d’un système de RI sémantique, des ressources sémantiques(ontologie, thésaurus, etc.) peuvent être utilisées pour l’indexation ou pour la reformulation derequêtes afin d’améliorer les résultats de la recherche. Les étapes de ce processus sont décritsdans les sections suivantes.

3.2.1 Indexation ou processus de représentation

L’indexation est un processus de représentation qui a pour rôle d’extraire d’un document oud’une requête, une représentation paramétrée qui couvre au mieux son contenu. Le résultat del’indexation constitue une description du document ou de la requête, qui est une liste de termes

36. Les définition des notions utilisés dans ce chapitre se basent en partie sur http ://www-nlp.stanford.edu/IR-book/ et [Baziz, 2005].

30

Page 50: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.2. Recherche d’information classique

Figure 3.1 – Vue générale d’un système de recherche d’information.

significatifs pour l’unité textuelle correspondante, auxquels sont généralement associés des poidspour différencier leur degré de représentativité.

L’indexation est une étape très importante dans un processus de recherche d’information.Un index optimise les performances d’interrogation et améliore considérablement le temps de ré-ponse en stockant les termes dans une structure de fichier inversé. La restitution des documentsen réponse à une requête dépend fortement de la qualité de l’indexation. La méthode classique,qu’est l’indexation par sacs de mots, comprend deux étapes : la recherche des termes décrivantle contenu qu’on peut appeler aussi descripteurs (extraction automatique de descripteurs, élimi-nation des mots outils (stopwords), lemmatisation, repérage de groupes de mots) et l’évaluationde la représentativité de ces termes (pondération) [Ralalason, 2010].

L’indexation par métadonnées est une méthode qui a été proposée pour améliorer les ré-sultats d’une recherche d’information. Cette méthode s’appuie sur un ensemble d’annotationsqu’on appelle métadonnées. Ces informations sont attachées aux documents et décrivent leurscaractéristiques techniques comme la date de publication, l’auteur, etc.

3.2.2 Appariement ou processus de recherche

C’est la base d’un système de RI. Dans cette phase, les termes de la requête sont recherchésdans l’index. Tous les documents contenant des occurrences des termes de la requête sont récu-pérés. Selon les systèmes, la récupération peut se faire même pour des documents partiellementcompatibles.

Les systèmes de recherche d’information se caractérisent par le modèle d’appariement document-requête : la fonction de décision qui permet d’associer à une requête, l’ensemble des documents

31

Page 51: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

pertinents à restituer en mesurant la pertinence d’un document vis-à-vis de la requête. Cettefonction est liée au modèle de représentation des documents et des requêtes (à la phase d’indexa-tion). La valeur de pertinence est calculée à partir d’une fonction de similarité qui tient comptedes poids des termes déterminés généralement en fonction d’analyses statistiques et probabilistes(voir section 3.2.5).

3.2.3 Tri de résultats

Selon le degré d’accord entre les documents et les termes de la requête, des scores sont affectésaux documents récupérés. Ils servent à trier les résultats : les documents les plus pertinents sontprésentés à l’utilisateur en haut de la liste de résultats. Le processus d’ordonnancement dépendfortement du modèle de RI (section 3.2.5), certains modèles ne proposent pas l’ordonnancementcomme les modèles logiques en RI sémantique (tous les documents extraits sont considérés commeayant la même pertinence).

3.2.4 Reformulation de requêtes

Certains systèmes proposent la fonctionnalité de reformulation automatique de requêtes afind’améliorer la précision des résultats retournés. Elle consiste à modifier la requête de l’utilisateuren ajoutant des termes estimés significatifs (par ex. les termes des documents les plus pertinentsretournés par le système) ou en modifiant leurs poids.

3.2.5 Modèles de RI

Les systèmes de RI peuvent être classés en trois groupes selon le modèle qu’ils utilisent pourla représentation et l’appariement des documents et des requêtes, modèle qui influe de façondirecte les performances des systèmes.Modèle booléen C’est un modèle simple basé sur la théorie des ensembles et l’algèbre boo-

léenne. Les documents sont représentés par des ensembles de termes et la requête estreprésentée sous forme d’une expression logique. Les termes qui indexent la requête sontreliés par les connecteurs logiques ET(∧), OU(∨) et NON(¬). Un document est retournés’il contient tous les termes exprimés par l’expression logique. Ce modèle est intuitif, facileà mettre en oeuvre et permet pour un utilisateur expérimenté d’avoir une recherche trèsrestrictive. L’approche booléenne a cependant l’inconvénient de ne rien retourner quandaucun document "vraiment" pertinent n’est trouvé.

Modèle vectoriel (VSM) Ce modèle représente à la fois les documents et les requêtes par desvecteurs de termes pondérés. Les documents sont retrouvés en fonction du degré de simi-larité de leurs vecteurs avec le vecteur de la requête. Les principales mesures de similaritésont le produit scalaire, la mesure de Jaccard et le cosinus. Contrairement au modèle boo-léen, le modèle vectoriel peut retourner des documents pertinents dont la représentationne correspond qu’approximativement à la requête [Salton et al., 1975].

Modèle probabiliste Dans ce modèle, un ensemble de documents pertinents par rapport à larequête est précalculé. La recherche se fait en fonction des probabilités d’appartenance àcet ensemble. Le processus de recherche se traduit par un calcul de proche en proche, dudegré ou probabilité de pertinence d’un document relativement à une requête. Le principeest le suivant : s’il existe des documents pertinents et non pertinents connus, alors il estpossible d’estimer la probabilité d’un terme t apparaissant dans un document pertinent Di

(le terme t est pertinent pour la requête) à apparaître dans un document Dj .

32

Page 52: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.2. Recherche d’information classique

3.2.6 Mesures d’évaluation

La performance des systèmes de RI peut être mesurée à l’aide de plusieurs paramètres d’éva-luation. Pour utiliser l’un de ces paramètres, il est nécessaire de préparer une référence (goldstandard) pour chaque requête afin de décider pour chaque document résultant s’il est considérécomme pertinent ou non par rapport à la requête. Les mesures les plus courantes utilisées dansl’évaluation des systèmes IR sont la précision, le rappel, la F-Mesure et la précision moyenne(Mean Average Precision, MAP). D’autres mesures sont aussi acceptées comme par exemple letemps de réponse d’un système, la présentation des résultats, la clarté et la facilité d’utilisationdes interfaces.

3.2.7 Interface utilisateur

Interface d’interrogation

L’interface utilisateur est l’un des aspects les plus importants dans un système de RI. Un com-promis doit être fait entre la facilité d’utilisation de l’interface et les performances du système : desinterfaces simples sont plus faciles à utiliser mais peuvent entraîner des requêtes ambiguës, alorsque des interfaces plus complexes fournissent plus de détails et aident à une formulation précisede la requête, mais elles sont encombrantes et fastidieuses pour l’utilisateur final. Les interfaces àbase de mots clés, en langage naturel, par formulaires ou à base de graphes sont quelques-unes desméthodes couramment utilisées dans la littérature [Baeza Yates and R., 1999]. Dans cette thèse,le choix a été fait pour les interfaces à base de formulaire en proposant à l’utilisateur des listesde choix basée sur les termes indexant les documents et les types des liens qu’ils entretiennent.

Interface de résultats

La présentation des résultats est une étape importante dans un système de RI. Plusieursméthodes de visualisation (ou de restitution) de résultats ont été proposées : textuelles ou gra-phiques. Les documents retournés peuvent être présentés par :

– une liste à plat : titre avec extraits et adresse. C’est la technique la plus classique et laplus utilisée (utilisée par Google). L’interface propose un affichage linéaire des résultats derecherche sous forme d’une liste triée selon un critère de pertinence ;

– des liens pour divers sous-ensembles des résultats. Le principe du premier point est reprismais en ajoutant une catégorisation des résultats dans des sous-ensembles significatifs, viaune technique de clustering statique ou à la volée. Les sous-ensembles sont construits par :– regroupement par descripteurs (entités nommées extraites des documents par calcul d’un

score) ;– regroupement par catégories de plan de classement statique (pré-existant), adapté par

exemple dans la cas de commerce en ligne ou de fils d’actualité ;– regroupement par catégories calculées dynamiquement : clustering. Le clustering vise à

répartir un ensemble de réponses (documents) en sous-ensembles, appelés clusters, defaçon à maximiser la cohérence interne à chaque cluster et la différence entre clusters.Cette technique est fondée sur une notion de similarité entre documents et clusters. Nousdistinguons plusieurs types de clustering : plat ou hiérarchique, dur (hard) ou flou (soft)selon que les documents appartiennent à un cluster exclusivement ou potentiellement àplusieurs clusters.

Certaines interfaces de présentation de résultats proposent des méthodes de navigation dansles résultats retournés. La navigation peut être :

33

Page 53: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

– contextuelle, de proche en proche, en suivant des liens entre les documents. En cours denavigation, les documents qui ne contiennent pas les descripteurs recherchés peuvent êtrefiltrés. La navigation peut aussi repartir sur une nouvelle recherche ;

– par similarité avec un document retourné. Ceci correspond à faire d’un document unenouvelle requête (fonctionnalité more like this) ;

– par exploration d’un graphe organisant les documents retournés en exploitant les rela-tions (liens hypertextes, similarité, appartenance à un même cluster) qui existent entre lesrésultats (des techniques de visualisation de graphe sont utilisées).

Une revue des méthodes de visualisation ainsi qu’une proposition d’une méthode d’évaluationde ces interfaces est donnée dans [Nicolas Bonnel, 2006].

Dans cette thèse, nous n’abordons pas la question de l’interaction utilisateur-système. Nousnous intéressons plutôt à la partie modèle de RI. Nous cherchons à construire une représentationdes documents qui permette de prendre en compte les différents types de liens qui peuvent existerentre eux (dimension intertextuelle). Nous cherchons aussi à définir des méthodes d’accès parnavigation ou par interrogation en définissant des modèles de requêtes adaptés au modèle dereprésentation des documents.

3.3 Recherche d’information sémantique

Dans la section précédente, nous avons présenté les principales notions d’un système de RIqui se base sur des mots-clés pour représenter l’information contenue dans les textes. Cette re-présentation ne prend pas en compte les liens sémantiques qui peuvent exister entre les mots nile contenu sémantique des documents. Afin d’améliorer la qualité des résultats de la RI classiquepour répondre au mieux au besoin en information de l’utilisateur, plusieurs travaux ont proposéd’introduire l’information sémantique dans le processus de RI. La RI sémantique a pour objectifde mieux répondre aux besoins en information en prenant en compte le sens des mots aussi biendu côté de la requête utilisateur que celui des documents des corpus. Elle vise à exploiter des res-sources sémantiques externes (thésaurus, ontologies, etc.) pour définir le sens de ces descripteursen annotant le contenu avec des concepts de la ressource sémantique.

Avec l’essor du web sémantique [Berners-Lee et al., 2001], les ressources sémantiques, no-tamment les ontologies, sont devenues de plus en plus disponibles. Elles sont utilisées dans lacouche sémantique pour le raisonnement et pour l’interrogation. Basés sur la logique, de nou-velles techniques et modèles de représentation des données et de RI ont ainsi vu le jour avec leweb sémantique.

Dans la suite, la section 3.3.1 donne la définition de l’annotation à base de concepts, lasection 3.3.2 décrit les systèmes de RI à base de connaissances (modèle numérique de RI) et lasection 3.3.3 décrit le modèle logique de RI dans lequel s’inscrit le travail de cette thèse.

3.3.1 Annotation sémantique

L’annotation sémantique vise à décrire des documents en ajoutant une couche de connais-sances liée à ces documents. L’objectif est de rendre l’information textuelle plus compréhensibleen utilisant les concepts du domaine dont parle le texte [Haav and Lubi, 2001]. L’annotationsémantique peut être créée manuellement ou de manière automatique. Dans ces deux cas, l’an-notateur ou l’outil d’annotation doivent spécifier pour chaque annotation le concept auquel ellese réfère dans une ressource sémantique identifiée (une ontologie ou un réseau sémantique deconcepts).

34

Page 54: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.3. Recherche d’information sémantique

Selon [Desmontiles and Jacquin, 2002], les annotations sémantiques sont des annotations opé-rationnelles, car elles sont destinées à être traitées par des machines. Les outils sont généralementdes éditeurs d’ontologies permettant de choisir une ontologie, les concepts représentant le docu-ment et les instances des concepts présents dans le document. Ces annotations (concepts etinstances) servent de support d’indexation pour être exploitées par un moteur de recherche.

Les approches d’annotation sémantique se caractérisent par le type de ressource (structure,semi-structuré, etc.), la technique utilisée (apprentissage automatique, patrons, etc.) et le moded’annotation (manuelle, automatique, etc.).

L’annotation sémantique présente plusieurs avantages par rapport à une recherche d’infor-mation classique :

– enrichir les représentations des requêtes et des documents avec des concepts de la ressourcesémantique ;

– enrichir la représentation des requêtes par reformulation et raffinement utilisant les conceptsde la ressource ;

– avoir un moyen de représenter les documents et les requêtes dans un modèle de référence.

3.3.2 Modèles de RI numériques et à base de connaissances

Les modèles de RI à base de connaissances sont les modèles qui exploitent explicitementles ressources externes afin de construire une représentation plus précise des documents et desrequêtes (knowledge-based indexing), ou de construire, pour un système, un jugement de per-tinence qui se rapproche le plus de celui d’un être humain (knowledge-based matching). Lesconnaissances sont organisées sous forme de concepts dans des ressources externes, par exempleUMLS 37, WordNet 38, DBpedia 39, etc.

Les documents une fois annotés avec des concepts d’ontologie peuvent être interrogés par motsclés (comme pour la RI classique) qui peuvent être enrichis (par raffinement ou expansion derequête) par les concepts de l’ontologie. Les documents sont ensuite recherchés sémantiquementmoyennant des fonctions de similarité sémantique qui évaluent la similitude entre les concepts desdocuments et ceux de la requête utilisateur. Ces fonctions de similarité enrichissent celles de la RIclassique et améliorent ses résultats avec l’ajout de la dimension sémantique. Différentes mesuresde similarité conceptuelle ainsi que des techniques de pondération ont été proposées pour estimerla ressemblance entre deux concepts de l’ontologie (pour la reformulation ou l’expansion derequête par exemple), ainsi que des fonctions de similarité sémantique entre requête et document.

Dans ce qui suit nous montrons l’intérêt de l’utilisation de concepts, décrivons les modèlesde RI basés sur les concepts avec les définitions de quelques mesures de similarité conceptuelleainsi que les modèles logiques de RI dans lesquelles s’inscrit le travail de cette thèse.

Les concepts et leurs utilisations en RI

Un concept est défini, d’un point de vue philosophique, comme l’unité de base de la penséehumaine. L’utilisation des concepts dans la RI à la place ou en plus des mots-clés est motivéepar plusieurs raisons et présente plusieurs avantages. D’abord, des ressources de connaissancesriches et de grandes tailles, qui sont considérées comme les principaux conteneurs de concepts,sont maintenant disponibles (par exemple UMLS, WordNet, etc.). Dans un contexte multilingue,l’utilisation de concepts facilite certaines tâches [Chevallet et al., 2007], comme le fait de se passer

37. Unified Medical Language System (http ://www.nlm.nih.gov/research/umls/).38. http ://wordnet.princeton.edu/.39. http ://dbpedia.org.

35

Page 55: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

de la traduction étant donné qu’un concept est censé être indépendant de la langue (« voiture »et « car » correspondent tous les deux à un même concept dans une ressource sémantique).Les concepts contribuent également à résoudre certains problèmes de RI bien connus comme parexemple la polysémie ou le "term-mismatch" [Crestani, 2000] : ce dernier se produit lorsque deuxtermes sont différents mais expriment la même chose ; il est résolu par l’utilisation de conceptsau lieu de termes puisqu’un concept est censé englober tous les termes ayant le même sensdans un contexte donné. Des applications avancées de RI sémantique [Ren and Bracewell, 2009]comme dans le web sémantique peuvent faire appel à des structures de connaissances et desraisonnements plus sophistiqués.

Modèles de RI à base de concepts et mesures conceptuelles

Les modèles de RI à base de concepts se divisent en deux grandes familles selon la façond’utiliser (intégrer) les ressources sémantiques externes (les concepts et leurs relations) dans leprocessus de RI :

– Utilisation partielle qui consiste à indexer les documents et les requêtes avec les ressourcesexternes et utiliser par la suite un modèle classique pour la recherche [Vallet et al., 2005] etpour l’expansion de requêtes et/ou des documents avec de nouveaux termes (pour résoudrepar exemple le problème de term-mismatch) [Voorhees, 1994].

– Utilisation globale : qui consiste à intégrer les ressources externes à la fois dans l’étape d’in-dexation et de recherche. Il s’agit de définir des structures de documents et de requêtes quis’adaptent au modèle à base de concepts ainsi qu’une fonction d’appariement compatibleavec ses structures [Baziz et al., 2005].

Ces systèmes utilisent des mesures de similarité conceptuelle (dites aussi mesures de proximitésémantique) pour mesurer un degré d’adéquation entre une requête et un document. Par exemplela mesure de Rada [Rada et al., 1989] utilise la distance entre deux concepts c1 et c2 (nombred’arcs minimum à parcourir pour aller de c1 à c2) pour calculer la similarité sémantique entreeux :

SimRada(c1, c2) =1

1 + distedge(c1, c2)

avec :distedge(c1, c2) est la longueur du plus court chemin entre deux concepts c1 et c2.

Les similarités conceptuelles peuvent être pondérées suivant l’importance des concepts et desinstances en calculant leurs poids dans la représentation d’un texte donné. Par exemple, dans lesystème proposé par [Vallet et al., 2005], aux instances (qui annotent les documents) sont associésdes poids qui reflètent l’importance de l’instance dans la construction du sens du document. Lepoids est calculé par une adaptation de l’algorithme TF − IDF . La mesure proposée calcule lepoids wi,j d’une instance Ii dans un document Dj comme suit :

wi,j =freqi,j

maxkfreqk,j× logN

ni

avec :

36

Page 56: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.3. Recherche d’information sémantique

freqi,j le nombre d’occurrences de Ii dans Dj (nombre de fois où un labelde l’instance apparaît dans le texte),

maxkfreqk,j la fréquence de l’instance la plus répétée dans Dj ,ni le nombre de documents annotés avec Ii,N le nombre total de documents dans l’espace de recherche.

3.3.3 Modèles logiques de RI

Les logiques formelles ont été utilisées efficacement dans la RI du fait qu’elles sont bienadaptées pour la représentation des connaissances [Baader et al., 2003] et pour la construction demodèles de RI capables d’intégrer formellement les ressources de connaissances dans le processusde recherche. Un modèle logique de RI est un formalisme qui met toutes les notions de RI(documents, requêtes et décision de recherche) dans un cadre logique. Plusieurs modèles logiquesde RI ont été proposés dans la littérature. Ils utilisent différents types de logique.

Dans [Losada and Barreiro, 2001], le modèle de RI repose sur la logique propostionnelle (PL).Chaque terme d’indexation est une proposition atomique qui peut être vraie ou fausse pour undocument ou une requête donnés. Un document d ou une requête q est une séquence logiqueformée en utilisant les termes d’indexation. La décision de recherche est une conséquence logiqueou implication : d est pertinent pour q si et seulement si d |= q.

La logique de description (DL) est une logique plus expressive que la logique propositionnellemais qui possède un mécanisme de raisonnement plus efficace que le logique du premier ordre(FL). Elle utilise trois éléments de base pour représenter les connaissances :

– individus : pour représenter des objets concrets du monde (Ex. Alice) ;– concepts : pour définir des classes d’objets (Ex. Personne) ;– roles : pour décrire les roles des objets ou des classes dans les relations.En plus de la RI, la DL est utilisée avec succès dans une discipline très proche, le web

sémantique 40. La DL constitue la base de langages d’ontologies sur le web [Baader, 2009], commeOWL (Web Ontology Language OWL) et RDFS (Resource Description Framework Schema). Lecontenu des documents et des requêtes est transformé en graphes RDF (Ressource DescriptionFramework) qui relient les ressources sémantiques aux contenus des documents. Un langageartificiel (par exemple SPARQL) est utilisé pour établir la correspondance entre les graphesRDF des requêtes et des documents. Ce langage est plus expressif qu’un ensemble de mots-cléset permet de poser des requêtes rendant compte des entités et de leurs relations.

Dans ce modèle de RI, l’appariement entre les documents et les requêtes est principalementbinaire (une correspondance existe ou non), ce qui est en adéquation avec les besoins dans ledomaine juridique (formulés dans le chapitre 2). En effet, les portails existant dans le domainejuridique proposent des fonctionnalités logiques de RI adaptées aux besoins d’exhaustivité desrésultats exprimés par les experts du domaine.

En relation étroite avec les logiques formelles, la théorie des treillis a été utilisée comme basepour des modèles de RI et ont prouvé leur intérêt dans plusieurs domaines d’application. Dansces modèles, l’implication logique devient une relation d’ordre partiel. Une des premières étudesexploitant la structure algébrique des treillis dans la RI est présentée dans [Mooers, 1958]. Cetravail a été repris par [Priss, 2000] avec l’AFC (Analyse Formelle de Concepts). Le processus derecherche dans ces modèles se base principalement sur la recherche booléenne classique.

Une variante logique de l’AFC, l’Analyse Logique de Concepts (LCA), a été proposée par [Ferré, 2007].Ce formalisme logique a été utilisé dans un système spécifique pour la RI dans des bases d’imagesou pour la navigation dans des graphes d’objets [Ferré, 2010].

40. Détails dans le chapitre 4.

37

Page 57: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

3.4 RI et Analyse de liens

Dans les modèles de RI que nous avons présentés dans les sections précédentes, les documentssont traités indépendamment les uns des autres au moment de la recherche bien qu’ils formentsouvent un réseau fortement interconnecté, notamment dans le domaine juridique. L’étude desrelations entre objets a fait l’objet de plusieurs travaux qui visent principalement à analyserdes structures de graphes d’objets indépendamment de leur contenu. Dans le domaine de la RI,l’analyse de liens a été principalement utilisée pour le tri des résultats comme dans le cas dePage Rank [Page et al., 1999].

Les différentes méthodes prenant en compte des liens entre documents dans les systèmes de RIsont exposées dans ce sui suit. Le Page Rank et les Graphes de citations sont étudiés comme lesprincipales approches qui ont traité l’intertextualité dans une collection de documents. L’analysesocio-sémantique est par la suite présentée comme une nouvelle technique qui vise à combinerles liens avec le contenu pour l’étude des structures des graphes, mais pas à des fins de RI(interrogation avec une requête utilisateur sur les liens entre les documents) sauf pour le cas del’algorithme Graph Search qui se limite à une RI dans les pages Facebook (présenté plus tarddans ce chapitre).

3.4.1 Intertextualité dans les systèmes de RI existants

Supposons que nous ayons une requête interrogeant sur les liens intertextuels entre documentsde la forme « quels sont les documents (d’) ayant un type de lien (l) avec un document (d) quiparle d’un sujet donné (s) ? » et regardons comment les systèmes de RI existants permettent detraiter une telle requête.

– Les systèmes de RI généralistes comme Google proposent une exploitation triviale de l’in-tertextualité. La requête est traitée en deux étapes : une requête classique sur le contenu (s)renvoie le document (d) et l’utilisateur peut alors naviguer dans les hyperliens en fonctiondu type de lien (l) pour trouver l’ensemble des réponses (d’). Cette catégorie de systèmesne permettent pas le traitement de requêtes intertextuelles.

– Dans la seconde catégorie, nous classons tous les systèmes qui traitent des requêtes rela-tionnelles via des attributs dans la requête, tels que des bases de données natives XML(interrogés avec XPath, XQuery) et les graphes RDF (interrogés avec SPARQL). La re-quête est traitée dans une première étape comme une requête booléenne sur le contenu(s) pour trouver l’ensemble des documents d, puis une étape de filtrage est effectuée enfonction des éléments XML spécifiés dans la requête (pour les bases de données nativesXML), ou l’ensemble des contraintes (dans le cas de requêtes SPARQL).

– Une troisième catégorie pourrait être constituée par les systèmes relationnels tels que lesbases de données relationnelles et l’Analyse Relationnelle de Concepts (ARC) 41 appliquésà des objets documentaires. Les deux types de systèmes permettent de coder les relationsentre les documents au niveau du modèle mais aussi au niveau de la formulation de requêtes.Étant donné que l’AFC a été appliquée pour des objets documentaires, nous considéronsintéressant d’investiguer l’application de l’ARC pour modéliser des collections documen-taires. L’originalité de cette approche est que la collection de documents est structuréeavant d’être interrogée. Un ensemble de structures conceptuelles (appelé une Famille deTreillis Relationnels) est construit sur la base du contenu sémantique des documents et desliens qu’ils entretiennent entre eux. La requête est exécutée sur ces structures relationnelles

41. Analyse Relationnelle de Concepts (ARC) : extension relationnelle de l’AFC.

38

Page 58: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.4. RI et Analyse de liens

pour trouver des réponses pertinentes. L’avantage de cette approche est de permettre la na-vigation dans les graphes créés pour spécialiser ou généraliser la requête si aucune réponseexacte n’est trouvée 42.

3.4.2 Analyse de graphes de citation

L’analyse des liens pour la recherche sur le web trouve ses antécédents dans le domaine del’analyse des citations, qui est lié au domaine de la bibliométrie. Ces disciplines visent à quantifierl’influence des articles scientifiques en analysant le modèle de citations parmi eux. Elles ont inspirél’analyse de la notoriété des pages sur le web.

Les graphes de citation possèdent plusieurs caractéristiques et leur étude (dynamique, topo-logie, patrons d’interaction, etc.) est également d’intérêt pour d’autres domaines tels que la phy-sique statistique, la biologie, les mathématiques appliquées. En informatique, plusieurs types deréseaux tirent profit des études faites dans ce domaine [Yan et al., 2011, Pivovarov and Trunov, 2011,Andrews and Fox, 2007, Newman, 2004], comme les réseaux sociaux, les réseaux de neurones oules graphes de terrains (graphes de grande taille) par exemple pour la création d’une nouvellethématique de recherche, la prédiction de nouveaux liens dans un graphe, création de nouvellescommunautés dans un réseau social, etc.

L’analyse des graphes de citations considère les noeuds comme des objets sans se soucier ducontenu sémantique des documents (les articles scientifiques). De plus, l’analyse est principale-ment faite pour étudier la topologie des graphes et pas interroger la collection.

3.4.3 Analyse des liens hypertextes (algorithmes Page Rank et HITS)

Le web composé de pages HTML statiques avec des hyperliens entre eux est vu commeun graphe orienté dans lequel chaque page web est un noeud et chaque lien hypertexte unearête. L’analyse des liens hypertextes et la structure du graphe du web a joué un rôle dans ledéveloppement de la RI sur le web. Les liens hypertextes sont principalement utilisées commeindicateur de notoriété et pour le classement des résultats de recherche. La notoriété de liens estun facteur important pris en compte par les moteurs de recherche pour le calcul de scores depages web pour une requête donnée [Manning et al., 2008] .

Une première technique pour l’analyse des liens attribue à chaque noeud du graphe un scorenumérique entre 0 et 1, appelé son PageRank [Page et al., 1999]. Le PageRank d’un noeud dépendde la structure des liens dans le graphe. Étant donné une requête, un moteur de recherche calculeun score pour chaque page web qui combine des fonctionnalités telles que la similarité cosinus etla proximité de termes en plus du score PageRank. Ce score composite est utilisé pour fournirun classement de la liste des résultats de la requête.

La deuxième technique attribue à chaque page web, pour une requête donnée, deux scores :score de pivot et score d’autorité. Pour toute requête, l’algorithme HITS [Kleinberg, 1999] calculedeux listes de classement des résultats plutôt qu’une. Le classement d’une liste est induit par lescore de pivot et l’autre liste selon le score d’autorité. Il commence par trouver l’ensemble despages pertinentes par rapport aux termes de la requête puis analyse la structure des liens dusous graphe du web pour calculer les score d’autorité et de pivot. La différence entre HITS etPageRank est que le score de notoriété calculé par HITS dépend de la requête.

Dans ces techniques, la prise en compte des liens influe sur l’ordre de présentation des résul-tats. Les liens ne peuvent pas être rentrés au moment de l’interrogation dans la requête et ne

42. La modélisation de collections documentaires et l’interrogation des structures des treillis relationnels sontdécrits dans le chapitre 6.

39

Page 59: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

sont pas pris en compte dans le processus de recherche. Ils peuvent être pris en compte une fois laliste des résultats affichée, en navigant dans les liens hypertextes entre les documents retournées.Cette navigation étant la façon la plus triviale pour la prise en compte des liens intertextuels,elle est disponible dans plusieurs moteurs de recherche généralistes sur le web (comme Google)ou portails spécialisés (comme Legifrance pour le domaine juridique).

3.4.4 Analyse socio-sémantique

L’analyse socio-sémantique [Cointet and Roth, 2009] est une nouvelle approche qui combinel’analyse des liens avec l’analyse du contenu sémantique. Des travaux ont essayé de combiner lespropriétés des graphes avec les propriétés des documents [Dang and Viennet, 2012] mais toujoursdans le but d’étudier la topologie des graphes (dans les réseaux sociaux, etc).

Récemment, Facebook a lancé une nouvelle fonctionnalité de recherche (qui est intégrée dansses pages anglophones, à ce jour). Cette fonctionnalité permet de poser des requêtes qui portentdirectement sur les liens qui peuvent exister entre les pages. Elle se base sur un algorithme nomméGraph Search et vise à rendre une liste de résultats (nom de villes, photos, etc.) aux utilisateursau lieu d’une liste de liens hypertextes qui peuvent contenir les résultats 43. Graph Search prenden entrée une requête utilisateur en langage naturel, et au-delà des mots-clés, la requête peututiliser les liens du graphe Facebook (liens d’amitié, lien "J’aime", etc.). L’algorithme effectuela recherche dans les pages qui contiennent les mots clés de la requête, les types des pages(films, personnes, villes, etc.) ainsi que les liens indiqués dans la requête (visiter, aimer, etc.). Lesrésultats retournés se présentent sous forme d’un ensemble de pages ou d’un ensemble de photosselon ce sur quoi porte la requête. Graph Search peut traiter des requêtes du type 44 :

– restaurants londoniens où mes amis sont allés ;– musique que mes amis aiment ;– villes que ma famille a visitées ;– photos de mes amis à New York.

Le travail de cette thèse s’intègre dans cette perspective. Nous proposons de combiner lecontenu documentaire avec les liens intertextuels dans un modèle de recherche qui retournedes graphes à des requêtes complexes qui portent aussi bien sur le contenu que sur les liensintertextuels. Nous proposons aussi un couplage avec la RI sémantique pour enrichir le contenudes documents. Notre objectif est donc de pouvoir modéliser et interroger des données complexescaractérisées par la richesse de leur contenu sémantique et par la structure du graphe qu’ilforment.

3.5 Conclusion

Cette étude de l’état d’art montre que :– les approches et techniques actuelles de recherche d’information sémantique ne prennent

pas en compte l’intertextualité entre les documents pourtant très importante pour retournerdes résultats pertinents et complets ;

– les systèmes de RI basés sur des approches qui tiennent compte de la dimension intertex-tuelle n’intègrent pas les liens dès le début du processus dans l’annotation et l’indexationdes documents.

43. Facebook Announces Its Third Pillar "Graph Search" That Gives You Answers, Not Links Like Google.http ://techcrunch.com/2013/01/15/facebook-announces-its-third-pillar-graph-search/ .

44. https ://www.facebook.com/about/graphsearch .

40

Page 60: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

3.5. Conclusion

Notre travail s’intègre dans la cadre de la RI sémantique sur des données complexes repré-sentées sous forme de graphes attribués. Nous cherchons à combler le manque identifié dansles systèmes de RI existants en intégrant les relations intertextuelles dès le début du processusde RI, dans la modélisation d’une collection documentaire. Nous définissons ensuite sur ce mo-dèle des outils d’exploitation et d’accès (interrogation, navigation) pour répondre à des requêtesutilisateurs de plus en plus complexes dans un monde de données inter-reliées.

Nous nous orientons vers une approche qui s’apparente aux approches socio-sémantiquesparce qu’elle intègre les deux dimensions sémantique et intertextuelle. Nous nous focalisons surles approches logiques que nous décrivons dans le chapitre suivant.

41

Page 61: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 3. Recherche d’information et graphe de documents

42

Page 62: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4

Méthodes pour la modélisation etl’interrogation de données complexes

Sommaire4.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 434.2 AFC et ARC : fondements théoriques . . . . . . . . . . . . . . . . . . 45

4.2.1 Notions de base de la théorie des treillis . . . . . . . . . . . . . . . . . . 454.2.2 L’Analyse Formelle de Concepts . . . . . . . . . . . . . . . . . . . . . . 464.2.3 L’Analyse Relationnelle de Concepts . . . . . . . . . . . . . . . . . . . . 52

4.3 Applications de l’AFC et ARC . . . . . . . . . . . . . . . . . . . . . . 604.4 Web sémantique et web de données . . . . . . . . . . . . . . . . . . . 62

4.4.1 Les technologies du web sémantique . . . . . . . . . . . . . . . . . . . . 634.4.2 Le web de données et les données liées sur le web . . . . . . . . . . . . . 694.4.3 Les ontologies . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

4.5 Application à l’analyse documentaire dans le web sémantique . . . 734.5.1 Vocabulaires conceptuels et annotation sémantique . . . . . . . . . . . . 734.5.2 Ontologies documentaires . . . . . . . . . . . . . . . . . . . . . . . . . . 74

4.6 Synthèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

4.1 Introduction

Pour résoudre la problématique de notre thèse, nous partons sur des approches logiquesqui ont travaillé sur des objets documentaires et qui permettraient de rendre compte des deuxdimensions intertextuelle et sémantique d’une collection documentaire. La première repose surl’Analyse Formelle et Relationnelle de Concepts (AFC, ARC), la deuxième sur les techniques duweb sémantique pour le traitement de données liées (RDF, OWL et SPARQL).

L’Analyse Formelle de Concepts (AFC), appelée aussi Analyse de Concepts Formels, estun formalisme mathématique basé sur la théorie des ensembles ordonnés (ou la théorie destreillis), qui offre un cadre d’application de ces théories à des problématiques du monde réeltelles que l’analyse de données, la découverte et la structuration de connaissances. L’AFC, entant que méthode d’analyse de données, permet de générer et de représenter graphiquement desregroupements à partir d’un ensemble d’objets décrits par leurs attributs, en s’appuyant sur lanotion de partage d’attributs entre objets. Les données sont structurées dans des unités appelées

43

Page 63: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

des concepts formels qui sont partiellement ordonnés et forment une hiérarchie de concepts,appelée le treillis de concepts. L’Analyse Relationnelle de Concepts (ARC) est une extensionde l’AFC qui a été définie pour prendre en compte les relations qui peuvent exister entre lesobjets 45. Elle permet la construction de concepts relationnels sur plusieurs ensembles d’objetsdécrits par des attributs et des relations. L’ARC est une version itérative de l’AFC selon laquelleles objets sont structurés non seulement par rapport à leurs attributs communs mais aussi parrapport aux relations qui existent entre eux. Ces relations sont représentées par des tableaux quilient les données en entrée de l’AFC.

La manipulation de liens entre les objets et plus généralement de données liées a fait l’objetd’une attention particulière ces dernières années parmi les chercheurs du web sémantique. Lemouvement d’ouverture de données par plusieurs gouvernements, institutions et entreprises a ac-céléré le développement de nouvelles techniques pour la manipulation et l’analyse de ces données,et a donné naissance au web de données. Des efforts sont faits pour rendre ces données compa-tibles avec les standards et normes définis dans le web sémantique (XML, RDF, OWL, SPARQL,etc.) et définir des modèles sémantiques (ontologies) pour différents domaines. RDF est un mo-dèle de données qui se présente comme un graphe orienté étiqueté, qui se base sur la notion detriplets (sujet, prédicat, objet) et représente la composante principale du web sémantique. OWLest un langage formel d’ontologie utilisé pour modéliser les vocabulaires pour le web sémantiqueet SPARQL est le langage de requêtes et de mise à jour pour le web de données, utilisé pourinterroger des bases de connaissances RDF. Ces efforts ont pour but d’assurer l’interopérabilitédes données et de faciliter leur accès et leur gestion par les utilisateurs en ajoutant une couchesémantique aux données et en les liant entre elles.

La première partie de ce chapitre décrit les fondements théoriques de l’approche conceptuelleet passe en revue les applications de ce formalisme pour la recherche d’information. La deuxièmepartie donne un aperçu des notions de base et des principales fonctionnalités du web sémantiqueet du web de données. Nous mettons particulièrement l’accent sur la notion d’ontologie et sonutilisation pour la modélisation de collections documentaires. Les données sur lesquelles nousillustrons les notions décrites dans ce chapitre représentent un ensemble d’utilisateurs d’un réseausocial et les films les mieux notés parmi ces utilisateurs, auxquels ils ont affecté la mention« J’aime ». Les personnes sont décrites par des propriétés telles que l’âge et le lieu d’habitation ;les films sont décrits par leurs catégories.

La suite du chapitre est organisée comme suit. Dans les sections 4.2.1, 4.2.2, 4.2.3 et 4.3 nousdressons un état de l’art qui couvre à la fois les définitions mathématiques relatives à la théoriedes treillis, les notions de base de l’AFC et de l’ARC ainsi que les applications de ces formalismespour la recherche d’information. La description des notions de base des standards et langagesdu web sémantique et de leurs applications pour la modélisation documentaire fera l’objet dessections 4.4 et 4.5. Les définitions et notions de base de l’AFC/ARC et des langages du websémantique (RDF/OWL) sont illustrées sur des exemples.

45. Une extension relationnelle de l’AFC pour la prise en compte des relations entre attributs dans un contexteformel est définie dans [Carpineto and Romano, 2004, Priss, 2000]. Cette extension permet d’intégrer des relationssémantiques explicites, extraites à partir des taxonomies, thesaurus ou ontologies, dans les structures conceptuellesde l’AFC. Nous ne nous intéressons pas à cet aspect dans ce travail.

44

Page 64: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

4.2 AFC et ARC : fondements théoriques

4.2.1 Notions de base de la théorie des treillis

Dans cette section nous rappelons les notions relatives à la théorie des treillis [Birkhoff, 1967,Davey and Priestley, 2002] qui servent à la formalisation de notre approche.

Ensemble ordonné

Définition 1 (Relation d’ordre (partiel)) Soient E un ensemble et R est une relation bi-naire sur E. R est dite relation d’ordre partiel (ou simplement relation d’ordre) sur E si ellevérifie les conditions suivantes pour tout a, b, c ∈ E :

1. (a, a) ∈ R (R est réflexive)2. si (a, b) ∈ R et a = b alors (b, a) /∈ R (R est antisymétrique)3. si (a, b) ∈ R et (b, c) ∈ R alors (a, c) ∈ R (R est transitive)

On note souvent une relation d’ordre R par "≤" (R−1 est notée par "≥") et on dit que "aest plus petit que b" lorsque a ≤ b.

Définition 2 (Ensemble ordonné) Un couple (E,≤) – où E est un ensemble et “≤” est unerelation d’ordre sur E – est un ensemble partiellement ordonné (ou simplement ensembleordonné) .

Dans un ensemble ordonné (E,≤), deux éléments a et b de E sont dits comparables lorsquea ≤ b ou b ≤ a. Autrement ils sont dits incomparables. Pour deux éléments comparables etdifférents, a ≤ b et a = b, on note a < b.

Définition 3 (Successeur, prédécesseur, couverture) Soient (E,≤) un ensemble ordonnéet a, b ∈ E. On dit que b est successeur de a lorsque a < b et s’il n’existe aucun élément c ∈ Etel que a < c < b (a = c et b = c). Dans ce cas, a est dit prédécesseur de b et on note a ≺ b.Lorsque a est un prédécesseur de b on dit que a couvre b (et que b est couvert par a). Lacouverture de a est formée par l’ensemble de ses successeurs.

Tout ensemble ordonné, (E,≤), peut être représenté graphiquement par un diagramme appelé"diagramme de Hasse" (ou diagramme de couverture) obtenu comme suit :

1. tout élément de E est représenté par un petit cercle dans le plan ;2. si a, b ∈ E et a ≺ b alors le cercle correspondant à b doit être au-dessus de celui correspon-

dant à a et les deux cercles sont reliés par un segment.La relation d’ordre se lit à partir de ce diagramme comme suit : a < b si et seulement s’il

existe un chemin ascendant qui relie le cercle correspondant à a à celui de b.

Treillis

Définition 4 (Majorant, minorant, supremum, infimum) Soient (E,≤) un ensemble or-donné et S un sous-ensemble de E. Un élément x ∈ E est dit majorant de S lorsque x ≥ s ∀s ∈S. De façon duale, x ∈ E est dit minorant de S lorsque x ≤ s ∀s ∈ S.

Le plus petit majorant (respectivement plus grand minorant) de S, s’il existe, est appelé su-premum ou borne supérieure (respectivement infimum ou borne inférieure) de S. Il est noté∨S (respectivement

∧S). Dans le cas où S = {s, t},

∨S et

∧S sont aussi notés par s ∨ t et

s ∧ t respectivement.

45

Page 65: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Lorsque le supremum et l’infimum existent dans un ensemble ordonné, ils sont uniques.

Définition 5 (Treillis, treillis complet) Un treillis est un ensemble partiellement ordonné(E,≤) tel que a∨b et a∧b existent pout tout couple d’éléments a, b ∈ E. Un treillis est dit completsi∨S et

∧S existent pour tout sous-ensemble S de E. En particulier, un treillis complet admet

un élément maximal (top) noté par ⊤ et un élément minimal (bottom) noté par ⊥.

Fermeture et connexion de Galois

Définition 6 (Fermeture) On appelle opérateur de fermeture sur un ensemble ordonné,(E,≤), toute application φ : E → E qui vérifie les propriétés suivantes pour tout a, b ∈ E :

– a ≤ φ(a) (φ est extensive),– si a ≤ b alors φ(a) ≤ φ(b) (φ est monotone croissante),– φ(a) = φ(φ(a)) (φ est idempotente).

Définition 7 (Fermé) Étant donné un opérateur de fermeture φ sur un ensemble ordonné(E,≤), un élément a ∈ E est dit fermé pour φ si et seulement si a = φ(a).

Définition 8 (Connexion de Galois) Soient φ : E → F et ψ : F → E deux applicationsentre deux ensembles ordonnés (E,≤E) et (F,≤F ). φ et ψ forment une connexion de Galoisentre (E,≤E) et (F,≤F ) si la condition suivante est satisfaite :

∀a ∈ E, ∀b ∈ F,φ(a) ≤F b⇔ ψ(b) ≤E a

4.2.2 L’Analyse Formelle de Concepts

L’Analyse Formelle de Concepts [Wille, 1982, Ganter and Wille, 1999a], présentée comme undomaine de la mathématique appliquée, repose sur la théorie des treillis et étudie les structurespartiellement ordonnées, connues sous le nom de treillis de Galois [Barbut and Monjardet, 1970]ou treillis de concepts.

C’est une méthode de classification conceptuelle qui construit à partir d’un jeu de données unehiérarchie d’abstractions. Ces abstractions sont représentées par des concepts et chaque conceptreprésente un ensemble maximal d’objets (un regroupement d’individus) ayant en commun unensemble maximal d’attributs (les propriétés communes de ces individus). L’AFC représente lesdonnées sous la forme d’un tableau binaire, appelé contexte formel, contenant un ensemble d’indi-vidus (objets), un ensemble de propriétés (attributs formels) et exprimant la relation d’incidence(objets× attributs) entre ces individus et ces propriétés. Les contextes formels, qui représententle point de départ de l’AFC, sont définis dans la section suivante.

Contexte formel

Définition 9 (Contexte formel) Un contexte formel est un triplet K = (O,A, I) où O estun ensemble d’objets, A est un ensemble d’attributs et I est une relation binaire entre O et Aappelée relation d’incidence de K et vérifiant I ⊆ O × A. Un couple (o, a) ∈ I (noté aussi oIa)signifie que l’objet o ∈ O possède l’attribut a ∈ A.

Un contexte formel peut être représenté sous la forme d’un tableau binaire à deux dimensionsoù les lignes correspondent aux objets et les colonnes correspondent aux attributs. Les cases dutableau sont remplies comme suit : si l’objet oi est en relation I avec l’attribut aj , alors la casesituée à l’intersection de la ligne i et de la colonne j contient « × » ; sinon, la case est vide.

46

Page 66: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Nous utilisons l’exemple annoncé dans l’introduction (utilisateurs d’un réseau social) pourillustrer les concepts décrits dans cette section. Les tables 4.1 et 4.2 donnent deux contextesformels KP et KF représentant respectivement les utilisateurs du réseau social (ou personnes)et les films. Dans le contexte KP , l’utilisateur Peter possède les attributs : adolescent (<18), vitactuellement au Royaume-Uni (UK).

Table 4.1 – Contexte formel KP décrivant des utilisateurs d’un réseau social.

Âge PaysXXXXXXXXXXXObjet

Attribut< 18 18− 30 > 30 UE UK US AU

Kate × ×Peter × ×Tom × ×Eva × ×Mark × ×Adam × ×Mary × ×John × ×

Connexion de Galois dans un contexte formel

Définition 10 Soit K = (O,A, I) un contexte formel. Pour tout X ⊆ O et Y ⊆ A, on définit :

X ′ = {a ∈ A|∀o ∈ E, oIa}

Y ′ = {o ∈ O|∀a ∈ I, oIa}

Intuitivement, X ′ est l’ensemble des attributs communs à tous les objets de X et Y ′ estl’ensemble des objets possédant tous les attributs de Y . Les applications ′ : P(O) → P(A) et′ : P(A)→ P(O) sont appelées opérateurs de dérivation entre l’ensemble des objets et l’ensembledes attributs dans un contexte formel. P(O) est l’ensemble des parties de O, noté aussi 2O etP(A) est l’ensemble des parties de A, noté aussi 2A.

La composition de ces opérateurs ′′ : P(O) → P(O) et ′′ : P(A) → P(A) produit deuxopérateurs de fermeture sur les deux ensembles 2O et 2A. Chacun induit une famille d’ensemblesfermés. Le premier opérateur permet d’associer à un ensemble d’objets X l’ensemble maximald’objets dans O ayant les attributs communs aux objets de X. Cet ensemble est noté par X ′′.De façon duale, le second opérateur permet d’associer à un ensemble d’attributs Y l’ensemblemaximal d’attributs dans A communs aux objets ayant les attributs dans Y . Cet ensemble estnoté par Y ′′. Les opérateurs ′′ : P(O)→ P(O) et ′′ : P(A)→ P(A) définissent deux fermeturesrespectivement sur l’ensemble des parties de O, P(O), et sur l’ensemble des parties de A, P(A).Les ensembles X ′′ et Y ′′ sont fermés pour ces deux opérateurs respectifs.

L’ensemble des fermés de P(O) muni de l’inclusion est un treillis complet. De la même façon,l’ensemble des fermés de P(A) muni de l’inclusion est un treillis complet. Les opérateurs dedérivation ′ : P(O) → P(A) et ′ : P(A) → P(O) forment une bijection entre les ensemblesde fermés de P(O) et P(A) et définissent un isomorphisme entre les deux treillis respectifs : àchaque fermé X dans P(O) correspond un unique fermé Y dans P(A) et vice versa.

47

Page 67: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Table 4.2 – Contexte formel KF décrivant les films associés à leurs catégories.

Catégorie

Ani

mat

ion

Pol

itiq

ue-H

isto

riqu

e

Scie

nce

ficti

on

Dra

me

Mys

tère

-Hor

reur

Star wars ×Gravity × ×Harry Potter ×Matrix ×12 years a slave × ×Toy story ×Les misérables × ×Lincoln × ×Titanic ×The princess and the frog ×

Propriété 1 Les opérateurs de dérivation ′′ : P(O) → P(O) et ′′ : P(A) → P(A) forment uneconnexion de Galois entre (P(O),⊆) et (P(A),⊆).

Concept formel

Les couples (X,Y ) d’ensembles fermés, où X représente un sous-ensemble d’objets et Y unsous-ensemble d’attributs, reliés par la connexion de Galois détaillée dans la section précédente,forment les concepts formels définis comme suit.

Définition 11 (Concept formel) Soit K = (O,A, I) un contexte formel. Un concept formelest un couple (X,Y ) tel que X ⊆ O, Y ⊆ A, X ′ = Y et Y ′ = X. X et Y sont respectivement appe-lées extension (extent) et intension (intent) du concept formel (X,Y ). L’ensemble des conceptsformels associés au contexte formel K = (O,A, I) est noté par C(O,A, I) ou simplement CK.

Schématiquement, lorsqu’un contexte formel est décrit par une table binaire, chaque conceptformel (X,Y ) correspond à une sous-table rectangulaire avec un ensemble de lignes X et un en-semble de colonnes Y non nécessairement contiguës. Le concept formel correspond à un rectanglemaximal de la table formée par la relation binaire du contexte : tout objet de l’extension a tousles attributs de l’intension. Ces ensembles maximaux d’objets et d’attributs correspondent à desfermés dans P(O) et P(A) respectivement. Un sous-ensemble Y de A est l’intension d’un conceptformel dans C(O,A, I) si et seulement si Y ′′ = Y (Y est fermé pour ′′) et, de façon duale, unsous ensemble X de O est l’extension d’un concept formel dans CK si et seulement si X ′′ = X(X est fermé pour ′′).

La famille CK des concepts formels de K = (O,A, I) est ordonnée par une relation d’ordrehiérarchique entre concepts (appelée aussi relation de subsomption) notée par “≤” et définie

48

Page 68: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

comme suit.

Définition 12 (Relation de “subsomption”) Soient (X1, Y 1) et (X2, Y 2) deux concepts for-mels de CK. (X1, Y 1) ≤ (X2, Y 2) si et seulement si X1 ⊆ X2 (ou de façon duale X2 ⊆ X1).(X2, Y 2) est dit super-concept de (X1, Y 1) et (X1, Y 1) est dit sous-concept de (X2, Y 2). Larelation “≤” est dite relation de subsomption.

Un super-concept direct (respectivement un sous-concept direct) d’un concept est aussi appelé"successeur" direct (respectivement "prédécesseur" direct).

La relation “≤” s’appuie sur deux inclusions duales, entre ensembles d’objets et entre en-sembles d’attributs et peut ainsi être interprétée comme une relation de généralisation/spéciali-sation entre les concepts formels. Un concept est plus général qu’un autre concept s’il contientplus d’objets dans son extension avec des attributs partagés par ces objets qui sont réduits. Defaçon duale, un concept est plus spécifique qu’un autre s’il contient moins d’objets dans sonextension. Ces objets ont plus d’attributs en commun.

Treillis de concepts

Définition 13 (Treillis de concepts) La relation “≤” permet d’organiser les concepts for-mels en un treillis complet (CK,≤) appelé treillis de concepts ou encore treillis de Galois[Birkhoff, 1967] et noté par L(CK) ou LK. L’infimum et le supremum dans LK sont donnés par :

∧j∈J

(Xj , Yj) =

∩j∈J

Xj ,

∪j∈J

Yj

′′∨j∈J

(Xj , Yj) =

∪j∈J

Xj

′′

,∩j∈J

Yj

Le treillis de concepts est une représentation équivalente des données contenues dans un

contexte formel qui met en avant les groupements possibles entre objets et attributs (ensembled’objets partageant les mêmes attributs) ainsi que les relations d’inclusion entre ces groupements(entre les objets d’une part et les attributs d’autre part). La représentation graphique du treillisde concepts, sous la forme d’un diagramme de Hasse, facilite la compréhension et l’interprétationde la relation entre les objets et les attributs d’une part (au sein d’un même groupement) et entreobjets ou attributs d’autre part (selon la relation d’hiérarchie entre groupements). L’avantage decette représentation est qu’à partir d’un treillis de concepts il est toujours possible de retrouverle contexte formel correspondant et inversement.

Le treillis de concepts LP correspondant au contexte formel des utilisateurs du réseau socialKP de la table 4.1 est donné par la diagramme de Hasse de la figure 4.1 (visualisé grâce au logicielGalicia 46). Dans ce treillis, le concept 8 représente dans son extension (E={Eva, Kate}) legroupement de personnes qui possèdent en commun les propriétés de l’intension (I={18<age<30,UE}). Le treillis de concepts LF correspondant au contexte formel des films KF de la table 4.2 estdonné par la figure 4.2 (les titres des films et les noms des catégories sont affichés en raccourcisdans le treillis pour plus de lisibilité).

46. http ://sourceforge.net/projects/galicia/

49

Page 69: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Figure 4.1 – Le treillis de concepts LP correspondant au contexte formel KP donné dans latable 4.1.

50

Page 70: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Figure 4.2 – Le treillis de concepts LF correspondant au contexte formel KF donné dans latable 4.2.

Construction du treillis de concepts

La construction du treillis de concepts d’une relation binaire donnée est composée de troistâches [Guenoche and Mechelen, 1993] : la recherche des concepts (énumération des rectanglesmaximaux (les fermés)), la recherche de la relation d’ordre partiel entre ces rectangles (calcul dela relation de couverture), la représentation graphique du treillis (construction du diagramme deHasse correspondant au treillis). Les deux premières tâches constituent le problème du calcul desconcepts d’un treillis à partir d’un contexte formel, alors que la troisième relève de la visualisationde graphes. Ces deux problématiques sont souvent traitées indépendamment. Plusieurs travaux derecherche se sont penchés sur le problème de calcul des concepts d’un treillis de concepts à partird’un contexte formel et ont proposé une grande variété d’algorithmes de plus en plus performants(complexité, temps de calcul, occupation mémoire, passage à l’échelle). Les principaux algo-rithmes ont fait l’objet d’une étude comparative détaillée dans [Kuznetsov and Obiedkov, 2002]qui a montré que les performances d’un algorithme dépendent fortement des caractéristiques ducontexte formel d’entrée. Une étude plus récente comparant et analysant la complexité des al-gorithmes de l’AFC est donnée dans [Strok and Neznanov, 2010]. Ces algorithmes peuvent êtrerépartis en trois grandes familles selon leurs stratégies d’acquisition de données à partir d’uncontexte formel :

Les algorithmes batch prennent en entrée le contexte formel tout entier et calculent les conceptsformels et l’ordre entre ces concepts simultanément ou de manière séquentielle. L’un despremiers algorithmes proposés est celui de Chein [Chein, 1969], sa complexité est enO(|O|3|A||L|), |O| étant le nombre d’objets dans le contexte, |A| le nombre d’attributs et|L| le nombre de concepts formels dans le treillis obtenu. D’autres algorithmes connus dans

51

Page 71: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

cette catégorie sont NextClosure [Ganter, 1984] (O(|O|2|A||L|)) et Bordat [Bordat, 1986](O(|O||A|2|L|)).

Les algorithmes incrémentaux considèrent le contexte formel ligne par ligne (ou colonnepar colonne) et construisent le treillis de concepts par ajouts successifs de ligne ou decolonne tout en conservant sa structure. Parmi les algorithmes dans cette catégorie, on peutciter celui de Norris [Norris, 1978] (O(|O|2|A||L|)) et celui de Godin [Godin et al., 1995a,Godin et al., 1995c].

Les algorithmes d’assemblage permettent de diviser un contexte formel en deux parties ver-ticalement ou horizontalement puis de calculer le treillis de concepts correspondant àchaque partie et enfin d’assembler les treillis obtenus en un seul. Parmi ces algorithmeson peut citer Divide&Conquer [Valtchev et al., 2002], In-Close [Andrews, 2009], In-Close2 [Andrews, 2011] et les algorithmes parallèles pour FCA [Kengue et al., 2005, Krajca et al., 2008].

Dans le cas des applications réelles, on estime que la complexité théorique maximale n’estpas atteinte [Carpineto and Romano, 2000]. Des optimisations ont été proposées dans la lit-térature pour réduire la complexité de la construction des treillis de concepts pour le traite-ment des applications complexes. Par exemple les treillis Iceberg ou treillis de concepts fré-quents [Waiyamai and Lakhal, 2000, Stumme et al., 2002] minimisent la taille du treillis en li-mitant la profondeur d’exploration de l’ensemble des concepts ou les treillis de Galois Al-pha [Ventos and Soldano, 2005] qui filtrent les objets au niveau du contexte.

4.2.3 L’Analyse Relationnelle de Concepts

L’Analyse Relationnelle de Concepts (ARC) [Rouane et al., 2007, Huchard et al., 2007, Rouane et al., 2013]est une extension relationnelle de l’AFC. Elle traite des relations entre des ensembles d’objetsdécrits par leurs attributs. L’ARC a été introduite pour injecter des liens inter-objets dans leprocessus de construction des concepts de façon à ce que les descriptions des concepts trouvésrenferment une partie relationnelle inférée à partir du partage des liens.

À partir de la notion de partage de liens, les concepts formels créés par l’AFC sont enrichispar des relations vers d’autres concepts formels. L’ARC construit à partir d’un ou plusieurscontextes binaires (objets× attributs) et d’un ensemble de relations (objets× objets) représen-tées séparément par des contextes, une Famille de Contextes Relationnels (FCR). Cette famillede contextes relationnels constitue le point de départ du processus itératif de formation desstructures conceptuelles correspondantes appelées Famille de Treillis Relationnels (FTR).

Modèle de données de l’ARC

Les données en entrée de l’ARC sont organisées comme une paire constituée d’un ensemblede contextes formels (objets × attributs), K = (Ki)i=1,..,n, et un ensemble de relations binaires(objets×objets), R = (rk)k=1,..,m, représentant les relations d’incidence entre ensembles d’objetsde K. Une relation r ∈ R relie deux ensembles d’objets provenant de deux contextes, à savoir,il existe i1, i2 ∈ 1, .., n (éventuellement i1 = i2) de telle sorte que r ⊆ Oi1 × Oi2 . Formellement,une FCR est définie de la manière suivante :

Définition 14 (Famille de contextes relationnels) Une FCR est une paire (K,R) avec :– K est un ensemble de contextes formels Ki = (Oi, Ai, Ii),– R est un ensemble de relations rk ⊆ Oi × Oj où Oi et Oj sont des ensembles d’objets de

certains contextes de K.

52

Page 72: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Reprenons l’exemple de la section 4.2.2. Les utilisateurs du réseau social (décrits dans latable 4.1), leurs relations d’amitié (table 4.3), les films (décrits dans la table 4.2) auxquels ils ontattribué la mention "J’aime" (ou "like") (relation donnée dans la table 4.4) forment une FCR.Dans cette famille de contextes relationnels, l’utilisateur Peter possède les attributs : adolescent(<18), masculin (M) et vit actuellement au Royaume-Uni (UK), est ami avec Adam et "like" lesfilms "Harry Potter", "Toy story" et "The princess and the frog".

Table 4.3 – Contexte relationnel Amis décrivant la relation d’amitié entre les utilisateurs duréseau social.

Kate Peter Tom Eva Mark Adam Mary JohnKate ×Peter ×Tom ×Eva ×Mark ×Adam ×Mary ×John ×

Table 4.4 – Contexte relationnel "Like" liant les utilisateurs du réseau social et les films.

Star

war

s

Gra

vity

Har

ryPot

ter

Mat

rix

12ye

ars

asl

ave

Toy

stor

y

Les

mis

érab

les

Linc

oln

Tit

anic

The

prin

cess

and

the

frog

Kate × × × ×Peter × × ×Tom × × × ×Eva × × ×Mark × ×Adam × ×Mary × × × ×John × × ×

Dans la définition 14, tous les ensembles d’objets Oi (i ∈ {1, ..., n}) sont deux à deux disjoints.Les relations dans R sont orientées et représentent des fonctions ensemblistes r : Oi → P(Oj).De plus, Oi (domaine de rk) et Oj (co-domaine de rk) sont les ensembles d’objets des contextesKi et Kj respectivement.

53

Page 73: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Définition 15 (Domaine et co-domaine d’une relation) Soit (K,R) une FCR. Le domaineet le co-domaine d’une relation r ⊆ Oi ×Oj sont deux applications :

– dom : R→ O avec dom(r) = Oi ssi ∀(x, y) ∈ r, x ∈ Oi,– ran : R→ O avec ran(r) = Oj ssi ∀(x, y) ∈ r, y ∈ Oj.

où O est l’ensemble de tous les ensembles d’objets dans la FCR, O = {O|K = (O,A, I) ∈ K}.

Dans cette définition, la fonction r possède Ki comme contexte source et Kj comme contextecible. La fonction rel permet de définir l’ensemble des relations qui ont pour source le contexteKi.

Définition 16 (Fonction de contexte rel(K)) La famille des relations qui ont pour domaineun contexte K est définit par :

rel : K→ P(R), rel(K = (O,A, I)) = {r ∈ R|dom(r) = O}

.

Le scaling relationnel

Les instances d’une relation rk, rk(oi, oj), avec oi ∈ Oi et oj ∈ Oj , sont appelés des liens.Les liens sont traités de façon à ce qu’ils soient introduits comme des attributs binaires dans uncontexte formel d’origine. Ce mécanisme s’appelle le « codage relationnel » 47.

Le codage relationnel s’appuie sur une « convention d’identification » 48 qui attribue auxéléments de l’ARC un identifiant unique tout au long du processus d’analyse. En fait, l’évolutiondans l’ARC est liée à la transformation des liens en descripteurs d’objets formels : les ensemblesd’attributs Ai sont enrichis avec de nouveaux éléments mais les ensembles d’objets Oi restentinchangés. Ces derniers forment ainsi une base d’identification des contextes et de leurs versionsétendues tout au long du processus. De façon similaire, les concepts des différentes versions d’uncontexte gardent la même extension et sont considérés comme versions subséquentes du mêmeconcept. Il leur est donc attribué le même identifiant (un numéro unique) dans tous les treillis.

L’ensemble des attributs d’un codage relationnel repose sur les noms des concepts. Étantdonnée une relation r de la FCR avec dom(r) = Oi et ran(r) = Oj , de nouveaux attributs sontajoutés au contexte Ki = (Oi, Ai, Ii) via r. Le codage de Ki par la relation r ∈ rel(Ki) parrapport au treillis Lj implique une extension de Ai et Ii, mais garde Oi inchangé.

Ainsi, la relation r introduit des abstractions de Kj dans Ki. Les attributs résultants, qu’onappelle attributs relationnels, doivent porter clairement une indication de la relation dont ils sontissus. Ils sont ajoutés à Ai sous la forme r : C. Pour qu’un objet o dans Ki reçoive un attributrelationnel, des conditions sur r(o), image de o par la relation r, doivent être vérifiées.

Intuitivement, le codage associe à un objet un attribut combinant une relation r avec unconcept c du treillis Lj à chaque fois que r(o) est corrélé avec l’extension de c. Une corrélationavec peu de contraintes cherche une intersection non vide et une corrélation forte se traduit parune inclusion entre les deux ensembles. Ces deux schémas de codage relationnel sont appelésrespectivement « codage large ou existentiel » 49 et « codage étroit ou universel » 50.

47. Scaling relationnel48. Naming convention49. Wide scaling ou Existential scaling. Nous utilisons ces deux termes dans la suite du manuscrit pour désigner

la même notion.50. Narrow scaling ou Universal scaling.

54

Page 74: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Définition 17 (Opérateur de codage existentiel) Soit une relation r ∈ rel(K) et un treillisLj correspondant à Kj = (Oj , Aj , Ij) cible de r, l’opérateur de codage existentiel S(r,∃),Lj

faitcorrespondre à K le contexte K+ = (O+, A+, I+) tel que :

– O+ = O,– A+ = {∃r : c|c ∈ Lj} où tous les ∃r : c sont des attributs relationnels,– I+ = {(o, ∃r : c) | o ∈ O, c ∈ Lj , r(o) ∩ extension(c) = ∅}.

L’opérateur de codage universel diffère de l’existentiel dans le calcul de I+ en considérant,au lieu d’une intersection non vide, que l’image de l’objet r(o) doit être complètement inclusedans l’extension du concept c pour que l’objet o ait l’attribut relationnel ∀r : c.

Définition 18 (Opérateur de codage universel) Soit une relation r ∈ rel(K) et un treillisLj correspondant à Kj = (Oj , Aj , Ij) cible de r, l’opérateur de codage universel S(r,∀),Lj

faitcorrespondre à K le contexte K+ = (O+, A+, I+) tel que :

– O+ = O,– A+ = {∀r : c|c ∈ Lj} où tous les ∀r : c sont des attributs relationnels,– I+ = {(o, ∀r : c) | o ∈ O, c ∈ Lj , r(o) ⊆ extension(c) et r(o) = ∅}.

Considérons l’exemple de la FCR des utilisateurs d’un réseau social. Le contexte des utili-sateurs KP (table 4.1) est enrichi avec la relation "Like" (table 4.4) par rapport au treillis desfilms LF donné par la figure 4.2. Les treillis L∀,+PF

et L∃,+PFrésultants de ce processus sont donnés

respectivement par la figure 4.3 et la figure 4.4.

Figure 4.3 – Le treillis relationnel L∀,+PFcorrespondant au contexte formel KP enrichi par codage

universel par la relation "Like" par rapport au treillis LF .

55

Page 75: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Figure 4.4 – Le treillis relationnel L∃,+PFcorrespondant au contexte formel KP enrichi par codage

existentiel par la relation "Like" par rapport au treillis LF .

56

Page 76: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Le treillis L∀,+PFest le résultat de l’exécution du codage universel sur le contexte KP . Le treillis

L∃,+PFest le résultat de l’exécution du codage existentiel sur le même contexte. Si on compare

ces deux treillis, nous remarquons à première vue que le nombre de concepts du treillis L∃,+PFest

plus grand que celui de L∀,+PF. Ceci est le résultat de la contrainte forte imposée par le codage

universel, qui impose l’inclusion entre les ensembles r(o) et extension(c), avec o un objet deKP et c un concept dans LF . Les objets dans le contexte des personnes enrichi par le codageexistentiel possèdent plus d’attributs et vérifient donc l’idée intuitive que la structure conceptuelleinduite est plus précise. En effet, dès qu’un objet possède une relation avec un autre objet dansl’extension d’un concept du treillis cible, un attribut relationnel lui est affecté.

L’interprétation de certains concepts du treillis L∀,+PFpermet de déduire des relations entre

les classes d’utilisateurs du réseau social et les classes des films. Par exemple, le concept 1({Adam,Peter},{age<18,like:c4}) (like:c0 est omis car il possède une intension vide) per-met de déduire que les adolescents (âgés de moins de 18 ans) aiment les films d’animation (cf.concept c4 ({Princess,Toy},{Animation}) dans le treillis des films). De la même manière, leconcept 5 ({John,Mary},{age>30,like:c1,like:c5}) permet de déduire que les adultes (âgésde plus de 30 ans) aiment plutôt les films dramatiques et politiques-historiques (cf. concept c1({12years,Lincoln,Miserables,Titanic}, {Drame}) et concept c5 ({12years,Lincoln,Miserables},{Drame,Pol-His})dans le treillis des films).

Codage d’une relation circulaire (même domaine et co-domaine)

Considérons le scaling du contexte des utilisateurs KP de la table 4.1 avec la relation circulaireAmi illustrée par la table 4.3 en utilisant le treillis initial LP de la figure 4.1 obtenu à partir desattributs binaires du contexte des utilisateurs. Le treillis L∀,+PP

de la figure 4.5 représente le résultatde ce scaling.

Les relations inter-concepts induites par des relations inter-objets viennent ajouter une nou-velle dimension à l’interprétation des concepts du treillis initial. Le treillis enrichi L∀,+PP

fournit unevue synthétique sur les relations d’amitié dans un réseau social relativement à l’information surl’âge. En effet, en observant par exemple les deux concepts inter-reliés c8 ({Eva,Kate},{18<age<30,UE,ami:c15,ami:c3})et c15 ({Mark,Tom},{18<age<30,ami:c3,ami:c8}), nous observons que dans la population consi-dérées les personnes âgées de 18 à 30 choisissent des amis qui ont plus ou moins le mêmeâge. Ceci est confirmé par le concept c3 ({Eva,Kate,Mark,Tom},{18<age<30,ami:c3}), aveclequel les deux concepts c8 et c15 sont en relation. De plus, le concept c3 est en relationavec lui même, de la même façon que les concepts c1 ({Adam,Peter},{age<18,ami:c1}) et c10({John,Mary},{UK,age>30,ami:c10,ami:c14,ami:c4}), ce qui nous permet d’interpréter que lespersonnes d’une même tranche d’âge sont amies entre elles.

Codage sur toutes les relations partant d’un contexte

Un contexte K peut être enrichi avec toutes les relations dans rel(K). Ceci est appelé extensionrelationnelle complète de K et consiste à ajouter à ce contexte tous les attributs relationnelsrésultants. Formellement, l’extension relationnelle complète est définie comme l’apposition de Kavec le résultat du codage avec chaque relation r dans rel(K). L’apposition de deux contextesexige qu’ils possèdent le même ensemble d’objets et que le contexte résultant possède un ensembled’attributs et une incidence obtenus par l’union des composants des contextes initiaux. Parexemple, l’extension relationnelle complète du treillis LP est donnée par le treillis L∀,+PP,F

de lafigure 4.6.

57

Page 77: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Figure 4.5 – Le treillis relationnel L∀,+PPcorrespondant au contexte formel KP enrichi par codage

existentiel par la relation Ami.

58

Page 78: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.2. AFC et ARC : fondements théoriques

Figure 4.6 – Le treillis relationnel L∀,+PP,Fcorrespondant au contexte formel KP enrichi par codage

universel par les relations Ami et "Like".

59

Page 79: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Construction des structures relationnelles

La construction de l’ensemble des treillis associés à une FCR est un processus itératif aveccondition d’arrêt qui alterne la pure construction de treillis et l’enrichissement des contextes parcodage relationnel. La procédure générale est décrite par l’algorithme 1.

Algorithm 1 Produire un treillis pour chaque contexte d’une FCR : méthode MULTI-FCA

1. Entrée. FCR = (K;R) : n contextes formels, plusieurs contextes relationnels

2. Étape Initialisation.Pour i de 1 à n faireL0i ← construire le treillis de concepts du contexte K0

i

3. Étape Enrichissement.Pour i de 1 à n faire– Kp

i ← enrichir Kp−1i avec les contextes relationnels dans rel(Ki) et les treillis de l’étape

précédente Lp−1i

– Lpi ← mise à jour du treillis Lp−1

i avec le contexte enrichi Kpi

4. Condition d’arrêt ← Lpi et Lp−1

i sont isomorphes, pour i = 1, ..., n (point de saturation)

5. Sortie. Une famille de treillis relationnels

L’approche prend en entrée une famille de contextes relationnels FCR = (K;R) et donne ensortie une famille de treillis relationnels. Le processus commence (étape d’initialisation) par laconstruction des treillis initiaux L0

i des contextes formels K0i de la FCR en considérant les objets

formels avec leurs attributs binaires et en ignorant toute information relationnelle. Ensuite, dansles étapes suivantes (étape enrichissement), un mécanisme de codage relationnel (large ou étroit)traduit pour chaque contexte Kp−1

i les liens entre les objets en attributs classiques de l’AFC enpartant des treillis construits à l’étape précédente Lp−1

i et de l’ensemble de ses relations rel(Ki)(décrites par les contextes relationnels). Les contextes Kp

i sont produits par ajout de ces attributsaux contextes Kp−1

i de l’étape précédente puis les treillis enrichis Lpi sont construits à partir des

contextes Kpi . Une nouvelle étape d’enrichissement relationnel et de construction de treillis est

entamée jusqu’à ce que la condition d’arrêt du processus soit vérifiée : les treillis produits àl’étape p sont isomorphes à ceux de l’étape p − 1 (il n’y a pas de nouveaux concepts produits).Le processus renvoie alors l’ensemble des treillis relationnels construits (dont les concepts sontliés par les relations de la FCR).

Lorsque la construction des treillis et le codage sont faits par des algorithmes itératifs (voirsection 4.2.2), la complexité totale de la méthode MULTI-FCA [Rouane et al., 2013] est enO(|L| × |O| × (|A|+ |O|)) avec |L| le nombre de concepts du treillis le plus large, |A| le nombred’attributs du contexte le plus large au point de saturation et |O| le nombre maximal d’objetsdans un contexte. Un autre aspect important de la MULTI-FCA c’est sa convergence, c’est-à-direle nombre d’étapes nécessaires avant le point de saturation. Le processus s’arrête dès qu’il n’y aplus de nouveaux concepts créés.

4.3 Applications de l’AFC et ARC

L’application de l’AFC à la RI et l’utilisation des treillis de concepts à la découverte desressources et plus précisément dans la recherche documentaire a fait l’objet de plusieurs tra-vaux [Carpineto and Romano, 1993, Godin et al., 1993, Godin et al., 1995a]. Les collections de

60

Page 80: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.3. Applications de l’AFC et ARC

documents sont représentées sous la forme de contextes formels, les objets correspondent auxdocuments et les attributs correspondent aux termes d’indexation. Chaque classe du treillis ré-sultant correspond à un ensemble de documents décrits par les termes d’index communs. Dansune perspective de recherche booléenne, chaque classe peut être vue comme une requête forméepar la conjonction des termes d’index de la classe. Le graphe construit représente une relationde généralisation/spécialisation entre les requêtes. Deux modes de recherche par treillis sont dé-finis : la recherche par interrogation, qui consiste à identifier la classe du treillis qui correspondà la requête et la recherche par navigation qui utilise la structure hiérarchique des treillis deconcepts pour des fins de généralisation ou de spécialisation. Ces deux modes servent de baseaux propositions du chapitre 6.

Dans [Messai et al., 2006] et [Comparot et al., 2010], les auteurs proposent des techniques deraffinement et d’expansion de requêtes en s’appuyant sur des ontologies de domaine, ce qui per-met d’améliorer le rappel par généralisation sur la structure du treillis de Galois. Sur des donnéestextuelles, [Carpineto and Romano, 2005] propose une méthode de recherche d’information partreillis de concepts. Une contribution à l’indexation et la recherche d’information sémantique ba-sée sur l’AFC a été proposée dans [Codocedo et al., 2012] et dans [Codocedo et al., 2013] les au-teurs utilisent les pattern structures pour traiter des données plus complexes. Dans [Messai et al., 2005],les auteurs utilisent les treillis de concepts pour la découverte et l’interrogation de ressources gé-nomiques sur le web et dans [Alam et al., 2013] une approche basée sur les treillis a été proposéepour l’organisation et l’accès aux données liées ouvertes dans le domaine de la biologie.

D’autres travaux ont mis l’accent sur la classification et la structuration des résultats fournispar les algorithmes de RI ce qui influe sur les interfaces de navigation [Nauer and Toussaint, 2008,Poshyvanyk and Marcus, 2007, Carpineto et al., 2006, Koester, 2006]. L’idée principale est decréer un contexte formel à partir des résultats fournis par les moteurs de recherche sur le web, deconstruire le treillis correspondant à ce contexte, puis de proposer à l’utilisateur un classement desrésultats tel que construits par ce treillis. Ce type d’approche est implémenté dans plusieurs sys-tèmes opérationnels tels que CREDINO [Carpineto et al., 2006], FooCA [Koester, 2006] ou CRE-CHAINDO [Nauer and Toussaint, 2008]. Dans son travail, Nauer [Nauer and Toussaint, 2008]propose de classifier les résultats de recherche sur le web pour permettre à l’utilisateur de jugerla pertinence des résultats qui lui sont fournis. Poshyvanyk [Poshyvanyk and Marcus, 2007] uti-lise l’AFC pour classifier les résultats de la RI suite à une requête pour localiser des concepts dansun code source. Dans la même direction, les auteurs dans [Chekol and Napoli, 2013] proposentun cadre pour la découverte de connaissances avec l’AFC dans les résultats de requêtes SPARQL.Le système Cordiet-FCA, proposé par [Kuznetsov et al., 2012], est un système de découverte deconnaissances dans les grandes collections de textes dynamiques. Il permet à un utilisateur decomposer des requêtes contrôlées par une ontologie et retourne un treillis de concepts et desrègles d’associations.

Une revue récente étudiant les travaux traitant la problématique de la RI basée sur l’AFCest donnée dans [Poelmans et al., 2011]. L’étude est présentée comme une tâche de fouille detexte sur des communications scientifiques dans ce domaine de recherche.

La navigation conceptuelle basée sur l’AFC prend également en charge la recherche explora-toire en guidant les utilisateurs d’un concept à un autre. Plusieurs travaux ont étudié la contri-bution de l’AFC pour la recherche par navigation et le parcours de collections de données et ontprouvé son utilité [Carpineto and Romano, 1996, Ducrou and Eklund, 2008, Ferré, 2009]. L’AFCa servi à explorer l’espace d’information du patrimoine culturel et des collections d’art [Wray and Eklund, 2011].Dans ce travail, les auteurs proposent une approche qui utilise la notion du voisinage concep-tuel et de similarité pour la navigation dans un treillis de concepts. Une solution pour le pro-

61

Page 81: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

blème de navigation dirigée par la requête dans des textes non structurés du web à l’aide del’AFC a été proposée dans [Cole and Eklund, 2001]. En modélisant l’espace de recherche d’unebase de donnée par un treillis, les auteurs dans [Demko and Bertet, 2012] proposent une ap-proche de recherche d’information par navigation en-ligne dans cet espace. D’autres travauxs’intéressent aux données multimédia telles que les images. En combinant l’AFC et les vignettesdes images, un outil de navigation et de recherche de collections annotées d’images est décritdans [Ducrou et al., 2006, Ducrou and Eklund, 2008]. L’auteur dans [Ferré, 2009] présente l’outilCAMELIS pour l’organisation et la navigation dans une collection de photos. L’outil est conçusur le modèle des systèmes d’information logiques (LIS), qui sont fondés sur l’analyse de conceptlogique (ACL). Le système LIS a été étendu pour permettre une navigation conceptuelle dansdes graphes RDF facilitée par des requêtes qui se rapprochent de SPARQL mais qui sont baséessur un langage logique plus compréhensible pour un non expert [Ferré, 2010].

L’AFC a été également utilisée dans plusieurs autres applications pour l’analyse et l’exploi-tation de données et pour la découverte de ressources comme la gestion de messagerie élec-tronique [Cole et al., 2003], la recherche de séquences vidéo [Mimouni and Slimani, 2006], l’ana-lyse des réseaux sociaux [Missaoui, 2013], etc. Une sélection des approches développées dans cecadre et une revue récente qui détaille les principaux travaux dans ces domaines sont donnéesdans [Ganter et al., 2005, Andrews and Orphanides, 2013, Poelmans et al., 2013a, Poelmans et al., 2013b].

L’ARC a été utilisée avec succès en ingénierie de connaissances, en génie logiciel et enconception d’ontologies. En génie logiciel, l’ARC a été utilisée dans l’analyse des objets (ar-tefacts) UML [Arévalo et al., 2006, Huchard et al., 2007], la détection et la correction des er-reurs de conception [Moha et al., 2008], l’apprentissage de transformations de modèles à partird’exemples [Saada et al., 2012], la restructuration de diagrammes de cas d’usage UML [Dao et al., 2004]ainsi que la classification et la composition de services web [Azmeh et al., 2011a]. Dans la concep-tion d’ontologies, l’ARC a été appliquée pour la construction et la restructuration des ontologiesde domaines [Rouane-Hacene et al., 2010, Shi et al., 2011, Hacene et al., 2011]. Elle a été égale-ment utilisée pour la découverte des patrons de connaissances (knowledge patterns) [Rouane et al., 2010]et l’exploration de données relationnelles dans les systèmes hydrauliques avec une propositiond’optimisation basée sur les ensembles partiellement ordonnées d’objets-attributs [Dolques et al., 2013].

L’interrogation relationnelle basée sur L’ARC a été introduite dans [Azmeh et al., 2011a] oùles auteurs travaillent sur le problème de la sélection des services web appropriés pour l’ins-tantiation d’un workflow abstrait. Ils proposent un algorithme pour naviguer dans la structurerelationnelle guidée par la requête de l’utilisateur. L’utilisation de l’ARC pour gérer la structuremulti-relationnelle d’une collection de documents et l’application au domaine de la RI pour larecherche relationnelle a reçu moins d’attention. Bien que l’application de l’ARC à un problèmeaussi complexe n’est pas évidente, c’est une approche prometteuse pour s’attaquer au problèmede l’interrogation relationnelle dans la recherche documentaire.

4.4 Web sémantique et web de données

Dans les sections précédentes nous avons étudié la modélisation d’un ensemble d’objets inter-reliés avec une approche conceptuelle basée sur l’analyse formelle et l’analyse relationnelle deconcepts. Cet ensemble d’objets peut aussi naturellement être encodé sous la forme d’un graphede données faisant appel aux technologies sémantiques.

62

Page 82: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.4. Web sémantique et web de données

4.4.1 Les technologies du web sémantique

La figure 4.7 montre les couches de technologies sur lesquelles se base le web sémantique. Dansla suite nous détaillons les technologies utilisées dans le cadre du web de données, notammentcelles que nous utilisons dans la suite de notre travail.

Figure 4.7 – Architecture du web sémantique (semantic web stack).

Uniform Resource Identifiers (URI)

Les URIs 51 et les IRIs 52 généralisent les URLs 53. Au lieu de faire référence uniquementaux pages web, les IRIs identifient tout type de ressource : une donnée présente sur le web, unobjet du monde réel ou aussi une relation. Il s’agit d’un mécanisme d’identification universel quipermet d’identifier de façon unique toutes les ressources.

Resource Description Framework (RDF)

La deuxième couche est consacrée à la représentation syntaxique des données en utilisantRDF 54. RDF est le format de base pour la représentation de données pour le web sémantique.C’est un modèle qui permet de représenter des informations sur les ressources sous forme degraphes. Il est basé sur des triplets sujet→prédicat→objet qui forment des graphes. Un exemplede triplet RDF (dit aussi graphe RDF) est donné par la figure 4.8.

Dans ce graphe :– le sujet est Peter, une ressource accessible via un URI ;– le prédicat est "Like", une propriété, possédant un URI, qui définit la relation entre le

sujet et l’objet ;

51. http ://www.ietf.org/rfc/rfc2616.txt52. Internationalized Resource Identifiers53. Uniform Resource Locators54. http ://www.w3.org/standards/techs/rdf

63

Page 83: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Figure 4.8 – Graphe de données décrivant la relation "Like" entre un utilisateur d’un réseausocial et un film.

– l’objet est Toy story, une ressource accessible via un URI. Dans le cas général, l’objetpeut être une ressource ou une valeur littérale (entier, caractère, etc.).

RDF est considéré comme la base du web sémantique, qui est vu comme un grand graphedont les ressources (les noeuds) sont interconnectés via des propriétés (les arcs). Selon les re-commandations du W3C, RDF est muni de deux syntaxes : XML et Turtle. Bien qu’il soit labase de la définition des structures de données pour le web sémantique, RDF ne permet pas dedécrire la sémantique, ou le sens des données. Pour attribuer de la sémantique aux modèles dedonnées RDF, deux technologies sont utilisées : RDFS (RDF Schema) et OWL (Web OntologyLanguage).

Resource Description Framework Schema (RDFS)

RDFS 55 peut être considéré comme un langage d’ontologie simple qui exprime les relationsde subsomption entre classes ou propriétés. C’est un vocabulaire utilisé pour exprimer la sé-mantique qui permet d’interpréter des graphes RDF. Les schémas sont eux-mêmes expriméspar des graphes RDF. RDFS définit la notion de classe et de propriété pour une ressource,ainsi que le domaine et le co-domaine d’une relation. Un vocabulaire RDFS peut contenir dessous-classes et des sous-propriétés. Les spécifications du W3C introduisent deux espaces de nomsstandards : http://www.w3.org/1999/02/22-rdf-syntax-ns# (préfixe rdf ) et RDF Schema na-mespace http://www.w3.org/2000/01/rdf-schema# (préfixe rdfs) qui comprennent un ensembled’URIs ayant un sens prédéfini. Par exemple :

– rdfs : Class déclare une ressource comme une classe pour d’autres ressources ;– les propriétés sont des instances de la classe rdf : Property et décrivent une relation entre

les ressources sujets et les ressources objets ;– rdfs : domain et rdfs : range indiquent les classes domaine et co-domaine d’une propriété ;– rdfs : subClassOf et rdfs : subPropertyOf sont utilisés pour décrire une hiérarchie entre

les classes et les propriétés respectivement ;– l’URI prédéfinie rdf : type est une propriété utilisée pour indiquer qu’une ressource est une

instance d’une classe (définir les types des ressources).

Toutes les entités décrites par RDF sont appelées des ressources, et sont des instances dela classe rdfs : Resource. La figure 4.9 reprend le graphe RDF de la figure 4.8 en ajoutant unpremier niveau de sémantique avec RDFS pour la définition des types des ressources sujet etobjet.

55. http ://www.w3.org/TR/rdf-schema/

64

Page 84: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.4. Web sémantique et web de données

Figure 4.9 – Graphe RDF avec types sémantiques des sujets et des objets.

Web Ontology Langage (OWL)

Quand l’expressivité de RDFS n’est pas suffisante, le vocabulaire du web sémantique peutêtre conçu en OWL 56. OWL est une recommandation du W3C qui définit une famille de langagesde représentation de connaissances pour la création d’ontologies sur le web sémantique. L’espacede noms standard spécifié par W3C pour OWL est http://www.w3.org/2002/07/owl# (préfixeowl). Grâce à un vocabulaire sémantique plus riche que RDFS, le langage OWL, notammentdans son extension OWL 2, supporte plus de fonctionnalités telles que l’union et l’intersection declasses et la restriction de cardinalité. Il offre trois sous-langages listés ici par ordre d’expressivitécroissante : OWL Lite, OWL DL et OWL Full.

– OWL Lite : c’est le langage le plus simple syntaxiquement. Il est conçu pour être utilisé dansles cas où seule une simple hiérarchie de classes et des contraintes simples sont requises. Parexemple, OWL Lite peut suffire pour exprimer des thésaurus ou des structures conceptuellessimples.

– OWL DL offre le plus haut niveau d’expressivité tout en maintenant la décidabilité. Basésur la logique de description, il permet de calculer automatiquement la classification hié-rarchique et de détecter les incohérences dans une ontologie décrite en OWL DL.

– OWL Full : c’est le langage le plus expressif mais sans garantie de décidabilité. Il n’estdonc pas possible de faire du raisonnement automatique sur les ontologies OWL Full.

Les données décrites par une ontologie OWL sont interprétées comme des ensembles d’individus,appelés classes, et un ensemble de propriétés qui lient ces individus entre eux (propriétés d’objetsliant des individus entre eux), ou leur associant des attributs (propriétés de données liant lesindividus à des types prédéfinis (entier, chaîne de caractère, etc.)). L’ontologie se compose d’unensemble d’axiomes qui placent des contraintes sur des ensembles d’individus et les types derelations autorisées entre eux. Ces axiomes permettent aux systèmes de déduire des informationssupplémentaires sur la base des données fournies explicitement.

SPARQL

SPARQL 57 est un langage d’interrogation de données RDF. Il peut également être utilisépour interroger directement les ontologies et les bases de connaissances du fait que RDFS etOWL sont construits sur RDF. SPARQL est un langage similaire à SQL, mais il repose sur la

56. http ://www.w3.org/standards/techs/owl57. http ://www.w3.org/standards/techs/sparql

65

Page 85: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

structure des triplets RDF et les ressources pour exprimer des requêtes et retourner des résultatsà ces requêtes.

Une requête SPARQL se compose généralement de cinq parties :

1. Déclaration des préfixes : les IRIs des namespaces RDF et OWL, souvent écrits en raccourcisprefix :localname.

2. Clause de type de requête : SELECT, ASK, CONSTRUCT et DESCRIBE. SPARQL per-met d’exprimer des requêtes interrogatives ou constructives. SELECT, requête interroga-tive, permet de sélectionner des éléments selon le schéma de graphe défini par la requête(query pattern) dans la clause WHERE. ASK retourne "TRUE" ou "FALSE" selon que lepatron de requête existe ou pas dans la base interrogée. DESCRIBE renvoie une descrip-tion, sous forme d’un graphe RDF, de la ressource passée en paramètre. CONSTRUCTcrée un nouveau sous-graphe RDF, spécifié par le schéma de graphe passé en paramètre,qui complète le graphe interrogé.

3. Jeux de données (datasets) : spécifier les collections de graphes RDF interrogés par larequête en utilisant FROM <graph_uri>.

4. Schémas de graphe : ils sont placés dans la clause WHERE et sont à apparier dans lesgraphes interrogés. Ils sont formés de triplets RDF utilisant la jointure (.), la disjonction(UNION), etc.

5. Modificateurs de solution : ils sont appliqués sur les résultats pour les trier (ORDER BY),les partitionner (HAVING), les grouper (GROUP BY), etc.

SPARQL n’est pas seulement un langage d’interrogation mais aussi un protocole pour accéderaux données RDF. Les services d’interrogation qui adoptent le langage SPARQL sont appelésSPARQL endpoints et sont construits au dessus d’une base de connaissance RDF (a triple store).SPARUL (SPARQL 1.1 Update), une extension du SPARQL standard, est un langage déclaratifde manipulation de données qui donne la possibilité d’insérer, supprimer ou mettre à jour desdonnées dans une base de connaissance RDF.

Puissance expressive de SPARQL

La puissance expressive du langage de requête SPARQL se détermine par l’ensemble des re-quêtes exprimables dans ce langage. Une étude exhaustive a été faite dans [Angles and Gutierrez, 2008]pour déterminer la puissance expressive de SPARQL. Les auteurs comparent SPARQL avec l’al-gèbre relationnelle (AR) et montrent qu’ils possèdent le même pouvoir expressif. En effet, ila été prouvé que l’AR avec les opérateurs SPJUD (Selection, Projection, Join, Union, Diffe-rence) [Abiteboul et al., 1995] est équivalente à SPARQL avec SELECT, AND, UNION, OP-TIONAL, MINUS et FILTER. Un mapping entre les opérateurs des deux langages est donné parla table 4.5 [Chekol, 2012].

Dans ce travail, nous nous intéressons aux requêtes SPARQL interrogatives décrites par laclause SELECT. La clause SELECT est définie par la syntaxe suivante :

SELECT <liste_variables>

où <liste_variables> indique la liste des variables à projeter sur le(s) graphe(s) interrogé(s). Lestriplets contiennent à la place des IRIs des variables qui peuvent apparaître dans le sujet, l’objetou le prédicat. Les variables qui apparaissent dans la clause SELECT d’une requête SPARQLforment le focus de la requête. Étudier l’ensemble de requêtes qu’on peut exprimer avec une

66

Page 86: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.4. Web sémantique et web de données

Table 4.5 – SPARQL vs. Algèbre relationnelle (AR).

AR SPARQLSelection (Restriction) σ FILTERProjection π SELECTJoin (Inner join) ◃▹ ANDLeft outer join d|><| OPTIONALUnion ∪ UNIONSet difference \ MINUS

requête interrogative SPARQL (clause SELECT) revient à étudier les schémas des graphes derequêtes du fait que les variables spécifiées dans la clause SELECT apparaissent aussi dans lesschémas de graphes. Ainsi, en combinant ces graphes on combine les requêtes : disjonction derequêtes (UNION), conjonction de requêtes (AND), négation (MINUS), etc.

Les schémas de graphes qui doivent être appariés dans le(s) graphe(s) RDF interrogé(s) sontplacés dans la clause WHERE d’une requête SPARQL. Ils sont formés par une liste ou unecombinaison de triplets RDF utilisant [Pérez et al., 2009] :

– la jointure/concaténation (.) (basic graph pattern),– la conjonction (AND),– la disjonction (UNION) (union graph pattern),– left outer join (OPTIONAL) (optional graph pattern),– la restriction (FILTER) : des expressions ajoutant des contraintes (C) sur les variables

(filter graph pattern),– la négation (MINUS) (subtracted graph pattern).Par défaut, une liste de triplets est une conjonction. Les accolades, { et }, permettent de com-

biner différents opérateurs (par ex. les conjonctions, les disjonctions) dans une même requête.Les schémas de graphes de la requête peuvent ainsi correspondre à différents patrons de graphes,comme illustré dans ce qui suit.

Soit A et B deux schémas de graphes, ils peuvent être combinés pour former différents patronsde graphes :

– Graphe de base (Basic graph patterns), qui correspond à un ou plusieurs schémas de tripletsA ·B. Le résultat final est calculé en faisant la jointure des résultats de la résolution de Aet B en faisant correspondre les valeurs de toutes les variables en commun.

– Graphe optionnel (Optional graph patterns) de la forme A OPTIONAL {B} (left join).Le résultat final est calculé en faisant la jointure des résultats de la résolution de A et Ben faisant correspondre les valeurs de toutes les variables en commun, si possible. Gardertoutes les solutions de A telles qu’il n’y a pas de solution correspondante pour B.

– Graphe union (Union graph patterns) de la forme {A} UNION {B} (disjonction). Lerésultat final est calculé en groupant les résultats de la résolution de A et les résultats dela résolution de B.

– Graphe soustrait (Subtracted graph patterns (SPARQL 1.1)) de la forme {A}MINUS {B}(négation). Le résultat final est calculé comme suit : résoudre A, résoudre B puis inclureuniquement les résultats de la résolution de A qui ne sont compatibles avec aucun desrésultats de B.

67

Page 87: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Des contraintes peuvent être ajoutées sous la forme A.B.FILTER(expression). Dans expres-sion, des opérateurs du type !,&&, ||,=! =, <,<=, etc. sont utilisés.

SPARQL est aussi capable d’exprimer des schémas de graphes cycliques grâce à l’utilisationde variables et de chemins de propriétés (Property paths). Les chemins de propriété SPARQLtraitent les triplets RDF comme des graphes orientés, éventuellement cycliques, avec des labelssur les arcs. Lorsque la requête est projetée sur un chemin de longueur arbitraire, chaque cycleest considéré au plus une fois. Le graphe interrogé peut aussi contenir des cycles 58.

Schéma général de requête Dans [Pérez et al., 2009] une syntaxe réduite de SPARQL a étéproposée. Les schémas de graphes, constitués par un ensemble de schémas de triplets, sur untuple t de variables, groupés par les opérateurs AND, UNION et OPT, forment les schémas derequêtes. Un schéma général de requête est composé d’un ensemble de requêtes individuelles etdéfini récursivement comme suit [Chekol, 2012] :

Définition 19 (Schéma de requête (Query Pattern)) q ::= t|q1 AND q2|q1UNION q2|q1OPTq2|q1 FILTERC

Définition 20 (Requête SELECT) Une requête SELECT dans SPARQL est une requête dela forme q{−→w } où q est un schéma de requête et −→w est un tuple de variables qui apparaît dans qappelés variables distinguées.

Une réponse à une requête SPARQL peut être une liste de résultats ou un ensemble degraphes RDF. Dans la section suivante nous donnons des exemples de requêtes SPARQL avecles résultats qui leur sont retournés.

Exemples

Considérons les requêtes suivantes qui interrogent le graphe de la figure 4.9 :

1. q1{?personne} interroge sur toutes les personnes qui aiment ou écoutent quelque chose.SELECT ?personne

WHERE { {?personne like ?x }

UNION { ?personne ecoute ?x }

}

La réponse à cette requête est :

Personne

Mary

Adam

Peter

Mary

Le résultat contient deux fois la réponse Mary du fait que la variable ?personne a étéprojetée sur les triplets du graphe RDF décrivant les relations like et écoute, respective-ment entre Mary et le film Lincoln et entre Mary et l’album You and Me. Pour éviter cettesituation, le modificateur DISTINCT peut être utilisé.

58. Pour plus de détails, voir http://www.w3.org/TR/2013/REC-sparql11-query-20130321/, section 9.3.

68

Page 88: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.4. Web sémantique et web de données

2. q2{?personne} interroge sur toutes les personnes qui aiment des films ou écoutent desalbums.

SELECT DISTINCT ?personne

WHERE { {?personne like ?x . ?x rdf:type Film .}

UNION { ?personne ecoute ?x . ?x rdf:type Album . }

}

La réponse à cette requête est :

Personne

Mary

Adam

Peter

3. q3{?personne} interroge sur les personnes qui aiment et écoutent quelque chose.SELECT ?personne

WHERE { {?personne like ?x }

AND { ?personne ecoute ?x }

}

La réponse à cette requête est :Personne

Mary

4. q4{?personne, ?film, ?album} interroge à la fois sur les personnes, les films et les albums.SELECT ?personne, ?film, ?album

WHERE { {?personne like ?film . ?film rdf:type Film .}

UNION { ?personne ecoute ?album . ?album rdf:type Album . }

}

La réponse à cette requête est :

Personne Film Album

Peter Toy story

Mary Lincoln

Adam Happy

Mary You and Me

Les requêtes de 1 à 3 sont des requêtes SPARQL unaires puisqu’elles portent sur une seulevariable distinguée. La requête q4 est ternaire (le nombre de variables distinguées est 3).

4.4.2 Le web de données et les données liées sur le web

Les technologies sémantiques permettent de gérer des graphes de données et de les interro-ger. Le déploiement de ces technologies a accompagné une tendance générale de création et depublication de données de plus en plus liées.

Le terme Linked data (données liées) est utilisé pour désigner le mouvement de publicationde données liées sur le web. Il vise à publier non seulement des documents, mais aussi desdonnées, et contribue à l’extension du web en un espace global de données basé sur des standardsouverts. Cet espace de données est appelé le web de données (Web of data) [Bizer et al., 2009,Berners-Lee, 2007, Heath and Bizer, 2011]. Il a été créé en réponse à deux grandes questions :comment publier des données qui soient réutilisables ? et comment favoriser l’intégration dedonnées venant de sources différentes ? Les solutions proposées consistent à imposer aux donnéesd’être structurées pour faciliter leur partage et leur réutilisation et à suivre un modèle standardpour faciliter leur découverte et leur intégration.

Dans ce cadre, un ensemble de bonnes pratiques pour la publication et l’interconnexion dedonnées structurées sur le web [Berners-Lee, 2006, Heath and Bizer, 2011] sont définies :

69

Page 89: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

1. utiliser les URIs pour donner des noms aux choses ;2. utiliser les URIs HTTP, de sorte que les utilisateurs peuvent accéder à ces noms ;3. quand un utilisateur regarde un URI, fournir des informations utiles, en utilisant les stan-

dards (RDF, SPARQL) ;4. inclure des liens vers d’autres URIs, afin que les utilisateurs puissent découvrir plus de

choses.Les trois premiers principes consistent à identifier les entités et à les définir. Le quatrième

principe consiste à mettre des liens RDF pointant vers d’autres sources de données sur le web.Ces liens RDF externes sont fondamentaux car ils permettent de relier les données éparpilléessur le web dans un espace global et permettent aux applications de découvrir des sources dedonnées supplémentaires.

Un nombre important d’organismes ont adopté les principes de données liées comme une façonde publier leurs données ce qui a permis de créer un espace global de données interconnectéesconstitué de plusieurs milliards de triplets RDF provenant de nombreuses sources : donnéesgéographiques, statistiques, génétiques, pharmaceutiques, médicales, publications scientifiques,films, musique, etc. (voir figure 4.10 59).

4.4.3 Les ontologies

Dans la littérature, plusieurs définitions on été attribuées à la notion d’ontologie. Les défini-tions les plus utilisées présentent une ontologie comme « une spécification explicite et formelled’une conceptualisation partagée d’un domaine de connaissance » [Gruber, 1993, Studer et al., 1998].L’utilisation d’ontologies dans les systèmes d’information est devenue une pratique récurrente dufait de leur capacité à représenter et à organiser les connaissances de différents domaines de façonexplicite, non ambiguë et compréhensible à la fois par un utilisateur et par une machine. Lesontologies sont ainsi considérées comme un système fiable pour l’intégration, l’interopérabilité etle partage de données et de connaissances.

Une ontologie est formalisée par un langage de représentation logique. Dans le web séman-tique, une famille de langages de représentation, OWL (voir section 4.4.1), est utilisée pour lacréation d’ontologies. Il existe différents types d’ontologies. Dans [Oberle et al., 2006], les auteursproposent une classification selon :

– leur but : ontologies d’application, ontologies de référence,– leur expressivité : ontologies lourdes avec beaucoup d’axiomes pour faire des raisonnements

complexes, ontologies légères avec peu ou pas d’axiomes,– leur spécificité : ontologies génériques ou de haut niveau, ontologies noyaux ou core ontolo-

gies définissant des concepts communs à un ensemble de domaines, ontologies de domainedéfinissant les concepts d’un domaine spécifique.

Différents critères ont été définis pour évaluer une ontologie. Selon Gruber [Gruber, 1993],une ontologie doit être :

– claire : elle doit communiquer efficacement le sens des termes définis. Chaque nouveauterme doit être documenté avec des labels et des commentaires en langage naturel. Despropriétés RDFS sont conçues à cet effet : rdfs:label et rdfs:comment ;

– cohérente : les axiomes qu’elle définit doivent être cohérents avec les définitions, à défautêtre logiquement cohérents. Aucune connaissance inférée ne doit contredire la définitiond’une classe de l’ontologie ;

59. http ://lod-cloud.net/

70

Page 90: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.4. Web sémantique et web de données

Fig

ure

4.10

–Le

nuag

ede

donn

ées

liées

(Lin

ked

data

clou

ddi

agra

m).

Cha

que

cerc

lere

prés

ente

unen

sem

ble

dedo

nnée

spu

blié

esse

lon

les

prin

cipe

sde

sdo

nnée

slié

es.

Lata

ille

des

cerc

les

repr

ésen

tele

nom

bre

detr

iple

tsqu

’ils

cont

ienn

ent.

Leje

ude

coul

eurs

iden

tifie

les

dom

aine

s.Le

sflè

ches

indi

quen

tqu

’au

moi

ns50

trip

lets

relie

ntle

sen

sem

bles

dedo

nnée

s.

71

Page 91: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

– extensible : une ontologie doit être conçue pour anticiper le partage de vocabulaire c’est-à-dire de sorte à pouvoir l’étendre et le spécialiser d’une manière qui ne nécessite pas larévision des définitions existantes ;

– réutilisable : la conceptualisation devrait être spécifiée au niveau de connaissances sans dé-pendre d’un codage particulier afin de faciliter l’interopérabilité et de permettre le partagede connaissances entre plusieurs applications.

Afin d’approcher de ces critères, la conception d’une ontologie doit respecter certaines règlesde bonnes pratiques. Ces règles sont différentes selon la nature de l’ontologie et la techniquede construction (automatique, semi-automatique ou manuelle). Plusieurs méthodes sont propo-sées dans la littérature [Corcho et al., 2003]. La construction manuelle, la technique que nousavons adoptée dans ce travail, présente l’avantage de produire des ontologies cohérentes et réuti-lisables tout en se basant sur les vocabulaires existants et sur les experts du domaine. Néan-moins, elle nécessite beaucoup de temps pour la conceptualisation et beaucoup de ressources.La méthode de construction que nous avons suivie se rapproche des quatre étapes décritesdans [Wang and Xu, 2000] à savoir : analyser le domaine d’étude et extraire les connaissancesutiles, identifier les éléments ontologiques (les concepts, les relations, etc.) et structurer l’ontolo-gie, choisir le langage et formaliser l’ontologie, évaluer et valider l’ontologie (par des experts etdes utilisateurs du domaine).

Une série de spécifications et de recommandations sont faites dans le cadre du web de donnéespour la construction d’un vocabulaire sémantique [Heath and Bizer, 2011] :

– extensibilité : le web de données étant un environnement ouvert, cette spécification rejointle critère de [Gruber, 1993] qui incite à prendre en compte les éventuelles extensions desapplications réutilisant l’ontologie qui doivent être sans aucun impact sur le modèle déjàdéfini ;

– une ontologie légère (lightweight) : les ontologies utilisées dans le web de données sontdéfinies avec le langage RDFS. Les extensions simples de OWL sont acceptées (par exempleowl :equivalentClass, owl :InverseFunctionalProperty), mais l’objectif est toujours de garderdes ontologies simples.

– réutilisation de termes existants : favoriser la réutilisation de classes et de propriétés desvocabulaires existants. Si des termes adéquats peuvent être retrouvés dans les vocabulairesexistants, ils doivent être réutilisés autant que possible, plutôt qu’être réinventé. Ceci doitpermettre aux applications de consommer directement les données exprimées dans un voca-bulaire connu sans prétraitement. Plusieurs vocabulaires existants couvrent des données detype commun et sont largement utilisés : le Dublin Core Metadata Initiative (DCMI), le vo-cabulaire Friend-of-a-Friend (FOAF), le vocabulaire Semantically-Interlinked Online Com-munities (SIOC), le schéma Creative Commons (CC), l’ontologie bibliographique (BIBO),le vocabulaire Basic Geo (WGS84), etc. Si les besoins de l’application nécessitent la créa-tion de nouveaux termes pour décrire des particularités liées à l’ensemble des donnéesmanipulées, ces termes doivent être alignés avec les termes qui se rapprochent dans lesvocabulaires prédéfinis ;

– disponibilité sur le web : les vocabulaires publiés sur le web sont accessibles. Une pageHTML et un document décrivant l’espace de noms (namespace document) doivent être as-sociés à l’ontologie. Ce dernier donne une description textuelle des classes et des propriétésavec des exemples.

72

Page 92: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.5. Application à l’analyse documentaire dans le web sémantique

Une initiative récente, Linked Open Vocabularies (LOV) 60, vise à rassembler et fournir unseul point d’entrée pour les vocabulaires ouverts liés (ontologies RDFS ou OWL) utilisés dansLinked Data Cloud. Les vocabulaires sont listés et décrits individuellement par des métadonnées,organisés dans des classes de vocabulaires et inter-reliés par le vocabulaire dédié VOAF (Voca-bulary Of A Friend 61).

Plusieurs outils sont disponibles pour assister le processus de développement de vocabu-laires [Heath and Bizer, 2011] :

– Neologism 62 est un outil web pour créer, gérer et publier des vocabulaires RDFS simples.– TopBraid Composer 63 est un environnement de modélisation (commercial) puissant pour

développer des ontologies du web sémantique.– Protege 64 un éditeur libre d’ontologies avec un plugin dédié à OWL.– The NeOn Toolkit 65 un environnement libre d’ingénierie d’ontologies.– Terminae 66 un outil linguistique pour la construction d’une ontologie de domaine.

4.5 Application à l’analyse documentaire dans le web sémantique

L’essor du web sémantique et du web de données repose sur l’évolution des technologiessémantiques qui assurent l’interopérabilité des données mais aussi sur le développement desressources pour l’annotation sémantique des documents. Dans ce contexte, un effort est faitpour développer des ontologies documentaires mais les modèles existants sous-estiment selonnous la dimension intertextuelle et ne permettent pas de modéliser l’ensemble des propriétésdocumentaires de manière homogène, ce qui constitue un frein à l’essor des méthodes de recherched’information sémantique.

4.5.1 Vocabulaires conceptuels et annotation sémantique

L’approche classique de recherche d’information sémantique (comme par exemple dans Aqua-Log [Lopez et al., 2007], KnOWLer [Ciorascu et al., 2003] ou MELISA [Abasolo and Gomez, 2000])dépasse les méthodes à base de mots-clés en exploitant les annotations sémantiques qui sont ap-posées sur les documents pour en modéliser le contenu.

Les termes utilisés comme annotations sont définis dans des vocabulaires ou des ontologiesqui sont eux-mêmes définis en SKOS ou OWL. Les ontologies de domaine permettent d’associeraux contenus des documents une description sémantique à la fois explicite et formelle, ce quifacilite l’exploitation sémantique des contenus par des outils automatiques et améliore l’inter-opérabilité des sources. Dans le domaine juridique, des efforts de standardisation et d’annotations’appuient notamment sur des ontologies comme DOLCE [Gangemi et al., 2005] ou LKIF core[Hoekstra et al., 2009].

Des outils d’annotation sont utilisés pour annoter les documents, c’est-à-dire pour lier certainsfragments de textes (des mots, groupes de mots, phrases, etc.) à des entités de l’ontologie, le plus

60. Publiée le 26/04/2013, http ://lov.okfn.org/dataset/lov/, par Mondeca, Inserm, DataLift project et OpenKnowledge Foundation.

61. http ://lov.okfn.org/vocab/voaf/v2.2/index.html62. http ://neologism.deri.ie/63. http ://www.topquadrant.com/products/TB_Composer.html64. http ://protege.stanford.edu/65. http ://neon-toolkit.org/66. http ://ontorule-project.eu/news/news/terminae.html

73

Page 93: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

souvent à des instances [Amardeilh et al., 2005, Uren et al., 2006a], mais aussi, dans certains cas,à des concepts et à des rôles [Ma et al., 2013].

Le contenu d’un document ainsi que les annotations qui lui sont attachées peuvent ainsi êtrepubliés sous forme de triplets RDF. Les annotations permettent d’identifier les entités et lesconcepts mentionnés dans les documents d’un domaine donné : littérature scientifique dans ledomaine biomédical [Croset et al., 2010] ou celui de la biodiversité [Cui et al., 2010], comptesrendus hospitaliers [Minard et al., 2011], etc. Dans [Mokhtari, 2010a], les annotations séman-tiques des documents sont stockées sous forme de triplets RDF, qui sont produits selon l’em-placement de leurs propriétés dans le texte. Dans [Croset et al., 2010], la modélisation sous laforme de triplets RDF et d’URIs permet également de lier les articles scientifiques et les basesde connaissances du domaine. [Mrabet et al., 2012] propose à l’inverse d’enrichir des bases deconnaissances RDF/OWL en utilisant une base de documents HTML annotés par un ou plu-sieurs outils d’annotations. Le travail présenté dans [Guissé et al., 2012] traite le problème de lanormalisation des règles métiers et leur transformation de langage naturel en langage contrôlé. Lastructure de données est encodée en RDF, et les liens d’annotation attachés aux unités textuellesdes documents (utilisant RDFa 67) font référence à des ressources qui sont ou bien des entitésOWL ou bien des règles candidates.

Une fois publiées sous forme de triplets RDF, les annotations sont interrogeables par desrequêtes SPARQL, même si une phase de transformation est nécessaire quand la requête estformulée en langage naturel. Un système de questions réponses basé sur des patrons de requêtes(utilisés par exemple dans [Pradel et al., 2012]) a été proposé comme solution intuitive et ex-pressive au problème d’accès aux données liées publiées en RDF [Unger et al., 2012].

4.5.2 Ontologies documentaires

Au-delà de la modélisation du contenu, des ontologies ont été produites pour modéliser lespropriétés documentaires. Elles s’inspirent naturellement des langages de métadonnées définisdans la tradition des documentalistes, comme le Dublin Core. Ces ontologies sont souvent conçuespour des usages particuliers. Dans [Bouzidi et al., 2011] par exemple, la modélisation doit aiderla rédaction des documents réglementaires dans le domaine du bâtiment. Ces ontologies mettentl’accent sur différents types de propriétés documentaires.

L’ontologie SDO (SALT Document Ontology 68) décrit la structure d’une publication scienti-fique, ainsi que ses propriétés identificatoires et les différentes révisions qu’elle comporte. L’on-tologie d’annotation SAO (SALT Annotation Ontology 69) permet de lui associer une couched’annotation sur le contenu en lien avec des ontologies existantes, telles que FOAF, SWRC etl’ontologie bibliographique BIBO. Cette dernière (Bibliographic Ontology 70) décrit en RDF desentités bibliographiques pour le web sémantique.

D’autres ontologies mettent l’accent sur le cycle de vie du document. L’ontologie PDO (Pro-ject Documents Ontology 71) modélise la structure des documents de projets, en rendant comptede leurs différents statuts (rapports d’étape, rapports finaux, livrables, etc.). De la même ma-nière, dans le domaine juridique, l’ontologie MetaLex [Boer et al., 2002] prend en compte lestatut du document (par ex. document de travail) et les relations qu’ils entretiennent resultOf,

67. http ://www.w3.org/TR/rdfa-syntax/68. http ://salt.semanticauthoring.org/ontologies/sdo69. http ://salt.semanticauthoring.org/ontologies/sao70. http ://uri.gbv.de/ontology/bibo/71. http ://vocab.deri.ie/pdo-Document

74

Page 94: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.6. Synthèse

generatedBy, etc.). Le modèle FRBR, sur lequel se base Metalex, propose de distinguer le do-cument en tant qu’oeuvre (Work) et les différentes versions qui sont publiées (Expressions).

Une ontologie pour les cas juridiques est présentée dans [Wyner and Hoekstra, 2012]. L’onto-logie décrit la connaissance du domaine traité, permet le raisonnement sur ce domaine, et peutêtre utilisée pour annoter les textes qui peuvent à leur tour être utilisés pour peupler l’ontologie.En plus des éléments pour annoter les cas (par ex. les parties, la jurisdiction et la date), l’on-tologie contient des éléments nécessaires pour l’élaboration de décisions comme par exemple desschemas d’arguments.

Un système qui utilise une ontologie OWL pour représenter la structure de l’administrationpublique et tout type de document qui circule entre les unités administratives, au cours de l’exé-cution des procédures, est décrit dans [Savvas and Bassiliades, 2009]. Le système adopte uneapproche orientée processus (unique pour chaque procedure juridique) afin d’aider les organisa-tions publiques produisant chaque jour un grand volume de documents administratifs.

Dans ce travail, nous proposons une ontologie documentaire (dans le chapitre 7) qui intègre lesdifférents types de propriétés (sémantiques, structurelles et temporelles) dans un même modèle.Elle permet aussi de rendre compte de la dimension intertextuelle qui est peu représentée dans lesontologies documentaires existantes. Une fois peuplée, l’ontologie sert de base pour une recherched’information intégrant ces différents aspects dans les collections documentaires modélisées.

4.6 Synthèse

Les données inter-reliées peuvent être traitées par différentes approches selon leurs natureset les caractéristiques qu’elles présentent. Les données que nous traitons sont des documents quise présentent sous forme de collections documentaires. Les documents possèdent des propriétés(attributs) et entretiennent des relations. L’analyse formelle et relationnelle de concepts et lestechniques du web sémantique sont deux approches différentes mais complémentaires qui per-mettent d’analyser et d’interroger ce type de données. Les détails des deux approches proposéesbasées sur ces deux formalismes sont donnés dans les chapitres suivants.

Parallèle entre l’approche conceptuelle et l’approche sémantique Une correspondanceentre l’analyse relationnelle de concepts et la logique de description est donné dans [Rouane et al., 2007].Nous utilisons une partie de cette correspondance que nous modifions légèrement pour corres-pondre aux besoins de notre application dans le cadre de ce travail. Le tableau 4.6 décrit leparallèle entre une première modélisation basée sur l’AFC et l’ARC et une modélisation, plusriche et allant plus dans les détails des données modélisées, basée sur les langages du web séman-tique (RDF et OWL).

Reprenons l’exemple des données décrivant les utilisateurs d’un réseau social avec leursmeilleurs films. Ces données peuvent être modélisées de deux façons différentes selon l’approchechoisie. Avec une approche conceptuelle basée sur l’AFC et l’ARC, ces données sont représentéespar une famille de contextes relationnels décrivant les objets, leurs attributs et leurs relations(voir section 4.2). Ce même ensemble de données peut être modélisé en suivant une approchesémantique utilisant RDF et OWL (voir section 4.4). La correspondance entre ces deux modéli-sations est donnée par les relations d’équivalence suivantes :

– Contexte Personne– Contexte ≡ classe Personne.– Les objets ≡ instances de la classe Personne.

75

Page 95: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Table 4.6 – Mapping FCA/RCA vers OWL DL.

FCA/RCA OWLObjets Ressources (Instances)

Attributs Classes (C1)Types de données

Relation d’incidence Propriété rdf:type

Propriété d’objets (Object property)Propriété de données (Datatype property)

Contextes Classes (C2)Relations FCR (entre contextes) Propriétés d’objets (Object properties)

– Les attributs ≡ classes Âge (âge<18, 18<âge<30, âge>30) et Pays (EU, UK, US, AU).Modélisation possible aussi avec des attributs : âge (de type entier) et pays (de typechaîne de caractère).

– La relation d’incidence ≡ selon le choix de modélisation des attributs : propriété d’objets(âge, habite-à) ou propriété de données.

– Contexte Film– Contexte ≡ classe Film– Les objets ≡ instances de la classe Film– Les attributs ≡ sous-classes de Film (une classe par type de films)– La relation d’incidence ≡ propriété rdf:type entre Film et ses sous-classes

– Relation "Like" ≡ propriété d’objet entre la classe Personne (domaine) et la classe Film(co-domaine)

– Relation Ami ≡ propriété d’objet sur la classe Personne (même domaine et co-domaine)Un extrait du graphe de l’ontologie est donné par la figure 4.11.

Figure 4.11 – Ontologie correspondant aux données (Personne,Film).

Comparaison / Complémentarité des deux approches Les langages du web sémantiquesont plus expressifs que l’AFC tant sur le modèle de représentation de données (RDFS / contextesformels) que sur le langage d’interrogation (SPARQL / ensemble d’attributs). L’utilisation de

76

Page 96: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

4.6. Synthèse

l’ARC, extension relationnelle de l’AFC, permet de se rapprocher en expressivité des langages duweb sémantique mais ne couvre pas (en tout cas pas de manière directe et facile) tout le pouvoirexpressif de SPARQL [Ferré, 2010]. D’un autre côté, les bases de données exprimées en RDF nepermettent pas d’avoir suffisamment de retours sur le graphe formé par ces données et donc nepermettent pas de faire une recherche exploratoire dans ce graphe.

L’AFC a été appliquée à divers domaines du web sémantique. Les travaux en relation avecla construction d’ontologies (cités dans la section 4.3) en forment la majeure partie. L’AFC aété aussi utilisée comme base pour une mesure de similarité de concepts pour le web séman-tique [Formica, 2008] et pour extraire des questions représentatives sur un ensemble de donnéesRDF [d’Aquin and Motta, 2011]. Dans [Ferré, 2010], l’auteur combine l’utilisation de l’AFC, no-tamment son extension logique l’ACL (Analyse de Concepts Logique) avec les langages du websémantique pour proposer une méthode de navigation dans des graphes RDF avec des requêtesqui ressemblent à SPARQL mais qui sont exprimées dans un langage plus proche du langage na-turel. Dans [Chekol and Napoli, 2013], les auteurs décrivent un cadre pour la structuration et ladécouverte de connaissances avec les treillis de concepts dans les résultats de requêtes SPARQL.L’AFC et l’ARC sont utilisées en tant que techniques de fouille de données dans [Shi et al., 2011]pour guider un processus d’amélioration de structure de wikis sémantiques. Une approche pourajouter une couche de conceptualisation aux données du web utilisant les treillis de concepts aété décrite dans [Kirchberg et al., 2012].

La table 4.7 synthétise l’ensemble des remarques précédentes sur la comparaison des deuxapproches basées sur l’analyse formelle et relationnelle de concepts et sur les langages du websémantique selon différents critères et montre leurs complémentarité.

77

Page 97: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 4. Méthodes pour la modélisation et l’interrogation de données complexes

Table 4.7 – Tableau comparatif RDF/SPARQL vs AFC/ARC.

RDF/SPARQL AFC/ARC CommentairesExpressivité Algèbre rela-

tionnelleConjonction /Disjonction

SPARQL est plus expressif du fait qu’ilest équivalent à l’algèbre relationnelle.

Cycles Dans les che-mins de pro-priétés des re-quêtes

Relationsde mêmedomaine etco-domaine

Les deux formalismes permettent d’ex-primer des cycles.

Requêtes Vocabulairedes données

Ensembled’attributs etrelations

Pas facile d’exprimer des requêtes enSPARQL sans maîtriser le vocabu-laire utilisé pour représenter les don-nées. L’utilisation de formulaires pourAFC/ARC peut aider à la formulationde requêtes.

Navigation Graphe dedonnées pasaffiché

Structure detreillis

La recherche exploratoire n’est paspossible avec RDF/SPARQL. Si la re-quête ne retourne pas de résultats,il n’est pas possible d’aller directe-ment explorer le voisinage pour retour-ner une réponse (même approximative)à l’utilisateur sans formuler une nou-velle requête. Un point en faveur desstructures conceptuelles c’est qu’ellesoffrent un espace de navigation struc-turé et en deux niveaux : groupes dedocuments dans une même classe ethiérarchie de classes.

Passage àl’échelle

Grande quan-tité de docu-ments

Nombre dedocumentslimité

Les technologies du web sémantiquepermettent de manipuler des cor-pus de grande taille (tirés du web).L’AFC/ARC sont plus adaptées à descorpus spécifiques (petite taille).

78

Page 98: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5

Interrogation d’un réseau sémantiquede documents : application aux sources

de droit

Sommaire5.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79

5.2 L’enjeu de l’intertextualité dans Légilocal . . . . . . . . . . . . . . . . 80

5.2.1 Objectif de la thèse . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80

5.2.2 Intertextualité dans les sources de droit . . . . . . . . . . . . . . . . . . 81

5.3 Modélisation des collections documentaires . . . . . . . . . . . . . . . 83

5.3.1 Caractéristiques des collections documentaires . . . . . . . . . . . . . . 83

5.3.2 Les collections comme graphes de documents . . . . . . . . . . . . . . . 83

5.3.3 Exemples de collections juridiques . . . . . . . . . . . . . . . . . . . . . 84

5.4 Interrogation des collections documentaires . . . . . . . . . . . . . . 88

5.4.1 Langage de requêtes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 89

5.4.2 Exemples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 90

5.4.3 Analyse des besoins des juristes . . . . . . . . . . . . . . . . . . . . . . . 91

5.4.4 Jeu de requêtes types . . . . . . . . . . . . . . . . . . . . . . . . . . . . 97

5.4.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99

5.5 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 100

5.1 Introduction

Dans ce chapitre, nous restituons notre problématique dans son contexte applicatif pouranalyser les besoins des juristes en matière d’interrogation d’un réseau de documents. Nousprésentons les collections de documents et les types de liens sur lesquels nous avons travaillédans cette thèse. Nous donnons des exemples de requêtes que nous avons collectées auprès denos partenaires juristes, ce qui nous permet d’identifier un jeu de requêtes types à traiter dansla suite de ce travail.

79

Page 99: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

5.2 L’enjeu de l’intertextualité dans Légilocal

5.2.1 Objectif de la thèse

Nous avons vu dans le chapitre 3 des modèles avancés de RI qui sont proposés pour gérerla recherche sémantique (qui exploite la hiérarchie sémantique de descripteurs de contenu) maisque l’information intertextuelle n’est pas prise en compte par ces modèles. Cette informationa été exploitée pour le classement des résultats [Page et al., 1999] ou pour l’analyse des grandsgraphes (navigation, clustering) mais pas comme un critère de recherche en tant que tel. Nousnous focalisons dans ce travail sur l’interrogation directe des liens (en considérant un lien commeun critère de recherche), une question encore peu explorée par les modèles de RI existants. Nousproposons un modèle de recherche d’information alternatif, centré sur la collection plutôt quesur le document, qui permet d’aborder la complexité des réseaux sémantiques de documents.Ce modèle permet le traitement de la dimension intertextuelle en définissant des requêtes quiportent à la fois sur le contenu sémantique et sur les liens, les requêtes relationnelles, auxquelleson peut répondre par une liste de documents mais aussi par des graphes de documents liés pardes relations intertextuelles.

La modélisation de l’intertextualité est particulièrement complexe dans le domaine juridique :elle touche au coeur même de l’activité juridique qui consiste à publier des documents (décisionou jugements, modifications de textes législatifs) qui s’appuient sur des textes existants pouren créer d’autres qui modifient les premiers, s’en justifient, les prolongent dans un contextedifférent, les confirment ou les contredisent, etc. Le modèle de recherche d’information proposéest appliqué au domaine juridique qui se caractérise par l’abondance et la diversité des liensentre les documents. Les requêtes recensées à travers divers entretiens avec des juristes montrentl’utilité pour les utilisateurs d’exploiter la complexité des sources juridiques en combinant descritères sémantiques et intertextuels 72.

Dans certains cas, par exemple lorsqu’un article de code est associé à un concept juridiquebien spécifique, utiliser les liens entre les documents pour effectuer la recherche permet d’avoirdes réponses plus complètes que d’utiliser les requêtes sémantiques. C’est le cas par exemple del’article 1382 du code pénal qui parle de la « responsabilité pour faute », si nous cherchons lajurisprudence qui cite cet article, nous trouvons les textes qui parlent de ce concept et de toutson champ sémantique qui peut comprendre plusieurs termes. Cette recherche est plus large quede chercher juste la jurisprudence annotée avec le terme « responsabilité pour faute ».

Selon le public visé, citoyens (simples utilisateurs) ou juristes (experts du domaine), différentstypes d’applications peuvent être proposés avec des niveaux variables de complexité.

Cas d’usage juridique généraliste Dans le cas d’un simple utilisateur la complexité ne doitpas dépasser celle d’un système d’accès à l’information juridique généraliste (comme dansle cas de Legifrance) avec en plus l’aspect relationnel sur lequel l’utilisateur peut poser desrequêtes.

Cas d’usage juridique métier Dans le cas d’un utilisateur averti, plus de fonctionnalitéspeuvent être proposées et elles peuvent être intégrées dans des dispositifs plus complexesdédiés métier. Dans ce deuxième cas, la complexité des fonctionnalités vis-à-vis de l’utili-sateur est filtrée par son domaine de travail. Par exemple :

72. Ce chapitre repose en grande partie sur l’analyse des besoins faite dans le cadre du projet Légilocal. Ellea bénéficié des analyses de Meritxell Fernandez-Barrera et Eve Paul (juristes, partenaires du projet) et a étéconduite par Sylvie Salotti et Adeline Nazarenko.

80

Page 100: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.2. L’enjeu de l’intertextualité dans Légilocal

– un agent de mairie qui veut rédiger un document aura besoin de voir comment les agentsdes mairies voisines ont traité des documents similaires, de savoir quels sont les visas àapposer sur ce document, etc.,

– un législateur, qui a pour métier la création de textes de loi, a des besoins spécifiquesdifférents de ceux d’un agent de mairie.

Dans ce travail, nous proposons des solutions pour de simples utilisateurs et pour les agents demairies, ce qui correspond aux cas d’usages du projet Légilocal.

Nous ne cherchons pas à construire un système de RI complet, mais plutôt à explorer et àtester la faisabilité et l’intérêt de la prise en compte de l’intertextualité dans un système d’accèsà l’information juridique. Nous souhaitons pouvoir interroger une collection de documents pourretrouver des documents décrits par des descripteurs sémantiques et/ou des types de documentsou des graphes de documents liés par des relations intertextuelles.

Comme ce problème est assez nouveau et que nous n’avons pas traité la question de pointde vue système réel, nous supposons que des annotations existent sur les documents, que lesrequêtes à l’entrée du système sont sous forme logique et correspondent à la description de lacollection modélisée (nous faisons comme si les utilisateurs étaient capables de créer directementdes requêtes logiques). Nous ne définissons pas les interfaces utilisateur de saisie (pour poser desrequêtes) et de présentation de résultats (pour analyser les résultats).

Ce chapitre décrit la collection de documents (section 5.3) et le langage de requêtes (sec-tion 5.4), après avoir introduit le problème d’intertextualité dans le domaine juridique (sec-tion 5.2.2). Ensuite, nous analysons les requêtes recueillies de la part des utilisateurs juristesinterviewés et nous dressons la liste des types de requêtes qu’il paraît important de traiter dansun système de recherche d’information juridique (section 5.4.4).

5.2.2 Intertextualité dans les sources de droit

Les systèmes d’accès à l’information juridique existants ne proposent pas de solutions directespour prendre en compte les liens dans les requêtes. Ils proposent néanmoins de contourner cettedifficulté avec des techniques simples comme, par exemple, modéliser les liens comme des attributsqui peuvent être interrogés au même niveau que les types de documents.

Il existe plusieurs types de documents qui sont accessibles par les systèmes juridiques. Ils sontregroupés sous de grandes catégories, par exemple :

– les lois et règlements (textes législatifs) : constitution, codes, loi, décrets, etc. ;– la jurisprudence : constitutionnelle, administrative et judiciaire ;– les conventions collectives.

Les actes locaux et les documents éditoriaux sont d’autres types de documents qui ne sont pastraités par les systèmes existants et qui sont visés par le projet Légilocal.

Ces documents sont reliés entre eux par différents types de liens et ces liens prennent souventdes types spécifiques de documents comme domaine et co-domaine, par exemple :

– Codification : entre un texte ou article non codifié et un texte ou article codifié.– Transposition : entre une directive européenne et un texte national.– Lien de jurisprudence : entre une jurisprudence et un texte législatif.– Interprétation : entre un arrêté local et un décret ou une loi.– Application : entre un décret et une loi.– Modification (ajout, substitution, etc.) : entre tous types de textes.– Abrogation.

81

Page 101: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

– Citation.

D’autres relations mériteraient d’être prises en compte. N’étant pas juriste, nous ne pré-tendons pas lister ici toutes les relations importantes à prendre en compte ni leur donner unedéfinition définitive, d’autant que d’une tradition juridique à l’autre, les pratiques et les défini-tions varient. Nous nous contentons de lister les relations intertextuelles dont les juristes avecqui nous avons travaillé ont souligné l’importance à travers l’analyse des cas d’usage que nousavons faite et les exemples de requêtes qu’ils nous ont proposées. Par exemple :

– Quelle est la jurisprudence qui applique-interprète l’article sur la responsabilité pour fautedu code civil ?

– Quelles conventions implémentent les recommandations qui parlent de licenciement ?– Quelle est la version en vigueur de l’article 1382 du code civil et sa version précédente ?– Est-ce que la loi n 2014-567 du 2 juin 2014 relative à l’interdiction de la mise en culture

des variétés de maïs génétiquement modifié a été appliquée (donner des exemples de décretsd’application) ? quel acte local l’applique dans ma commune ?

Dans ces requêtes, nous remarquons l’intégration de plusieurs caractéristiques de documentsen une seule requête : les documents sont décrits par leurs types, par des descripteurs séman-tiques de contenu, par des éléments de structure et aussi par les relations intertextuelles qu’ilsentretiennent entre eux. Cela impose de modéliser une collection documentaire comme un réseausémantique :

– en modélisant les types et structures des documents,– en affinant la typologie des liens,– en modélisant les liens comme des relations exploitables pour la recherche d’information et

pas seulement comme des attributs.

Les documents juridiques possèdent aussi une structure riche comme déjà exposé dans lechapitre 2. Cette structure doit également être prise en compte au moment de la modélisationde la collection. Elle présente un des critères sur lesquels portent les requêtes des experts dans cedomaine, il faut donc la prendre en compte dans un processus de RI sur une collection juridique.Par exemple, une modification d’une loi L peut ne concerner qu’un article A de cette loi et nonpas le texte intégral. Dans ce cas, des liens intertextuels de modification ou de citation partentdu texte T qui introduit la modification vers l’article A de la loi L. Ainsi, une requête qui portesur les modifications apportées au texte de la loi L, doit avoir comme réponse l’article modifiéA en relation avec le texte T. Ceci nous impose une granularité fine dans la description de lastructure des documents.

Un pré-traitement sur les documents est obligatoire afin d’en extraire leur contenu sémantiqueet les références vers d’autres documents (voir figure 5.1). Le contenu sémantique de documentsest représenté comme un ensemble d’annotations sémantiques par rapport à une ressource séman-tique (comme détaillé dans le chapitre 3). Les références sont identifiées suite à un processus derésolution de références. La structure des documents est analysée (en s’appuyant sur un standardjuridique par exemple) et un identifiant unique est affectée à chaque document 73.

73. Cette étape de pré-traitement est au-delà de la portée de ce travail, elle doit être faite par les partenairesdu projet

82

Page 102: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.3. Modélisation des collections documentaires

Figure 5.1 – Arrêté du 25 Avril 2003 relatif à la limitation du bruit dans les établissementsd’enseignement citant l’article R111-23-2 du Code de la construction et de l’habitation.

5.3 Modélisation des collections documentaires

5.3.1 Caractéristiques des collections documentaires

À partir de la description donnée dans la section précédente, nous posons qu’une collectionde documents juridiques est caractérisée par l’ensemble des propriétés suivantes :

– une collection est formée d’un ensemble de documents ou, plus généralement, d’unitésdocumentaires ;

– une unité documentaire possède un indentifiant unique ;– toute unité documentaire est typée (loi, code, article de loi, décret, etc.) de ma-

nière unique : on suppose qu’une unité documentaire ne peut pas relever de deux types à lafois (être une loi et un décret, par ex.) ; en cas d’ambiguïté ou d’indétermination, on supposequ’on peut caractériser l’unité documentaire par un type plus générique (loi_ou_décret) ;

– un ou plusieurs descripteurs sémantiques peuvent être associés à une unité documentaire ;– les unités documentaires peuvent être liées entre elles par différents types de relations

intertextuelles (appartenance pour entre deux unités documentaires dont l’une est unfragment de l’autre, jurisprudence, etc.) ;

– les types sémantiques et les relations intertextuelles peuvent être structurées en hiérarchie,un type ou une relation étant plus général(e) qu’un(e) autre, mais cette propriété n’est pasprise en compte dans la modélisation qui suit.

5.3.2 Les collections comme graphes de documents

À partir de cette analyse, on peut modéliser une collection documentaire C comme un grapheorienté, étiqueté et attribué C = G(D,R,A) où

– les noeuds sont des unités documentaires (du ∈ D) ;– les unités documentaires sont décrites par des attributs : Att(du, ai) indique que l’unité

documentaire du (du ∈ D) possède l’attribut ai (ai ∈ A ) ;– les arcs sont des relations typées et orientées : Rel(du, rj , dv) indique que l’unité documen-

taire du (du ∈ D) est la source d’une relation ri (rj ∈ R) dont la cible est dv (dv ∈ D).

83

Page 103: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

graphecoll ← prédicatc [ ‘∧ ’ prédicatc ]*prédicatc ← ‘Att’ ‘(’iddoc‘,’ idatt‘)’ | ‘Rel’ ‘(’iddoc‘,’ idrel‘,’ iddoc‘)’iddoc ← ‘d1’ | ‘d2’ | ‘d3’ | ...idatt ← ‘a1’ | ‘a2’ | ‘a3’ | ...idrelt ← ‘r1’ | ‘r2’ | ‘r3’ | ...où (∀ i, j, k,) (di ∈ D, aj ∈ A et rk ∈ R).

Figure 5.2 – Langage de graphes : description des graphes de collections documentaires. Leséléments du vocabulaire terminal sont notés entre guillemets simples (ex. ‘(’), les non-terminauxsont en italiques (ex. prédicat) et les métasymboles utilisés sont la flèche de réécriture (← ), lescrochets pour former les groupes ([ ]), la barre d’alternative (|) et l’étoile de Kleene pour marquerla répétition de l’élément ou du groupe précédent pour un nombre quelconque d’occurrences (*).

Un graphe de collection documentaire est donc décrit par une formule du langage dont lagrammaire est présentée dans la figure 5.2.

Cette modélisation est naturellement simplificatrice et il peut être nécessaire, pour un do-maine particulier, de tenir compte de contraintes supplémentaires : pour le domaine juridique,en particulier, il paraît raisonnable par exemple de distinguer deux types d’attributs, les typesde documents tk ∈ T et les descripteurs sémantiques sl ∈ S (A = T ∪ S) pour exprimer lescontraintes supplémentaires suivantes :

– une unité documentaire possède un et un seul type : (∀du)((∃tk, tl ∈ T )(Att(du, tk) ∧Att(du, tl)⇒ tk = tl) ;

– une unité documentaire est décrite par un nombre quelconque de descripteurs sémantiques.En revanche, il n’y a aucune contrainte sur le nombre de noeuds, d’attributs et de relationsentrant dans le graphe ou sur les combinaisons d’attributs et de relations.

La figure 5.3 donne un exemple de graphe qui peut être décrit par la formule suivante :

Att(d1, t1) ∧Att(d1, s1) ∧Att(d1, s2)∧Att(d2, t2) ∧Att(d2, s1) ∧Att(d2, s3) ∧Att(d2, s4) ∧Att(d2, s5)

∧Att(d3, t1) ∧Att(d3, s2) ∧Att(d3, s3) ∧Att(d3, s4)∧Att(d4, t2) ∧Att(d4, s3) ∧Att(d4, s5)

∧Rel(d1, r1, d2) ∧Rel(d2, r4, d1) ∧Rel(d1, r1, d3) ∧Rel(d2, r2, d3)∧Rel(d2, r3, d4) ∧Rel(d3, r2, d4) ∧Rel(d4, r5, d4)

où (∀i, j, k)(di ∈ D ∧ sj ∈ S ∧ tk ∈ T )

5.3.3 Exemples de collections juridiques

La collection Bruit

Décrivons tout d’abord la collection qui est représentée de manière schématique dans lafigure 5.4. C’est une collection de petite taille rassemblant des documents juridiques traitant dubruit et des nuisances sonores, qui ont été collectés sur Legifrance et sur les sites officiels desmairies de certaines villes.

Ces documents sont de plusieurs types : des arrêtés locaux d’une part (en réalité, des ar-rêtés municipaux et préfectoraux) et des textes législatifs d’autres part (décrets, lois, codes ou

84

Page 104: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.3. Modélisation des collections documentaires

Figure 5.3 – Exemple de graphe modélisant une collection documentaire comportant 4 unitésdocumentaires. Pour des questions de lisibilité les attributs et relations partagés par plusieursdocuments sont représentés en double. Les unités documentaires sont représentées par des cercles.Les relations sont notées comme des flèches. les attributs sont reliés aux documents par des traitspleins (descripteurs sémantiques) ou pointillés (types de documents).

Figure 5.4 – Exemple de collection juridique avec annotations sémantiques et lien de référence.

85

Page 105: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

Table 5.1 – Composition de la collection Bruit

Arrêtés locaux Textes législatifsTypes Descriptifs Identifiants Types Descriptifs IdentifiantsArrêté Arrêté de Paris AP Décret Décret de 1995 D95

Arrêté Arrêté de Boulogne AB Loi Loi de 1992 L92

Arrêté Arrêté des Yvelines AY Ordonnance Ordonnance de 1945 O45

Arrêté Arrêté de Strasbourg AS Code Code pénal CPen

ordonnances) 74. Le tableau 5.1 donne la composition précise de la collection.Les documents de la collection peuvent se citer les uns les autres. Nous représentons de

manière indifférenciée ces citations par la relation fait-référence. Celle-ci prend respectivementdes arrêtés et des textes législatifs comme sources et comme cibles. Ce sont en effet les actes locauxqui citent la législation nationale, non l’inverse.

Les documents de la collection sont en outre décrits par des descripteurs sémantiques dontle vocabulaire extrait du thésaurus juridique EuroVoc 75 est résumé dans le tableau 5.2.

Table 5.2 – Vocabulaire utilisé pour l’annotation sémantique de la collection Bruit

Descripteurs Equivalents terminologiquesbag « bruit anormalement gênant »ns « nuisance sonore »son « sonorisation »lcb « lutte contre le bruit »nvs « niveau sonore »tv « tranquillité du voisinage »ab « activité bruyante »ip « isolation phonique »

Cette collection peut se décrire comme un graphe, selon la formule suivante ou le schéma dela figure 5.5 :

Att(AP, arrete) ∧Att(AP, bag) ∧Att(AP, pa)∧Att(AB, arrete) ∧Att(AB, bag) ∧Att(AB,ns) ∧Att(AB, son)∧Att(AY, arrete) ∧Att(AY, bag) ∧Att(AY, ns) ∧Att(AY, nvs)

∧Att(AS, arrete) ∧Att(AS, pa) ∧Att(AS, nvs)∧Att(D95, decret) ∧Att(D95, lcb) ∧Att(D95, ab)∧Att(L92, loi) ∧Att(L92, tv) ∧Att(L92, ip)

∧Att(O45, ordonnance) ∧Att(045, tv) ∧Att(O45, ab)∧Att(CPen, code) ∧Att(CPen, lcb) ∧Att(CPen, ip)

∧Rel(AP, fait− reference,D95) ∧Rel(AB, fait− reference, L92)∧Rel(AY, fait− reference, CPen) ∧Rel(AS, fait− reference,O45)

74. Ce corpus servira d’exemple jouet pour la suite des chapitres.75. http ://eurovoc.europa.eu/

86

Page 106: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.3. Modélisation des collections documentaires

Figure 5.5 – Collection Bruit. Pour des questions de lisibilité les descripteurs sémantiquespartagés par plusieurs documents sont représentés en double. Les unités documentaires sont re-présentées par des cercles. Les relations sont notées comme des flèches. les attributs sont reliés auxdocuments par des traits pleins (descripteurs sémantiques) ou pointillés (types de documents).

La collection Légilocal

Dans le cadre du projet Légilocal, nous avons travaillé sur une petite collection à des finsd’expérimentation et de test. La collection est de taille réduite mais elle est diversifiée. Lesdocuments sont collectés à partir de plusieurs sources : il s’agit de décisions publiées par descollectivités locales, de document éditoriaux fournis par des éditeurs juridiques et ou de texteslégislatifs (lois, décrets, etc) issus de portails juridiques, principalement Legifrance. La collectionest structurée par ailleurs par différents types de relations.

Le projet Légilocal a été conçu pour construire cette base documentaire qui va être étendueau fur et à mesure que de nouvelles collectivités locales souhaiteront mettre en commun leursactes et que la société Victoires Editions enrichit le réseau Légilocal avec de nouveaux documentséditoriaux (modèles de documents, guides de bonnes pratiques, etc.) et le connecte à d’autresbases documentaires (ex. Legifrance).

Nous présentons ci-dessous les principales relations qui structurent la collection Légilocal.Il faut d’abord noter que dans le domaine juridique, on raisonne souvent sur plusieurs versionsd’un même document. On distingue donc deux types de documents : les versions qui sont publiéeset les documents-matrices dont elle dépendent ; nous distinguons les expressions et les oeuvres 76

pour différencier ces deux types de documents. Sauf mention contraire les différentes relationsci-dessous relient entre eux des documents de type oeuvre.

Appliquer La relation d’application est une relation structurante des collections juridiques. Elleexprime différents types de relations selon le type des arguments qu’elle relie :– un texte législatif peut appliquer un autre texte législatif issu d’une norme supérieure

dans la hiérarchie des normes : dans ce cas le texte qui applique la loi ou le décret enexplicite les modalités d’application ; cette relation d’application peut aussi relier untexte d’une juridiction locale à un texte d’une juridiction plus globale ;

– quand une décision (ex. arrêté, jugement, etc.) applique un texte législatif ou une autredécision, c’est qu’il fait référence à ce document source pour justifier la décision qu’il

76. Cette terminologie est empruntée de la description de FRBR donnée par la BnF (Bibliothèque nationale deFrance) : http ://www.bnf.fr/fr/professionnels/modelisation_ontologies/a.modele_FRBR.html .

87

Page 107: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

prend ; la décision interprète alors le texte cité au regard d’un cas particulier ou d’unesituation locale et elle est souvent utilisée par la suite comme jurisprudence pour d’autrescas ou situations similaires.

Composer Un document est généralement composé de différentes unités documentaires : nousdistinguons notamment les différents articles qui composent un document juridique.

Statuer (Confirmer ou Annuler) Certaines décisions (par exemple les arrêts de cour d’appelou de cassation) statuent sur la légalité ou l’acceptabilité d’autres textes, des textes légis-latifs ou des décisions dites « antérieures ». Plusieurs cas de figures peuvent se présenterselon que la décision postérieure confirme la décision antérieure ou l’annule et selon qu’elleporte sur la totalité de la décision antérieure ou seulement une sous-partie de celle-ci.

Modifier Les articles des textes juridiques font souvent l’objet de modifications successives tantqu’ils ne sont pas codifiés. La trace de ces modifications est généralement consignée dansle nouveau document qui cite le texte qu’il modifie.

Codifier Les articles de code citent également les articles de lois à partir desquels ils sont crééspar codification d’articles et qui ne peuvent dès lors plus faire l’objet de modification.

Abroger Un texte juridique peut aussi être abrogé par un autre 77.

Exprimer On dit qu’un document s’exprime dans ses différentes versions ou que les documentsde types expressions expriment le document-oeuvre qui en est la source.

La collection OIT

Nous utilisons également une collection de documents de l’Organisation Internationale duTravail (OIT) 78. Il s’agit d’une collection de plus grande taille mais qui ne comporte que deuxtypes de documents (188 conventions et 199 recommandations) et un seul type de relation, lesconventions implémentant les recommandations 79.

Autres collections

D’autres bases de données juridiques dans d’autres pays peuvent également être utilisés avecnotre modélisation. Plusieurs données et documents sont disponibles en ligne tels que :

– Les données de l’initiative UK Opening Up Government 80.– Les données de l’initiative Dutch Regulations as Linked Data 81.

5.4 Interrogation des collections documentaires

Les collections étant modélisées comme des graphes, la recherche documentaire s’apparenteà l’interrogation de graphes : les requêtes et les réponses qui y sont apportées se modélisentégalement sous le forme de graphes.

Nous posons qu’une requête s’exprime comme un graphe du même type qu’une collectionmais il peut comporter

– des éléments variables à la place des identifiants de documents ou de relations ;– des contraintes d’inégalité ou de type sur ces variables ;

77. A noter qu’un texte juridique reste en vigueur tant qu’il n’est pas modifié par un autre document ou abrogé.78. www.ilo.org79. Nous remercions Thibault Mondary qui nous a aidé à la construction ce corpus.80. http ://data.gov.uk/data/search81. http ://doc.metalex.eu/

88

Page 108: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

‘graphereq’ ← [cible ‘ :’ ] ? grapher [‘avec’ contrainte [‘∧’ contrainte ]*] ?cible ← ‘(’ variable [ ‘,’ variable ]* ‘)’grapher ← prédicatr [ ‘∧’ prédicatr]*prédicatr ← ‘Att’ ‘(’ document ‘,’ attributtype ‘)’ | ‘Att’ ‘(’ document ‘,’ attributsem‘)’ | ‘Rel’‘(’ document ‘,’ relation ‘,’ document ‘)’document ← iddoc | variableattributsem ← idsem | variableattributtype ← idtype | variablerelation ← idrel | variableiddoc ← ‘d1’ | ‘d2’ | ‘d3’ | ...idsem ← ‘s1’ | ‘s2’ | ‘s3’ | ...idtype ← ‘t1’ | ‘t2’ | ‘t3’ | ...idrel ← ‘r1’ | ‘r2’ | ‘r3’ | ...contrainte ← variable ‘=’ variable | variable ‘∈’ ensembleensemble ← ‘D’ | ‘A’ | ‘S’ | ‘T’ | ‘R’oùvariable ∈ D ∪ C ∪ T ∪ Ret (∀ i, j, k, l) (di ∈ D ∧ sj ∈ S ∧ tk ∈ T ∧ rl ∈ R)

Figure 5.6 – Langage de requêtes. Les éléments du vocabulaire terminal sont notés entre guille-mets simples (ex. ‘(’), les non-terminaux sont en italiques (ex. prédicat) et les métasymbolesutilisés sont la flèche de réécriture (← ), les crochets pour former les groupes ([ ]), la barre d’al-ternative (|) et l’étoile de Kleene pour marquer la répétition de l’élément ou du groupe précédentpour un nombre quelconque d’occurrences (*).

– une cible qui permet de focaliser la requête sur certains éléments, la cible étant un sous-ensemble des éléments variables de la requête.

Les réponses retournées sont également des graphes.

5.4.1 Langage de requêtes

Un graphe requête est donc décrit par une formule du langage donné par la grammaire de lafigure 5.6.

Répondre à un graphe requête revient à chercher à l’instancier sur une collection. La requêten’est satisfiable que si le graphe requête est instanciable sur la collection :

– si le graphe requête n’est pas instanciable, la requête retourne un graphe vide ;– si le graphe requête comporte des éléments variables, le résultat de la requête est donné par

l’ensemble des sous-graphes de la collection instanciant le graphe requête, ou l’ensembledes n-uplets instanciant la cible de la requête et vérifiant les propriétés exprimées parl’ensemble du graphe requête, si ce dernier comporte une cible ;

– si le graphe requête ne comporte aucun élément variable, le résultat de la requête estbooléen : le graphe requête est retourné si c’est un sous-graphe du graphe de la collection.

89

Page 109: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

5.4.2 Exemples

A titre d’illustration, considérons la liste des requêtes suivantes et les réponses obtenues enprojetant ces requêtes sur le graphe de la collection exemple de la figure 5.3 :

Requêtes non ciblées

1. Att(x, s1)Traduction : Trouver tous les sous-graphes composés d’un document décrit par s1.Résultat : {d1, d2} (2 graphes réduits à un seul document)

2. Rel(x, r1, d2)Traduction : Trouver tous les sous-graphes composés d’un document ayant pour cibled2 par la relation r1.Résultat : {Rel(d1, r1, d2)} (1 graphe)

3. Rel(d1, r1, d2)Traduction : Y a-t-il une relation r1 entre les documents d1 et d2 ?Résultat : {Rel(d1, r1, d2)} (le graphe requête, ce qui équivaut à VRAI)

4. Rel(x, y, x)Traduction : Trouver tous les sous-graphes composés d’un document en relation aveclui-même quel que soit le type de la relation .Résultat : {Rel(d4, r5, d4)} (1 graphe)

5. Att(x, s1) ∧Rel(x, r1, d2)Traduction : Trouver tous les sous-graphes composés d’un document décrit par s1 etayant pour cible d2 par la relation r1.Résultat : {Att(d1, s1) ∧Rel(d1, r1, d2)} (1 graphe)

6. Att(x, s1) ∧Rel(y, r1, d2)Traduction : Trouver les sous-graphes composés de documents décrits par s1 et dedocuments ayant pour cible d2 par la relation r1.Résultat : {Att(d1, s1)∧Rel(d1, r1, d2), Att(d2, s1)∧Rel(d1, r1, d2)} (2 graphes : cetterequête comportant deux variables indépendantes x et y, il s’agit de deux requêtesindépendantes)

Requêtes ciblées

1. (x) : Rel(x, y, x)Traduction : Trouver tous les documents en relation avec eux-mêmes quel que soit letype de la relation.Résultat : {d4} (1 document)

2. (y) : Rel(x, y, x)Traduction : Trouver tous les types de relation liant un document à lui-même.Résultat : {r5} (1 relation)

3. (x, y) : Rel(x, y, x)Traduction : Trouver tous les couples composés d’un document lié à lui-même et dutype de relation qui les lie.Résultat : {(d4, r5)} (1 couple composé d’un document et d’une relation)

4. (x, y) : Att(x, z) ∧Rel(x, r1, y) ∧Att(y, z)Traduction : Trouver tous les couples de documents décrits par un même descripteursémantique et tels que le second est la cible du premier par la relation r1.Résultat : {(d1, d2), (d1, d3)} (2 couples)

90

Page 110: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

5. (x, y, z) : Att(x, z) ∧Rel(x, r1, y) ∧Att(y, z)Traduction : Trouver tous les triplets composés de deux documents décrits par un mêmedescripteur sémantique et tels que le second est la cible du premier par la relation r1et du descripteur sémantique que ces documents partagent.Résultat : {(d1, d2, s1), (d1, d3, s2)} (2 triplets)

Requêtes avec contraintes

1. Att(x, s2) ∧Att(x, y) avec y = s2 ∧ y ∈ STraduction : Trouver tous les sous-graphes composés d’un document décrit par s2 etun autre descripteur sémantique différent.Résultat : {Att(d1, s1)∧Att(d1, s2), Att(d3, s2)∧Att(d3, s3), Att(d3, s2)∧Att(d3, s4)}(3 graphes)

2. Att(x, y) ∧Att(x, z) avec y = z ∧ y ∈ T ∧ z ∈ TTraduction : Trouver tous les sous-graphes composés d’un document associé à deuxtypes différents.Résultat : ∅ (la requête n’est pas satisfiable)

3. (x) : Rel(x, r5, y) avec x = yTraduction : Trouver tous documents avant yn autre document pour cible par r5.Résultat : ∅ (la requête n’est pas satisfiable)

5.4.3 Analyse des besoins des juristes

La formalisation ci-dessous– ne fixe pas de limite à la taille des graphes requêtes, à la cible des requêtes ciblées ou au

nombre de contraintes à prendre en compte,– ne fixe aucune contrainte sur la structure des graphes requêtes : elle autorise notamment

toute forme de cycles,– n’impose aucune contrainte sur la combinaison d’attributs ou de relations pour un docu-

ment.La prise en compte des besoins des utilisateurs sur des domaines d’application particuliers

et des collections particulières permet cependant de cerner le type de requêtes auxquelles il estimportant de pourvoir répondre.

Nous listons ci-dessous les requêtes que nous avons recueillies auprès des juristes que nousavons interrogés et nous montrons les réponses qu’il faudrait leur apporter à partir des collectionsdocumentaires présentées dans la section 5.3.3.

L’analyse qui suit montre que le langage de requête défini plus haut comporte certaineslimitations :

1. Certains opérateurs logiques ne sont pas pris en compte. :– la quantification : les présupposés d’unicité 82 ne sont pas exprimés dans la formalisation :

les requêtes « Quelle(s) recommandation(s) implémente(nt) la/une convention ? » sontformalisées de la même manière ; les présupposés de non-univocité ne sont pas davantageexploités : les requêtes « Quelles sont les recommandations qui implémentent des/les/uneconvention(s) » sont considérées comme équivalentes ;

– l’absence d’autres opérateurs logiques – la négation et la disjonction notamment – limitede fait l’expressivité du langage de requête ; nous avons conscience ici de simplifier le

82. (Comparer pa exemple « Quelle recommandation ... » et « Quelles recommandations... » ou « implémentela recommandation » et « implémente une recommandation »).

91

Page 111: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

problème du traitement de l’intertextualité : nous considérons qu’en l’état actuel dessystèmes de recherche d’information sémantique, le langage proposé ci-dessus répond àl’essentiel des besoins exprimés par les utilisateurs ; l’extension du langage de requêtessera peut-être nécessaire à terme mais elle est laissée en perspective de ce travail.

2. Par ailleurs, certaines requêtes (par ex. de la forme « Quelles sont les conventions qui . . . »)sont ambiguës en français car on ne sait pas si elles comportent une cible unaire ou unecible plus complexe, c’est-à-dire si elles attendent comme réponse une liste de documentsou une liste de graphes de documents.

Organisation Internationale du Travail

Un premier ensemble de requêtes portant sur le corpus de l’Organisation Internationale duTravail (droit européen, voir section 5.3.3) qui a été recueilli auprès de Meritxell Fernandez 83.Rappelons que ce corpus comporte deux types de documents, des conventions (conv) et desrecommandations (recom), liés par la relation d’implémentation (impl), les conventions implé-mentant les recommandations.

Nous avons annoté les documents avec des concepts du domaine du travail. La liste desdescripteurs sémantiques utilisés dans les requêtes est donnée dans le tableau 5.3 avec leurspendants terminologiques.

OIT1-1 Quelle convention implémente la recommandation 113 sur la consultation aux échelonsindustriel et national ?(x) : Att(x,Conv) ∧Rel(x, implementer,Recom113) ∧Att(Recom113, consultation)

Résultat attendu L’ensemble des documents de type « convention » qui ont la recom-mandation 113 pour cible par la relation d’implémentation si la recommandation 113porte bien le descripteur consultation, sinon le graphe requête n’est pas satisfiable.

OIT1-2 Quelle convention implémente la recommandation qui parle des accidents du travail desmarins ?(x) : Att(x,Conv)∧Att(y,Recom)∧Rel(x, implementer, y)∧Att(y, accT )∧Att(y,marin)Résultat attendu L’ensemble des documents de types convention ayant pour cible par la

relation d’implémentation au moins un document de type recommandation et portantles descripteurs accT et marin.

OIT1-3 Quelle recommandation est implémentée par la convention qui parle de l’exposition àl’amiante ?(x) : Att(x,Recom) ∧ (y, implementer, x) ∧Att(y, Conv) ∧Att(y, expoAmiante)Résultat attendu L’ensemble des documents de type recommandation qui sont la cible

par la relation d’implémentation d’au moins un document de type convention et por-tant le descripteur expoAmiante.

OIT1-4 Quelles sont les recommandations implémentées par les conventions qui parlent de lapollution de l’air ?(x) : Att(x,Recom) ∧Rel(y, implementer, x) ∧Att(y, Conv) ∧Att(y, pollAir)

Résultat attendu L’ensemble des documents de type recommandation qui sont la ciblepar la relation d’implémentation d’au moins un document de type convention portantle descripteur pollAir.

83. Juriste chez CERSA (Centre d’Études et de Recherches de Sciences Administratives et Politiques,http ://www.cersa.cnrs.fr/), partenaire du projet Légilocal.

92

Page 112: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

Table 5.3 – Vocabulaire utilisé pour la modélisation de la collection OIT et les requêtes asso-ciées. Les types et les identifiants de documents ont une majuscule à l’initiale ; les identifiantscomportent en outre un indice ; les noms de relations et les descripteurs sémantiques ont uneinitiale minuscule mais les noms de relations sont des verbes.

Types DescriptifsRecom RecommandationConv ConventionRelations Descriptifsimplémenter Implémentation (les conventions implémentent les recommandations)Descripteurs Equivalent terminologiqueconsultation « consultation aux échelons industriels et national »accT « accidents du travail »navire « navire »expoAmiante « exposition à l’amiante »pollAir « pollution de l’air »convColl « convention collective »negoColl « la négociation collective »bruit « bruit »vibration « vibrations »benzene « benzène »cancerP « cancer professionnel »Identifiants RéférentsRecom113 Recommandation 113Conv139 Convention 139

93

Page 113: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

OIT1-5 Quelles sont les recommandations implémentées par des conventions qui parlent de laconvention collective et de la négociation collective ?(x) : Att(x,Recom)∧Redl(y, implementer, x)∧Att(y, Conv)∧Att(y, convColl)∧Att(y, negoColl)Résultat attendu L’ensemble des documents de type recommandation qui sont la cible

par la relation d’implémentation d’au moins un document de type convention portantà la fois le descripteur convColl et le descripteur negoColl.

OIT1-6 Quelles conventions implémentent les recommandations qui parlent de bruit et vibra-tions ?(x) : Att(x,Conv)∧Rel(x, implementer, y)∧Att(y,Recom)∧Att(y, bruit)∧Att(y, vibration)

OIT1-7 Quelle recommandation, qui parle du benzène, est implémentée par la convention 139sur le cancer professionnel ?(x) : Att(x,Recom)∧Att(x, benzene)∧Rel(Conv139, implementer, x)∧Att(Conv139, cancerP )Résultat attendu L’ensemble des documents de type recommandation et portant le des-

cripteur benzene qui sont la cible par la relation d’implémentation d’au moins undocument de type convention portant le descripteur cancerP.

Autres propositions de requêtes qui sont plus génériques :

OIT2-1 Quelles sont les recommandations qui sont implémentées ?(x) : Att(x,Recom) ∧Rel(y, implementer, x)

OIT2-2 Quels sont les couples de conventions et de recommandations (en relation d’implémen-tation) ?(x, y) : Att(x,Conv) ∧Att(y,Recom) ∧Rel(x, implementer, y)

OIT2-3 Quels sont les couples de conventions et de recommandations (en relation d’implémen-tation) qui parlent de sujets différents ?

Analyse Cette requête ne peut être formalisée sans opérateur de négation.

OIT2-4 Quelles sont les conventions qui implémentent la même recommandation ?(y, z) : Att(x,Recom) ∧Rel(y, implementer, x) ∧Rel(z, implementer, x) avec y = z

Analyse On analyse cette requête comme une recherche de couples, parce qu’on est obligéde fixer la taille de la cible. On ne peut pas retrouver un ensemble de conventions detaille quelconque qui implémenteraient une même recommandation : il faut rechercherdes couples ou des triplets ou etc.

OIT2-5 Quelles sont les conventions qui implémentent la même recommandation et la recom-mandation qu’elles implémentent ?(y, z, x) : Att(x,Recom) ∧Rel(y, implementer, x) ∧Rel(z, implementer, x) avec y = z

Analyse Cette requête est interprétée comme une variante de la précédente. Il est difficilede préciser la taille de la cible dans les requêtes en langage naturel.

OIT2-6 Quelles sont les recommandations qui sont implémentées de deux manières différentes(c’est-à-dire par au moins deux conventions différentes) ?(x) : Att(x,Recom) ∧Rel(y, implementer, x) ∧Rel(z, implementer, x) avec y = z

OIT2-7 Existe-t-il des conventions qui implémentent deux recommandations différentes ?Att(x,Conv)∧Rel(x, implementer, y)∧Rel(x, implementer, z)∧Att(y,Recom)∧Att(z,Recom)avec y = z

94

Page 114: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

Légilocal

Les requêtes portant sur la collection Légilocal sont plus diverses du fait de l’hétérogénéitéde la collection de départ. Ces requêtes concernent des relations existant entre les arrêtés locaux,les textes législatifs et des décisions de jurisprudence relatives au droit français.

Un premier ensemble de requêtes a été recueilli auprès de Eve Paul 84.

Table 5.4 – Vocabulaire utilisé pour la formation de la collection Légilocal et des requêtesassociées

Types DescriptifsDécision décisionArretéComC Arrêté de la commune C (« ma commune »)Décret décretArrêté arrêtéArrêtéMun arrêté municipalArrêtCcass Arrêt de Cour de cassationArrêtCappel Arrêt de Cour d’appelTexteLégislatif Texte législatifCode CodeArticleCode Article de codeRelations Descriptifs (voir p. 87)appliquer un texte législatif en applique un autre

ou une décision applique une autre décision ou un texte législatifexprimer un document est exprimé par dans ses différentes versions∈ composerDescripteurs Equivalents terminologiquescheminR « chemins rural »véhiculeAMoteur « véhicule à moteur »Identifiants RéférentsCodeCV _Article1382 Article 1382 du Code CivilLoiMachin_ArticleX Article X de la Loi MachinArrêtCcassA Arrêté A de la Cour de CassationArrêtCappelX Arrêté X de la Cour d’appelDécretX Décret XCodeY _ArticleX Article X du code YDécisionD Décision D

L1-1 Quelles sont les décisions de jurisprudence qui citent l’article 1382 du code civil ?(x) : Att(x,Decision) ∧Rel(x, appliquer, CodeCV _Article1382)

Analyse Le terme générique « cite » est interprété ici comme une relation d’applicationdu fait du type des documents reliés et du fait que la décision est donnée commejurisprudentielle.

84. Juriste chez Victoires Éditions, partenaire du projet Légilocal.

95

Page 115: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

L1-2 Je voudrais tous les textes d’application de l’article X de la loi Machin.(x) : Rel(x, appliquer, LMachin_ArticleX)

L1-3 Je voudrais la décision qui fait l’objet de l’arrêt A de la Cour de cassation.(x) : Att(x,Decision) ∧Rel(ArretCcassA, statuer, x)

L1-4 Je voudrais les décisions qui ont fait l’objet d’un arrêt de la Cour de cassation.(x) : Att(x,Decision) ∧Rel(y, statuer, x) ∧Att(y,ArretCcass)

L1-5 Je voudrais savoir si l’arrêt X de la cour d’appel a fait l’objet d’un pourvoi en cassation.Rel(x, statuer,ArretCappelX) ∧Att(x,ArretCcass)

L1-6 Je voudrais savoir ce sur quoi portait l’arrêt X de la cour d’appel ?(x) : Rel(ArretCappelX , statuer, x))

L1-7 Je voudrais savoir si ma commune a pris un arrêté d’application du décret X.Att(x,Arret_ComC) ∧Rel(x, appliquer,Decret_X)

Pour compléter ces exemples, nous proposons les requêtes plus complexes suivantes :L2-1 Je cherche des arrêtés municipaux concernant les chemins ruraux qui ont fait l’objet d’un

recours et ont été annulés par une décision de jurisprudence.(x) : Att(x,ArreteMun) ∧Att(x, cheminR) ∧Rel(y, annuler, x)Remarque Le recours n’est pas modélisé en tant que tel. Comme la relation annuler est

une relation plus précise que statuer, seule la première est prise en compte dans laformalisation.

L2-2 Quels sont les textes législatifs sur lesquels s’appuient les décisions de jurisprudence quiont annulé des arrêtés municipaux concernant les chemins ruraux ?(x) : Att(x, texteLegislatif)∧Att(y,Decision)∧Rel(y, appliquer, x)∧Rel(y, annuler, z)∧Att(z,ArreteMun) ∧Att(z, cheminR)

L2-3 Y a-t-il des décisions de jurisprudence qui ont annulé un arrêté municipal concernant leschemins ruraux en s’appuyant sur l’article X du code Y ?Att(x,Decision) ∧Rel(x, annuler, y) ∧Att(y,ArreteMun) ∧Att(y, cheminR) ∧Rel(x, appliquer, CodeY _ArticleX)

L2-4 Quels sont les articles de code cités par les arrêtés municipaux parlant de chemins rurauxqui n’ont pas été annulés par une décision de jurisprudence ?(x) : Att(x,ArticleCode)∧Att(y,ArreteMun)∧Att(y, cheminR)∧Rel(y, appliquer, x)∧Rel(z, confirmer, y) ∧Att(z,Decision)Remarque En l’absence d’opérateur de négation, « ne pas être annulé » est interprété

comme « être confirmé », qui est plus fort.L2-5 Quels sont les articles de code cités par les arrêtés municipaux parlant de chemins ruraux

qui ont été annulés par une décision de jurisprudence ?(x) : Att(x,ArticleCode)∧Rel(y, appliquer, x)∧Att(y,ArreteMun)∧Att(y, cheminR)∧Rel(z, annuler, y) ∧Att(z,Decision)

L2-6 Quelles sont toutes les décisions antérieures à la décision D ?(x) : Att(x,Decision) ∧Rel(decisionD, statuer, x) (version 1)(x) : Att(x,Decision) ∧Rel(decisionD, statuer, y) ∧Rel(y, statuer, x) (version 2)Remarque En l’absence d’opérateur de disjonction, on doit fixer le degré d’antériorité des

décisions recherchées par rapport à la décision D (décisions immédiatement antérieuresdans la formalisation 1, décisions ayant donné lieu à deux décisions enchaînées dansla formalisation 2).

96

Page 116: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

L2-7 Je voudrais des exemples d’annulation d’arrêtés municipaux concernant les chemins rurauxpar des décisions de jurisprudence.(x, y)Att(x,ArreteMun) ∧Att(x, cheminR) ∧Att(y,Decision) ∧ (y, annuler, x)

L2-8 Je voudrais des arrêtés parlant de chemins et de véhicules à moteur avec tous les documentsvisés.(x, z) : Att(x,Arrete) ∧Att(x, cheminR) ∧Att(x, vehiculeMoteur) ∧ (x, y, z)

Exemples de requêtes portant sur l’historique des documents avec cible :

L3-1 Je voudrais savoir quel texte a codifié l’article L362-1 du code de l’environnement.(x) : Rel(x, codifier, CodeCE_ArticleL362−1)

L3-2 Je voudrais la dernière version (ou la version en vigueur) de l’article L362-1 du code del’environnement.(x) : Rel(x, exprimer, CodeCE_ArticleL362−1)

Remarque En l’absence de négation, on ne peut pas formaliser cette requête parce qu’ilfaudrait retrouver la version de l’article L262-1 du code de l’environnement qui n’apas été modifiée ou abrogée ; la formalisation proposée retourne toutes les version del’article L362-1 du code de l’environnement.

L3-3 Je voudrais savoir si des textes visés par l’arrêté municipal 97-17 de Champigné ont étémodifiés, et, si oui, quelles sont les nouvelles versions de ces textes.(x, z) : Rel(ArreteMunicipalChampigne97−17, appliquer, x)∧Rel(y, exprimer, x)∧Rel(z,modifier, y)

Remarque La formalisation de la requête doit fournir toutes les versions des textes citésayant fait l’objet de modifications associées aux textes qui les ont modifiés mais cesdernières ont pu elle-mêmes été modifiées.

L3-4 Je voudrais savoir si des textes visés par l’arrêté municipal 97-17 de Champigné ont étéabrogés, et le cas échéant, quels sont les nouveaux textes qui les ont remplacés.(y) : Rel(ArreteMunicipalChampigne97−17, appliquer, x)∧Rel(y, exprimer, x)∧Rel(z, abroger, y)

5.4.4 Jeu de requêtes types

A partir des exemples ci-dessus, on peut identifier des requêtes types qui méritent d’êtreprises en compte dans un système d’accès à l’information légale. Ces types varient selon quatreparamètres principaux :

– la complexité structurelle de la requête : requêtes simples ou requêtes relationnelles quivarient elles mêmes selon le nombre de relations, la réflexivité et présence de cycles ;

– l’utilisation des variables ou des identifiants pour désigner les documents, les relations, lestypes et les attributs ;

– la cible de requête ;– les contraintes.

Nous exprimons ci-dessous ces requêtes-types de manière formelle, indépendamment des collec-tions sur lesquelles elles peuvent être instanciées. Les descripteurs, types et variables utilisés sontlistés dans le tableau 5.5.

RT1-1 Requête sans prédicat relationnel et sans variableAtt(i1, t1) ∧Att(i1, d1)

97

Page 117: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

Table 5.5 – Vocabulaire utilisé dans le jeu de requêtes-types

Types t1, t2, t3, . . .Descripteurs d1, d2, d3, . . .

Relations r1, r2, r3, . . .Identifiants i1, i2, i3, . . .

Variables x, y, z, . . .

RT1-2 Requête sans prédicat relationnel avec document variableAtt(x, t1) ∧Att(x, d1)

RT1-3 Requête sans prédicat relationnel avec type variableAtt(i1, x) ∧Att(i1, d1)

RT1-4 Requête sans prédicat relationnel avec descripteur variableAtt(i1, t1) ∧Att(i1, x)

RT1-5 Requête sans prédicat relationnel avec variables et contrainteAtt(i1, t1) ∧Att(i1, x) ∧Att(i1, y) avec x = y

RT2-1 Requête avec prédicat relationnel et sans variableAtt(i1, t1) ∧Att(i1, d1) ∧Rel(i1, r1, i2)

RT2-2 Requête avec prédicat relationnel et document variableAtt(x, t1) ∧Att(x, d1) ∧Rel(x, r1, i2)

RT2-3 Requête avec prédicat relationnel et type variableAtt(i1, x) ∧Att(i1, d1) ∧Rel(i1, r1, i2)

RT2-4 Requête avec prédicat relationnel et descripteur variableAtt(i1, t1) ∧Att(i1, x) ∧Rel(i1, r1, i2)

RT2-5 Requête avec prédicat relationnel et variable de relationAtt(i1, t1) ∧Att(i1, d1) ∧Rel(i1, u, i2)

RT2-6 Requête avec prédicat relationnel, variables et contrainteRel(x, u, y) ∧Att(x,m) ∧Att(y, n) avec m = n

RT2-7 Requête avec prédicat relationnel reflexiveRel(x, u, x)

RT3-1 Requête avec chaînage et sans variableRel(i1, r1, i2) ∧Rel(i2, r2, i3)

RT3-2 Requête avec chaînage et variables de documents (avec et sans cible)Rel(x, r1, y) ∧Rel(y, r2, z)(x) : Rel(x, r1, y) ∧Rel(y, r2, z)(x, z) : Rel(x, r1, y) ∧Rel(y, r2, z)(x, y, z) : Rel(x, r1, y) ∧Rel(y, r2, z)

RT3-3 Requête avec chaînage et variables de relationsRel(i1, x, i2) ∧Rel(i2, y, i3)

98

Page 118: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

5.4. Interrogation des collections documentaires

RT3-4 Requête avec chaînage et variables de documents et de relationsRel(x, u, y) ∧Rel(y, v, z)

RT4-1 Requête en étoile et sans variableRel(i1, r1, i2) ∧Rel(i1, r2, i3)

RT4-2 Requête en étoile avec variables de documents (avec et sans cible)Rel(x, r1, y) ∧Rel(x, r2, z)(x) : Rel(x, r1, y) ∧Rel(x, r2, z)(x, z) : Rel(x, r1, y) ∧Rel(x, r2, z)(x, y, z) : Rel(x, r1, y) ∧Rel(x, r2, z)

RT4-3 Requête en étoile avec variables de relationsRel(i1, x, i2) ∧Rel(i1, y, i3)

RT4-4 Requête en étoile avec variables de documents et de relationsRel(x, u, y) ∧Rel(x, v, z)

RT5-1 Requête avec cycle et sans variableRel(i1, r1, i2) ∧Rel(i2, r2, i3) ∧Rel(i3, r3, i1)

RT5-2 Requête avec cycle et variables de documents (avec et sans cible)Rel(x, r1, y) ∧Rel(y, r2, z) ∧Rel(z, r3, x)(x) : Rel(x, r1, y) ∧Rel(y, r2, z) ∧Rel(z, r3, x)(x, z) : Rel(x, r1, y) ∧Rel(y, r2, z) ∧Rel(z, r3, x)(x, y, z) : Rel(x, r1, y) ∧Rel(y, r2, z) ∧Rel(z, r3, x)

RT5-3 Requête avec cycle et variables de relationsRel(i1, x, i2) ∧Rel(i2, y, i3) ∧Rel(i3, z, i1)

RT5-4 Requête avec cycle et variables de documents et de relationsRel(x, u, y) ∧Rel(y, v, z) ∧Rel(z, w, x)

5.4.5 Discussion

Le langage de requêtes ci-dessus permet de traiter l’intertextualité mais présente des limites.

Quantification Les requêtes en langage naturel impliquent des hypothèses de (non-)unicitéqui ne sont pas exprimables dans le langage proposé. Par exemple, les variantes de requêtessuivantes sont considérées comme équivalentes dans notre langage de requête, où les variables sontquantifiées de manière existentielle : « Quels sont les jugements qui confirment une/des/plusieursdécision(s) . . . ». Même si la quantification universelle permettrait d’exprimer des requêtes tellesque « Y a t-il un article de code cité par tous les arrêtés portant sur les routes rurales ? », nousavons choisi de ne pas l’inclure dans un premier temps, car elle est difficile à maîtriser pour lesutilisateurs et qu’elle n’apparaissait pas dans les requêtes recueillies.

Négation et disjonction Pour préserver la simplicité de la langue pour les utilisateurs,nous avons choisi de ne pas inclure la négation ou la disjonction des opérateurs dans la spé-cification du langage de requête, ce qui est une limitation en ce qui concerne les besoins despraticiens. Dans les exemples ci-dessus, deux formules différentes sont proposées pour la requêteL2-6, tandis que la traduction adéquate impliquerait un opérateur de disjonction :

99

Page 119: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 5. Interrogation d’un réseau sémantique de documents : application aux sources de droit

(x) :Att(x,Decision)∧(Rel(decisionD, statuer, x)∨(Rel(decisionD, statuer, y)∧Rel(y, statuer, x)))

pour prendre en compte différentes longueurs de chaînes de décision. Aussi, sans opérateur denégation, une requête comme « Quels sont les articles qui ne sont pas annulés ? » ne peut êtreformalisée que comme « Quels sont les articles qui ont été confirmés ? », qui est plus restrictive.

Cible de requête Il est souvent difficile d’identifier si une requête en langage naturel estciblée ou non. Même si on est habitué à avoir des listes de documents, nous nous attendons àce que les utilisateurs spécialisés apprécient un large éventail de types de réponses. Les graphesréponses donnent plus de contexte et peuvent être affinés grâce à une interface interactive. Ladifférence ne réside pas dans la mise en correspondance du graphe de la requête et de la collection,mais dans la présentation des résultats.

Opérateur de comptage Jusqu’à présent, nous n’avons recueilli aucune requête nécessi-tant un opérateur de comptage, mais ce point doit être étudié plus avant.

Topologie de graphe Nous n’avons mis aucune contrainte sur la taille des graphes derequêtes ni sur la présence de cycles. Même si les exemples ci-dessus de graphes de requêtes sontsimples, nous nous attendons à ce que les utilisateurs spécialisés entrent progressivement desrequêtes plus complexes.

5.5 Conclusion

Dans ce chapitre nous avons analysé les besoins des experts dans le domaine d’application denotre travail. Nous n’avons pas pu revenir auprès de nos juristes pour valider notre propositionet la complexité de la matière juridique nous inspire beaucoup de prudence mais la diversitésémantique des relations observée entre les documents juridiques convainc aisément de l’enjeuque représente la prise en compte de l’intertextualité dans ce domaine et l’intérêt de la traitersous forme de requêtes. Dans ce travail nous ne proposons pas de développer un outil de RI inter-textuelle mais plutôt de tester la faisabilité d’une approche qui tient compte de cette dimension.Nous montrons respectivement dans le chapitre 6 et le chapitre 7 comment l’AFC/ARC et lestechniques du web sémantique permettent de représenter une collection documentaire et les pos-sibilités d’interrogation que cela ouvre. Ces modèles documentaires sont exploités par des outilsde recherche et de navigation, ce qui permet, entre autres, de répondre aux requêtes relationnellesexposées dans ce chapitre.

100

Page 120: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6

RI et intertextualité : approcheconceptuelle

Sommaire6.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1016.2 Collection documentaire et choix de modélisation . . . . . . . . . . . 1026.3 Modélisation du contenu sémantique par l’AFC . . . . . . . . . . . . 103

6.3.1 Construction des treillis formels . . . . . . . . . . . . . . . . . . . . . . . 1046.3.2 Interprétation des structures conceptuelles . . . . . . . . . . . . . . . . . 105

6.4 Modélisation des liens intertextuels par l’ARC . . . . . . . . . . . . . 1076.4.1 Modèle de données . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1076.4.2 Construction des treillis relationnels . . . . . . . . . . . . . . . . . . . . 1086.4.3 Interprétation de la structure relationnelle . . . . . . . . . . . . . . . . . 1096.4.4 Modèle de la collection documentaire . . . . . . . . . . . . . . . . . . . . 111

6.5 Interrogation du modèle documentaire . . . . . . . . . . . . . . . . . 1116.5.1 Stratégie de recherche dans le modèle documentaire . . . . . . . . . . . 1126.5.2 Requêtes simples . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1136.5.3 Requêtes relationnelles . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1146.5.4 Déroulement sur un exemple . . . . . . . . . . . . . . . . . . . . . . . . 117

6.6 Navigation dans la structure conceptuelle . . . . . . . . . . . . . . . . 1196.6.1 Raffinement et expansion des résultats . . . . . . . . . . . . . . . . . . . 1206.6.2 Recherche par exemple de documents . . . . . . . . . . . . . . . . . . . 1236.6.3 Recherche de réponses approchées . . . . . . . . . . . . . . . . . . . . . 127

6.7 Algorithmes d’interrogation et de navigation . . . . . . . . . . . . . . 1296.8 Requêtes exprimables par le modèle . . . . . . . . . . . . . . . . . . . 1326.9 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 136

6.1 Introduction

Dans ce chapitre nous présentons une première approche pour la modélisation d’une col-lection documentaire. Ce modèle permet de représenter et d’interroger de manière unifiée lesdescripteurs de contenu des documents et les relations intertextuelles que ces derniers entre-tiennent. La méthode que nous proposons repose sur l’Analyse Formelle de Concepts (AFC) et

101

Page 121: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

l’Analyse Relationnelle de Concepts (ARC). Ce modèle documentaire est exploité à des fins derecherche (répondre à des requêtes qui portent sur les relations entre documents) et de navigationdans le graphe des documents. Nous utilisons ces techniques pour formaliser un processus de RIet de navigation qui exploite à la fois le contenu sémantique des documents et leurs relationsintertextuelles.

L’AFC avec son extension relationnelle, l’ARC, est une méthode de classification conceptuellequi, à partir d’un jeu de données décrit par des objets, des attributs et des relations, construit unestructure hiérarchique de concepts. Ces concepts représentent des ensembles d’objets groupés enfonction des attributs et relations qu’ils partagent. La structure ainsi construite sert alors d’espacede recherche et de navigation pour répondre aux besoins d’un utilisateur. Ces besoins peuventêtre exprimés par des requêtes simples ou relationnelles auxquels il faut retourner un ensemblede réponses. Exploiter la structure construite pour naviguer entre les groupes des documentssimilaires permet de satisfaire ces besoins d’une autre manière.

Nous montrons dans la suite comment l’AFC et l’ARC permettent de représenter une col-lection documentaire et les possibilités d’interrogation et de navigation que cela ouvre. Nousdéroulons les étapes de notre méthode sur un exemple réel de collection juridique : la collectionbruit (décrite dans la section 5.3.3). Dans la section 6.3, nous présentons la manière dont nousproposons de modéliser le contenu sémantique d’une collection documentaire sur l’exemple dé-taillé. Cette modélisation est étendue pour prendre en compte les liens intertextuels entre lesdocuments de la collection dans la section 6.4. Nous définissons deux types de requêtes pourinterroger la collection dans la section 6.5. Les différentes possibilités de navigation et de re-cherche de documents similaires sont décrites dans la section 6.6. L’algorithme de recherche etde navigation fait l’objet de la section 6.7. Nous étudions l’expressivité du modèle présenté etmontrons l’intérêt de cette modélisation pour la recherche d’information dans la section 6.8.

6.2 Collection documentaire et choix de modélisation

Sur la figure 6.1, nous présentons une collection de documents juridiques que nous proposonsde modéliser avec l’approche AFC/ARC. Cette collection est composée d’un ensemble de docu-ments de différents types (lois, décrets, arrêtés, jurisprudence) et de relations orientées (arrêtés→ décrets, décrets → lois, jurisprudence → lois et jurisprudence → jurisprudence). Notons iciqu’un lien peut être défini sur un même type de document (comme dans le cas de la relationentre jurisprudences sur la figure 6.1).

Figure 6.1 – Schéma d’un exemple de collection de documents juridiques.

Le contenu des documents est décrit par un ensemble de descripteurs sémantiques de contenurésultant d’un processus d’annotation sémantique au regard d’une ressource termino-ontologique.

102

Page 122: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.3. Modélisation du contenu sémantique par l’AFC

En nous appuyant sur cette représentation riche de la collection, nous nous proposons d’ex-ploiter les caractéristiques des documents dans cette collection pour créer un modèle qui articulela dimension sémantique et la dimension intertextuelle à des fins de recherche d’information.

Dans l’approche que nous présentons dans ce chapitre, nous avons fait un certain nombre dechoix de modélisation afin d’optimiser la représentation de la collection et d’en faciliter l’exploi-tation. Ces choix ont été faits sur la base des caractéristiques des collections juridiques (types desdocuments, relations orientées, etc.) et seront explicités dans les sections suivantes. Cependant,l’approche proposée reste générale et permet de traiter des données différentes de celles qui sontmanipulées dans le cadre de ce travail.

Nous montrons dans les sections suivantes comment l’AFC permet de construire une premièrestructure modélisant le contenu des documents, qui est ensuite enrichie par la prise en compte,avec l’ARC, d’informations sur les liens intertextuels entre ces documents.

6.3 Modélisation du contenu sémantique par l’AFC

Dans cette section nous montrons comment l’approche AFC est appliquée pour la formalisa-tion du contenu de notre collection documentaire. Les définitions des notions que nous utilisonsdans ce qui suit sont données dans le chapitre 4.

Le contenu des documents est d’abord modélisé sous la forme d’un contexte formel qui décritune relation binaire entre un ensemble d’objets et un ensemble d’attributs (objets× attributs).Les objets correspondent aux documents de notre collection juridique. Les attributs sont desdescripteurs sémantiques qui annotent le contenu de ces documents.

Nous définissons un contexte formel par type de document. Différents treillis correspondentdonc aux différents types de documents.

La division de la collection initiale en plusieurs contextes formels et respectivement plusieurstreillis présente l’avantage de réduire le coût de calcul d’un grand treillis. Cela donne aussi unevision plus proche de la réalité des collections juridiques généralement regroupées par types dedocuments.

Considérons la collection documentaire de la figure 6.1. Pour modéliser cette collection, nousconstruisons quatre contextes formels (documents × descripteurs sémantiques) pour les quatretypes de documents : arrêtés, décrets, lois et jurisprudence. L’ensemble des contextes formels quimodélisent cette collection est donné par la figure 6.2.

Reprenons cette modélisation en détail sur la collection BRUIT. Deux contextes formels(documents × descripteurs sémantiques) sont construits pour les deux types de documents :arrêtés d’un côté, décrets et lois de l’autre. Dans la suite, nous utilisons le terme « décrets »pour désigner l’ensemble de documents de types décrets et lois.

La formalisation du contenu des documents de type arrêtés est donnée par le contexte formelKarr = (A,S, Inc), où A est un ensemble de documents (Arrêté préfectoral Paris, Arrêté muni-cipal Strasbourg, etc.), S est un ensemble de descripteurs sémantiques du domaine (par exemplenuisance sonore) et Inc une relation binaire entre A et S appelée incidence de Karr et vérifiantles propriétés : Inc ⊆ A×S et (a, s) ∈ Inc ou (a Inc s) où a et s sont tels que a ∈ A et où s ∈ Ssignifie que le document a est caractérisé sémantiquement par le descripteur s. De la même fa-çon, la formalisation du contenu des documents de type décrets est donnée par le contexte formelKdec = (D,S′, Inc), où D est un ensemble de documents (Décret 95, Code Penal, Loi 1992, etc.),

103

Page 123: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Figure 6.2 – Ensemble de contextes correspondant à la collection juridique de la figure 6.1.

S′ est un ensemble de descripteurs sémantiques du domaine (par exemple activité bruyante,isolation phonique) et Inc une relation binaire entre D et S′ appelée incidence de Kdec.

Les contextes formels correspondant aux deux types de documents de notre collection juri-dique sont donnés dans la table 6.1 (arrêtés) et la table 6.2 (décrets).

Table 6.1 – Le contexte formel des arrêtés Karr.

Bru

itan

orm

alem

ent

gêna

nt(b

ag)

Nui

sanc

eso

nore

(ns)

Pol

luti

onac

oust

ique

(pa)

Sono

risa

tion

(son

)

Niv

eau

sono

re(n

vs)

Arrêté Paris (AP) x xArrêté Boulogne Billancourt (AB) x x x

Arrêté Yvelines (AY) x x xArrêté Strasbourg (AS) x x

6.3.1 Construction des treillis formels

Un concept formel dans la formalisation des documents de notre collection Karr est un en-semble de documents partageant un ensemble de descripteurs sémantiques.

104

Page 124: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.3. Modélisation du contenu sémantique par l’AFC

Table 6.2 – Le contexte formel des décrets Kdec.

Lut

teco

ntre

lebr

uit

(lcb

)

Tra

nqui

llité

duvo

isin

age

(tv)

Act

ivit

ébr

uyan

te(a

b)

Isol

atio

nph

oniq

ue(i

p)

Décret 95 (D95) x xCode Pénal (CPen) x x

Ordonnance 1945 (O45) x xLoi 1992 (L92) x x

La figure 6.3 montre le treillis de concepts Larr correspondant au contexte formel des arrêtésKarr donné par la table 6.1. La figure 6.4 montre le treillis de concepts Ldec construit à partirdu contexte formel des décrets Kdec donné par la table 6.2.

6.3.2 Interprétation des structures conceptuelles

Dans ces treillis, les documents sont structurés sous forme de concepts. Un concept représenteune classe de documents (l’extension) caractérisée ou décrite par un ensemble de descripteurs(l’intension). Pour plus de clarté nous notons dans la suite ai les concepts du treillis des arrêtésLarr et dj les concepts du treillis des décrets Ldec.

Par exemple, le concept a4 dans le treillis des arrêtés (figure 6.3) représente l’ensemble des do-cuments qui partagent les descripteurs bag (bruit anormalement gênant) et ns (nuisance sonore).Cela correspond dans notre exemple aux documents AB (arrêté de Boulogne) et AY (arrêtédes Yvelines). Le lien entre les concepts a3 et a4 peut être interprété comme un lien de géné-ralisation/spécialisation entre les classes représentées par ces concepts. Le concept a4 contientdans son extension l’ensemble des documents décrits par bag et ns, une description plus généraleque celle des documents contenus dans l’extension du concept a3 qui sont décrits par plus depropriétés à savoir bag, ns et son.

Les documents CPen (Code Penal) et L92 (loi 1992) sont tous les deux décrits par le des-cripteur sémantique ip (isolation phonique) dans le treillis des décrets (figure 6.4). Ces deuxdocuments sont classés dans le même concept d8 qui est donc la classe de documents juridiquespartageant la même propriété. Le concept d3 contient le seul document CPen, décrit par lesdeux propriétés ip et tv, puisqu’aucun autre document de la collection ne partage les mêmespropriétés. Le concept d3 est subsumé par le concept d8 qui est plus général.

Les treillis construits par l’AFC présentent les regroupements de documents correspondantà toutes les combinaisons possibles des attributs des documents. Dans le contexte de la RI, onpeut interpréter les intensions de concepts comme des requêtes (combinaison de descripteurs) etles extensions comme les documents satisfaisant ces requêtes. Construire le treillis revient doncà pré-calculer les réponses à toutes les requêtes satisfiables qui peuvent être posées sur cettecollection étant donné un ensemble S de descripteurs.

105

Page 125: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Figure 6.3 – Le treillis de concepts Larr correspondant au contexte formel des arrêtés Karr

Figure 6.4 – Le treillis de concepts Ldec correspondant au contexte formel des décrets Kdec

106

Page 126: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.4. Modélisation des liens intertextuels par l’ARC

6.4 Modélisation des liens intertextuels par l’ARC

La complexité des données juridiques tient en premier lieu à son facteur d’intertextualité(plusieurs liens entre les documents) et de la diversification des types de ces liens comme détaillédans le chapitre 2. Nous utilisons l’ARC, extension relationnelle de l’AFC, pour prendre encompte la dimension intertextuelle dans la modélisation de la collection documentaire 85.

6.4.1 Modèle de données

Les données d’entrée à l’ARC sont organisées comme une paire constituée d’un ensemblede contextes formels (objets × attributs), K = Kii=1,..,n et un ensemble de relations binaires(objets × objets) R = rkk=1,..,m. Une relation r ∈ R relie deux ensembles d’objets provenantde deux contextes, à savoir, il existe i1, i2 ∈ 1, .., n (éventuellement i1 = i2) de telle sorte quer ⊆ Oi1 ×Oi2 .

Les contextes de la figure 6.5 montrent un exemple de données en entrée pour la collectionde la figure 6.1. Les relations sont représentées séparément par des tables qui lient les objets decontextes formels, appelés contextes relationnels. Sur cette collection, quatre contextes relation-nels sont créés : fait référence (arrêtés → décrets), développe (décrets → lois), applique(jurisprudence → lois) et cite (jurisprudence → jurisprudence).

Figure 6.5 – Ensemble de contextes correspondant à la collection juridique de la figure 6.1.

Dans notre exemple, nous disposons de deux contextes binaires (documents × descripteurs-sémantiques) Karr et Kdec représentant respectivement l’ensemble des arrêtés et l’ensemble desdécrets. Nous définissons une relation r représentant un lien direct entre les deux contextes for-mels Karr et Kdec tel que domaine(r) = A (ensemble des objets du contexte Karr) et co −domaine(r) = D (ensemble des objets du contexte Kdec). Cette relation décrit le lien fait-référence qui part des arrêtés vers les décrets. Elle est représentée séparément dans un contexte re-lationnel. La relation de référence est représentée par les couples {(AP,D95), (AB,L92), (AY,CPen)et (AS,O45)} sur la table 6.3.

L’ensemble de contextes résultants forme une Famille de Contextes Relationnels, FCR =(K,R) où

85. L’ARC permet de modéliser deux types de relations : relations entre objets et relations entre attributs(propriétés). Nous nous focalisons dans ce travail sur l’étude du premier type, qui exprime les relations quiexistent entre nos documents.

107

Page 127: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Table 6.3 – Relation : fait_référence

D95 CPen O45 L92AP ×AB ×AY ×AS ×

– K est un ensemble des contextes formels qui contient deux éléments Karr et Kdec,– R est un ensemble de contextes relationnels qui contient un seul élément rarr−dec ⊆ A×D,

où A , domaine de la relation rarr−dec, est l’ensemble des arrêtés (objets du contexte Karr)et D, co-domaine de rarr−dec, est l’ensemble des décrets (objets du contexte Kdec).

Cette famille constitue le point de départ du processus de formation des structures conceptuellescorrespondantes appelées Famille de Treillis Relationnels (FTR) [Rouane et al., 2007].

6.4.2 Construction des treillis relationnels

L’approche ARC construit, à partir du contexte source d’une relation, un treillis uniqueunifiant les informations provenant des contextes formels initiaux (documents × descripteurs-sémantiques) et du contexte relationnel (documents × documents). Le mécanisme du scalingrelationnel (détaillé dans la section 4.2.3) d’un contexte avec une relation permet d’intégrer cetterelation dans le contexte sous la forme d’attributs d’objets et de calculer le treillis résultant aprèscet enrichissement. Dans la suite de ce travail nous utilisons le codage existentiel 86.

Le processus consiste à construire d’abord les treillis initiaux à partir des contextes formels.Ensuite, dans les étapes suivantes, le mécanisme d’enrichissement (codage) relationnel traduitles liens entre les objets en attributs classiques de l’AFC et produit un ensemble de treillis dontles concepts sont liés par les relations décrites par les contextes relationnels. Ces étapes sontrépétées jusqu’à atteindre un point de stabilité des treillis (lorsque aucun nouveau concept n’estproduit).

Dans notre exemple, le treillis des arrêtés est enrichi par l’information sur les relations de sesobjets vers les objets du treillis des décrets. Le processus comporte plusieurs étapes.

1. La première consiste à construire les treillis de concepts initiaux correspondant aux contextesformels Karr et Kdec, Larr et Ldec.

2. La deuxième étape enrichit le contexte des arrêtés à partir du treillis des décrets obtenuLdec et de la relation fait-référence. L’étape d’enrichissement du contexte Karr consiste àajouter les relations vers les concepts du treillis des décrets Ldec comme nouveaux attributsdans le contexte des arrêtés. L’ajout d’un attribut au contexte Karr est effectué lorsqu’undocument de ce contexte (un arrêté) est en relation avec au moins un document dans l’ex-tension du concept considéré dans Ldec.

86. car dans le cas où r(o), l’image par r de o dans Oi (les objets dans Oj qui sont en relation avec un objeto dans Oi ) n’ont aucun attribut commun, aucun attribut relationnel ne sera ajouté à o. Ce qui résulte en unesituation tout ou rien : ou bien un attribut relationnel pour tous les objets en relation ou bien aucune relation,ce qui fait perdre les relations vers les objets qui sont dans des concepts séparés.

108

Page 128: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.4. Modélisation des liens intertextuels par l’ARC

Suite à cette étape, le contexte des arrêtés est modifié comme le montre la table 6.4 :K1

arr = K0arr +K∆

arr.

Table 6.4 – Le contexte formel des arrêtés K1arr à l’itération 1 du processus d’enrichissement

relationnel (dans les attributs rf : ci, les ci correspondent aux concepts du treillis des décrets).

bag

ns pa son

nvs

rf:c

0

rf:c

2

rf:c

3

rf:c

4

rf:c

5

rf:c

6

rf:c

7

rf:c

8

rf:c

9

AP x x x x x xAB x x x x x x xAY x x x x x x xAS x x x x x x

3. À la troisième étape, un nouveau treillis des arrêtés est construit à partir du contexte K1arr

enrichi de l’étape 2 de la première itération.Le processus poursuit en itérant les étapes 2 et 3, et s’arrête lorsqu’aucune nouvelle relationne peut être déduite à partir du treillis obtenu à l’étape précédente. Dans notre exemple,le treillis des décrets Ldec, qui sert à enrichir le treillis des arrêtés, reste inchangé au coursdu processus après sa première construction, donc le processus itératif s’arrête après lapremière itération.

Le déroulement de l’algorithme 1 (algorithme de l’ARC) sur notre exemple est donné par lesétapes suivantes :

1. Entrée : FCR = (Karr;Kdec; rarr−dec) : contexte formel des arrêtés, contexte formel desdécrets, une relation fait-référence représentée par un contexte relationnel ;

2. Étape d’initialisation Construire L0arr le treillis de concepts du contexte K0arr, et Ldec le

treillis de concepts du contexte Kdec ;3. Étape d’enrichissement

– Calculer l’extension relationnelle K∆arr du contexte K0

arr avec l’unique relation rarr−dec

et en utilisant Cdec qui contient tous les concepts du treillis Ldec ;– Créer le contexte étendu K1

arr par la fusion de cette extension K∆arr avec K0

arr ;– Construire le treillis L+arr du contexte K1

arr enrichi ;– Critère d’arrêt : pas de nouveaux concepts qui s’ajoutent lors d’une itération d’enrichis-

sement.4. Sortie Retourner le treillis final enrichi L+arr.

Le treillis obtenu pour l’exemple de la famille de contextes relationnels décrite par les tables 6.1,6.2 et 6.3 est donné dans la figure 6.6.

6.4.3 Interprétation de la structure relationnelle

Le treillis L+arr de la figure 6.6 est obtenu en intégrant au treillis initial de la figure 6.3l’information sur les relations que les arrêtés entretiennent avec les décrets.

Si on compare ces deux treillis, la plupart des concepts ont une extension inchangée mais leurintension est enrichie d’attributs relationnels. C’est le cas par exemple du concept a4 qui a la

109

Page 129: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Figure 6.6 – Treillis relationnel L+arr résultant de l’enrichissement relationnel entre les objetsdu contexte des arrêtés et du contexte des décrets.

110

Page 130: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.5. Interrogation du modèle documentaire

même extension E = {ABoulogne,AY velines} dans les deux treillis mais dont l’intension finalecombine les descripteurs de contenu de départ {bag, ns} avec deux descripteurs relationnels{ref : c2, ref : c8}. La relation fait-référence est traduite (par enrichissement relationnel) enattributs relationnels ajoutés à l’intension de ce concept. Ceci indique que le nouveau concepta4 est lié à deux autres concepts formels, d2 et d8. Ces deux derniers correspondent à des classesde décrets dans le treillis Ldec.

6.4.4 Modèle de la collection documentaire

Modélisée à l’aide de l’analyse formelle et relationnelle de concepts, la collection documentaireest représentée par un ensemble de classes de documents qui sont caractérisées à la fois par desdescripteurs de contenus et par les relations que les documents entretiennent les uns avec lesautres. Formellement, la collection documentaire est représentée par une famille de treillis deconcepts relationnels, dont les extensions sont des classes de documents et les intensions sont desconjonctions d’attributs qui sont des descripteurs de contenu et/ou des relations vers d’autresclasses de documents.

Dans le cas des contextes des arrêtés et des décrets, l’ajout des attributs relationnels s’inter-prète comme l’introduction de relations entre différentes classes de documents. L’interprétationde certains concepts du treillis L+arr permet de déduire des relations entre les classes des ar-rêtés et celui des décrets. Par exemple, la classe a4 des arrêtés est ainsi liée aux classes dedécrets d2 et d8. La classe des arrêtés qui parlent de nuisances sonores et de bruits anormale-ment gênants ({ABoulogne,AY velines}) est liée à la classe de décrets sur l’isolation phonique({CPenal, L92}).

L’introduction des relations fait aussi apparaître de nouveaux concepts. Ceci est dû au faitque l’enrichissement existentiel (que nous utilisons dans ce travail) fait correspondre à un arrêtéai en relation avec un décret di des attributs relationnels associés à des concepts (dans le treillisdes décrets) qui regroupent di avec d’autres décrets conduisant ainsi à la formation de nouveauxregroupements dans le treillis des arrêtés après enrichissement relationnel. Sur l’exemple présenté,c’est le cas du concept a10 qui apparaît dans le treillis L+arr de la figure 6.6 mais qui n’était pasdans le treillis initial Larr. Le concept a10 regroupe les arrêtés qui font référence à au moins undécret (ou loi) sur la lutte contre le bruit (lcb) (ces décrets et lois sont regroupés dans le conceptd7). L’information relationnelle a donc conduit à créer un nouveau regroupement intermédiaire({ABoulogne,AParis}) entre ceux des concepts a2 ({ABoulogne,AParis, AY velines}) et a0({AParis}) du treillis initial.

6.5 Interrogation du modèle documentaire

Comme montré dans l’état de l’art, un treillis de concepts représente un moyen efficace denavigation et d’interrogation dans le contexte qui lui correspond, et donc dans la base documen-taire qu’il représente. Le treillis relationnel ajoute une nouvelle dimension en introduisant desrelations inter-concepts induites à partir des liens inter-objets [Rouane et al., 2007].

La famille de treillis relationnels que nous obtenons suite au processus d’enrichissement re-lationnel représente ainsi une structure riche qui permet de prendre en compte l’intertextualitédans la recherche d’information.

Cette structure nous permet, dans une perspective de RI, de sélectionner une classe (ougroupe) de documents qui sont pertinents par rapport à une requête décrite par des descripteursde contenu et/ou par des liens vers d’autres documents. Deux types de requêtes peuvent êtreexprimées : les requêtes simples et les requêtes relationnelles. Dans ce qui suit nous donnons les

111

Page 131: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

définitions de ces deux types de requêtes et nous présentons l’approche générale de recherchedans un treillis de concepts ou dans une famille de treillis relationnels.

6.5.1 Stratégie de recherche dans le modèle documentaire

Le principe général de l’interrogation du treillis de concepts représentant les documents de lacollection est similaire à celui des méthodes introduites dans la section 4.3 dans la mesure où unobjet représentant la requête doit être positionné dans le treillis puis le concept correspondantest identifié pour construire la réponse. Cette méthode est étendue au cas des treillis relationnelsoù la requête concerne deux ou plusieurs treillis avec des relations entre leurs concepts.

Une fois que le treillis de concepts ou la famille de treillis relationnels est construit à partirdes documents de la collection, la stratégie de recherche de documents pertinents consiste àappliquer la suite des étapes suivantes :

1. Définition d’une requête simple ou relationnelle : il s’agit de donner les ensembles de des-cripteurs sémantiques et/ou relationnels des documents recherchés. Autrement dit, il s’agitde donner les attributs qui reflètent les propriétés des documents à identifier. Une requêtese présente sous la forme d’un ensemble d’attributs formels et/ou relationnels.

2. Insertion de la requête dans le(s) treillis de concepts/relationnels :Dans le cas de requêtes simples (sur un seul treillis) cette étape est facilitée par l’existenced’algorithmes performants pour la construction incrémentale des treillis de concepts (sec-tion 4.2.2). Disposant initialement du treillis de concepts construit à partir des documentsde la collection et d’une requête qui consiste en un ensemble de descripteurs de contenu(les attributs), la construction incrémentale se fait par ajout d’objet en considérant quela requête correspond à un objet fictif qui possède tous les attributs indiqués. La requêteest donc présentée sous la forme d’un couple (objet, attributs) qui peut être inséré dans letreillis de concepts.Dans le cas de requêtes relationnelles (sur une FTR), il n’existe pas d’algorithmes pour laconstruction incrémentale d’une FTR. Disposant initialement d’une FCR représentant lesdocuments de la collection et les liens qui existent entre eux, et d’une requête décrite parun ensemble de descripteurs de contenus (attributs formels) et de descripteurs de relations(attributs relationnels), l’insertion de la requête dans les treillis relationnels peut être faitedès le début dans les contextes de la FCR qui sont modifiés pour prendre en compte larequête. Les contextes formels sont modifiés par ajout d’objets (possédant les attributsformels de la requête) ce qui correspond au traitement d’une requête simple par contexteformel. Les contextes relationnels sont modifiés par ajout d’une relation entre les objets(des requêtes simples) ajoutés dans les contextes formels. La requête relationnelle est ainsiprésentée sous la forme d’un graphe de couples (objets, attributs) liés par des relations(objets, objets) qui peut être inséré dans la FTR.

3. Localisation de la requête dans le(s) treillis de concepts obtenu(s) : cette étape consiste àlocaliser, dans le(s) treillis de concepts modifié(s) (suite à l’insertion de la requête simpleou relationnelle), le concept le plus général incorporant toutes les propriétés de la requête.La recherche d’un tel concept est facilitée par l’identification, dans l’ensemble des concepts,de ceux qui contiennent les objets fictifs de la requête. Le concept représentant la requêtedans le treillis est le concept qui vérifie les deux conditions suivantes : (1) il contient lesattributs de la requête dans son intension et (2) il n’a pas de super-concept qui vérifie lacondition (1).

112

Page 132: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.5. Interrogation du modèle documentaire

4. Présentation de la réponse sous la forme d’un ensemble de documents (ou graphes dedocuments) pertinents pour la requête.

La stratégie de recherche de réponse pertinente à une requête commence par la définitionde la requête à passer en entrée à un algorithme d’interrogation de la structure conceptuellepour retourner l’ensemble des résultats. La formalisation des requêtes simples et relationnellesest donnée dans ce qui suit (la description formelle de l’algorithme fait l’objet de la section 6.7).

6.5.2 Requêtes simples

Une requête simple est traditionnellement interprétée comme une combinaison d’attributs.Une requête simple est satisfiable s’il existe un concept dans le treillis formel interrogé dontl’intension correspond à cet ensemble d’attributs et dont l’extension n’est pas vide. La réponseà la requête est l’ensemble des documents qui composent l’extension de ce concept formel.

Nous rappelons dans ce qui suit la définition de requête simple pour l’interrogation de treillisde concepts [Messai et al., 2005]. Nous gardons cette définition pour l’interrogation de notrestructure relationnelle.

Définition 21 (Requête simple) Une requête simple sur un treillis de concepts L correspon-dant à un contexte formel K = (O,A, Inc) est un concept requête Qs = (QE , QI), avec

– l’extension, QE, contient un unique objet virtuel Qvo, qui représente l’objet cible de larequête (supposé satisfaire les attributs de la requête Q′

E = QI),– l’intension, QI , contient un ensemble d’attributs ai de la requête (QI = {a1, a2, .., ai} ⊆ A)

décrivant les objets à chercher.

Dans la définition 21, la requête se présente sous la forme d’un couple comme motivé ensection 6.5.1. Cette forme facilite l’insertion de la requête dans le treillis de concepts en utilisantun algorithme de construction incrémentale de treillis de concepts. Une telle insertion peut êtreconsidérée comme l’ajout d’une nouvelle entrée (un nouvel objet et ses attributs) dans le contexteformel considéré comme décrit dans la définition ci-dessous [Messai et al., 2005].

Définition 22 (⊕) Pour un contexte formel K = (O,A, Inc) et une requête Qs = (QE , QI),nous définissons l’opérateur d’addition ⊕ comme suit :

KQ = K ⊕Qs

= (O,A, Inc)⊕ (QE , QI)

= (O ∪QE , A ∪QI , IncQ)

= (OQ, AQ, IncQ)

L’utilisation de A∪QI couvre le cas où la requête est définie avec des descripteurs de contenuqui ne sont pas forcément dans l’ensemble initial A. L’utilisation de ces attributs est possible enayant recours au raffinement de requête en utilisant une ressource sémantique [Messai et al., 2006]ce qui permet de répondre à des requêtes plus riches sémantiquement (nous n’étudions pas cecas dans le cadre de ce travail). La relation IncQ désigne la relation Inc à laquelle s’ajoute larelation entre QE et QI .

L’insertion de la requête Qs = (QE , QI) dans le treillis de concepts L produit un nouveautreillis LQ. Le concept représentant la requête dans LQ est le concept formel CQ = (Q′

I , QI) avecQ′

I est l’ensemble de tous les objets qui possèdent les attributs QI . Différents cas se présententpour le concept CQ dans le treillis LQ :

113

Page 133: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

– S’il n’existe pas de concept dans le treillis qui contienne tous les attributs de la requête,alors l’ajout de la nouvelle entrée dans le contexte formel produit un nouveau conceptCQ = (Q′

I , QI) avec Q′I = QE et transforme les concepts qui contiennent une partie de

ces attributs en ajoutant dans leurs extensions l’objet de la requête Qvo (ces concepts vontparaître comme super-concepts de CQ dans le treillis LQ).

– S’il existe un concept C = (A,B) qui contient tous les attributs de la requête alors deuxcas sont possibles :– Si le concept du treillis contient les attributs de la requête avec d’autres attributs c.à.dQI ⊂ B, alors l’insertion crée un nouveau concept CQ = (Q′

I , QI) avec Q′I = A ∪ Qvo

et transforme les concepts qui contiennent une partie de ces attributs en ajoutant dansleurs extensions l’objet de la requête Qvo.

– Si le concept du treillis possède exactement les attributs de la requête c.à.d QI = B, alorsl’insertion ne produit pas de nouveau concept. Le concept C = (A,B) est transformé enCQ = (Q′

I , B) avec Q′I = A∪Qvo et de même les concepts qui contiennent une partie de

ces attributs sont transformés en ajoutant dans leurs extensions l’objet de la requête Qvo.

Répondre à cette requête consiste à trouver tous les objets qui sont pertinents par rapport à larequête. Une réponse pertinente par rapport à la requête Qs = (QE , QI) est contenue dans l’ex-tension du concept CQ = (Q′

I , QI). Tous les objets dans Q′I sont pertinents pour Qs = (QE , QI)

puisqu’ils partagent tous les attributs de la requête (l’ensemble QI). Si l’extension Q′I = Qvo,

c.à.d qu’après insertion dans le treillis, l’extension du concept CQ ne contient que l’objet requêteQvo, alors aucun objet ne possède les mêmes attributs que la requête. Ceci signifie que la requêtene possède pas de réponse exacte.

Des réponses approchées sont néanmoins possibles. Elles sont contenues dans les super-concepts de CQ. Les super-concepts de CQ contiennent dans leurs extensions des objets quipossèdent au moins un attribut de la requête (par définition de la relation d’ordre entre lesconcepts dans le treillis de concepts). Ce cas de réponses approchées sera développé lors de laprésentation de la navigation dans le treillis dans la section 6.6.

6.5.3 Requêtes relationnelles

Les besoins des experts peuvent aussi être exprimés, en plus des descripteurs sémantiques decontenu, par des descripteurs de liens entre les documents : c’est le cas de requêtes relationnelles.Une requête relationnelle se représente alors comme un ensemble de requêtes simples (portantchacune sur le contenu d’un document) et un ensemble de relations entre les requêtes simples.Nous schématisons une requête relationnelle par un graphe où les noeuds sont les documents(objets), décrits par leurs descripteurs (attributs) et les arcs sont les différents types de relationsspécifiés par la requête.

Nous donnons dans ce qui suit la définition d’une requête relationnelle qui s’apparente de celleproposée dans [Azmeh et al., 2011b] même si nous formalisons les choses un peu différemment.

Définition 23 (Requête relationnelle) Étant donné une famille de contextes relationnels,FCR = (K,R), composée d’un ensemble de contextes formels K et d’un ensemble de relations R,une requête relationnelle sur une famille de treillis relationnels (FTR) correspondant à la FCRest un graphe dont les noeuds sont des concepts et les arcs sont des relations entre les concepts.Elle est désignée par Qr = (C,R) avec :

114

Page 134: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.5. Interrogation du modèle documentaire

– C est l’ensemble de concepts Qs,i correspondant aux sous-requêtes simples de Qr, telles queQs,i = (QE,i, QI,i) et QE,i = {Qvo,i}

– R est l’ensemble des contraintes relationnelles entre les objets virtuels de C. ∀Rk ∈ R, ∃relk ∈R, ∃i, j | Rk = relk(Qvo,i, oQ,j) tel que oQ,j ∈ OQ,j ∪ {Qvo,j} , Qvo,i et Qvo,j ∈ QE,i.

Dans la définition 23, la requête Qr se présente sous la forme d’un graphe. Les noeuds dugraphe correspondent aux sous-requêtes simples représentées par des concepts requêtes simplesQs,i = (QE,i, QI,i), une par contexte formel (dans lequel nous souhaitons trouver un objet).Les arcs du graphe sont les relations qui peuvent exister entre les contextes qui expriment lescontraintes relationnelles ajoutées aux requêtes simples. Les contraintes relationnelles sont ex-primées par des relations Rk entre les objets virtuels Qvo,i des sous-requêtes simples. Un objetvirtuel Qvo,i peut avoir des relations (selon les contextes relationnels) avec un objet oj ∈ Oj d’uncontexte formel Kj = (O,A, Inc) ou avec un autre objet virtuel Qvo,j d’une requête simple.

Par définition, le graphe de la requête suit le schéma des données en entrée. Prenons unexemple d’une collection avec quatre types de documents (D1, D2, D3, D4) reliés entre eux partrois relations de la façon suivante : ⟨D1→R1 D3⟩, ⟨D2→R2 D3⟩, ⟨D3→R3 D4⟩.

Nous pouvons définir un graphe requête relationnelle sur cette collection comme le montre lafigure 6.7. Les noeuds de ce graphe correspondent aux sous-requêtes simples chacune relative àun contexte formel et les arcs sont les relations entre ces documents.

Figure 6.7 – Correspondance entre le schéma des données (documents dans la collection) et legraphe de la requête relationnelle

L’insertion de la requête dans la FTR est considérée comme l’ajout d’une nouvelle entrée danschaque contexte formel de la FCR (un nouvel objet et ses attributs) impliqué dans la requêteet d’une nouvelle relation dans chaque contexte relationnel de la FCR (une relation entre deuxobjets) impliqué dans la requête [Azmeh et al., 2011b].

115

Page 135: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Définition 24 (⊕R) Pour une famille de contextes relationnels FCR = (K,R) et une requêterelationnelle Qr = (C,R), nous définissons l’opérateur d’addition ⊕R en s’appuyant sur la défi-nition ⊕ (Définition 22) comme suit :

(KQ,RQ) = (K,R)⊕RQr

= ({K ⊕ C ∀K ∈ K}, {rk ⊕R ∀rk ∈ R})

Dans la définition précédente :– l’ajout de nouvelles entrées correspondant aux objets virtuels des concepts sous-requêtes

simples C dans les contextes formels de K impliqués par la requête Qr se fait commeexpliqué dans la section 6.5.2 pour les requêtes simples ;

– l’ajout de nouveaux liens correspondant aux contraintes relationnellesRk dans les contextesrelationnels de R impliqués par la requête Qr consiste à ajouter dans chaque contexte unlien relk entre un objet virtuel (de C) et un autre objet virtuel, Rk = relk(Qvo,i, Qvo,j), ouentre un objet virtuel (de C) et un objet d’un contexte formel, Rk = relk(Qvo,i, oj).

Une nouvelle FTR est produite à partir de la FCR (KQ,RQ). Les treillis relationnels de laFTR L+Q sont modifiés après insertion de la requête. Cela s’explique par le même raisonnementdécrit pour les requêtes simples dans la section 6.5.2 en considérant que l’ensemble des attributspeut contenir des attributs formels et aussi relationnels. Les différents cas qui se présentent pourle concept CQ d’une requête simple dans le treillis LQ sont aussi valables dans le cas d’un conceptqui contient un objet virtuel requête, un ensemble d’attributs formels et relationnels.

Répondre à cette requête consiste à trouver tous les objets qui sont pertinents par rapportà cette requête, c’est-à-dire qui répondent aux sous-requêtes simples et vérifient les contraintesrelationnelles. Une réponse pertinente à la requêteQr = (C,R) = (Qs,i,R) = ((QE,i, QI,i),R) estcontenue dans les réponses des requêtes simples Qs,i. Puisque Qs,i sont insérés dans leurs treilliscorrespondant comme décrit dans la section 6.5.2, les réponses à ces requêtes sont incluses dansl’extension des concepts qui contiennent les objets Qvo,i. Et la réponse à la requête Qr est donnéepar le graphe qui lie les objets réponses aux requêtes simples par les relations de R.

Définition 25 (Réponse à une requête relationnelle) Une réponse à une requête relation-nelle Qr = (C,R) est un graphe G dont les noeuds sont des objets et les arcs sont des relationsentre ces objets. Il est désigné par G = (OG,RG) avec :

– OG est l’ensemble d’objets des contextes Ki impliqués dans la requête (au moins un objetpar contexte) : ∀Qvo,i ∈ QE,i, ∃oi ∈ OG ;

– les noeuds du graphe sont décrits par les attributs de la requête : ∀oi ∈ OG, o′i ⊂ QI,i ;

– les noeuds du graphe sont reliés par les relations de la requête : ∀Rk ∈ RG, ∃relk, ∃i, j |Rk = relk(oi, oj).

Si l’extension des concepts qui contiennent les objets Qvo,i est vide, c.à.d qu’après insertiondans les treillis, l’extension ne contient que l’objet requête Qvo,i, alors pour le treillis correspon-dant au contexte Ki aucun objet ne possède les même attributs de la sous-requête. Ceci signifieque la requête ne possède pas de réponse exacte. Des réponses approchées peuvent être calculéeset retournées. Ce cas sera développé lors de la présentation de la navigation dans la structureconceptuelle dans la section 6.6.

116

Page 136: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.5. Interrogation du modèle documentaire

6.5.4 Déroulement sur un exemple

Reprenons l’exemple de la collection documentaire des arrêtés et des décrets représentée parles treillis Larr et Ldec. On peut considérer que le treillis initial (des arrêtés ou des décrets) repré-sente l’ensemble des requêtes simples (ou combinaisons de descripteurs) qui peuvent être faitessur la collection documentaire et qui sont satisfiables, c’est-à-dire qui permettent de retournerdes documents (toutes les combinaisons de descripteurs associées à une extension non nulle). Si larequête correspond à l’intension d’un concept qui a une extension, ce sont les documents de cetteextension qui sont retournés en réponse à la requête ; si la requête correspond à une intensionsans extension propre, on peut proposer des spécialisations ou au contraire généralisations de larequête (détails dans les sections suivantes).

Le treillis L+arr représente le résultat de l’enrichissement relationnel de Larr par la rela-tion fait-référence. Les extensions des concepts de Larr contiennent, en plus des descripteurs decontenu, des descripteurs de liens. Notons que tous les concepts formels du treillis initial Larrsont conservés dans le treillis résultant après enrichissement relationnel L+arr. Ceci implique quetoutes les requêtes satisfiables sur le treillis initial le restent sur le treillis final. On peut répondreà davantage de requêtes puisqu’il y a plus de concepts avec une extension propre dans le treillis(l’information relationnelle affine la catégorisation de l’ensemble des documents).

Exemple de requête simple

Considérons la requête suivante sur la collection des décrets :"Quels sont les décrets qui parlent d’activités bruyantes (ab) ?".

Le mot clé activités bruyantes (ab) est considéré comme un descripteur sémantique annotantles documents de type décrets. Un concept requête simple Qdec

s = (QdecE , Qdec

I ) est créé tel que :– Qdec

E = Qdvo, l’objet virtuel de la requête (extension),

– QdecI = {ab}, l’ensemble des attributs de la requête contenant un seul élément ab (inten-

sion).

Une telle requête est traitée en insérant le concept Qdecs dans le treillis des décrets LQ,dec

comme le montre la figure 6.9. Qdvo apparaît dans l’extension d’un concept qui existe déjà, donc

l’insertion ne produit pas de nouveaux concepts dans le treillis Ldec.

La réponse à la requête se trouve dans le concept le plus spécifique contenant l’objet Qdvo (qui

correspond au concept le plus général qui contient tous les attributs de Qdvo dans le treillis), soit

le concept c. Si c ne contient que Qdvo dans son extension, la requête initiale n’est pas satisfiable

et aucun document n’est retourné. Si d’autres documents appartiennent à l’extension de c avecQd

vo, la requête est satisfiable et ces documents sont retournés.

L’algorithme d’interrogation localise l’objet Qdvo dans le treillis LQ,dec, la réponse est donnée

par le concept d4 qui a dans son extension Qdvo avec d’autres documents, O45 et D95, qui sont

retournés comme réponses pertinentes.

Exemple de requête relationnelle

Considérons l’exemple suivant de requête relationnelle sur la collection des décrets et desarrêtés :"Quels sont les arrêtés qui parlent de niveau sonore (nvs) et qui font référence (rf) aux décrets

117

Page 137: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Figure 6.8 – Requête simple Qdecs sur le treillis des décrets LQ,dec.

sur les activités bruyantes (ab) ?".

Le mot clé niveau sonore (nvs) est considéré comme un descripteur sémantique annotant lesdocument qui sont de type arrêtés. Le mot clé activités bruyantes (ab) est le descripteur séman-tique annotant les documents de type décrets. Le lien entre ces deux types de documents dansla requête est donné par la relation fait référence (rf).

La requête relationnelle est représentée par Qr = (C,R) tel que :Sous-requêtes simples C = { Qs,arr,Qs,dec }

= { (QE,arr, QI,arr), (QE,dec, QI,dec) }= { ({Qa

vo}, {nvs}), ({Qdvo}, {ab}) }

= { (Qavo, nvs), (Q

dvo, ab) }.

Contrainte relationnelle R = { Rk }= { relk(Qvo,i, Qvo,j) }= { rfarr−dec(Q

avo, Q

dvo) }.

La requête relationnelle correspond à un graphe qui contient deux noeuds et un arc. Le pre-mier noeud du graphe correspond au concept requête simple Qs,arr, qui représente la requête"arrêtés parlant de niveau sonore", sur le treillis des arrêtés après enrichissement relationnelL+arr. Le deuxième noeud du graphe correspond au concept requête simple Qs,dec, qui représentela requête "décrets parlant d’activités bruyantes", sur le treillis de décrets Ldec. L’arc du graphecorrespond à la relation rfarr−dec entre les objets virtuels Qa

vo et Qdvo des deux concepts requêtes

simples.

Une telle requête est traitée en l’insérant dans la FTR (L+arr, Ldec) comme suit :

118

Page 138: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.6. Navigation dans la structure conceptuelle

– ajouter une nouvelle entrée dans les deux contextes formels Karr et Kdec pour les objetsQa

vo et Qdvo avec leurs attributs ;

– ajouter dans le contexte relationnel fait référence (rf) une relation entre l’objet virtuel Qavo

(dans une nouvelle ligne) et l’objet virtuel Qdvo (dans une nouvelle colonne).

L’algorithme construit ensuite la nouvelle FTR après insertion de la requête et le résultatest donné par la figure 6.9. Qa

vo et Qdvo apparaissent dans les extensions de deux concepts qui

existent déjà dans L+arr et dans Ldec et donc l’insertion ne génère pas de nouveaux concepts dansles treillis L+Q,arr et dans LQ,dec de la nouvelle FTR.

Figure 6.9 – Requête relationnelle Qr sur la FTR (L+Q,arr, LQ,dec).

Localiser Qavo et Qd

vo dans les concepts de ces treillis donne la réponse à la requête. Comme lemontre la figure 6.9, la réponse est donnée par les objets du graphe ⟨a12 →rf d4⟩. Le concept a12contient dans son extension l’objet Qa

vo et le document AS (Arrêté Strasbourg) qui possèdenttous les deux les attributs dans l’intension à savoir le descripteur sémantique nvs et une relationrf vers le concept d4. Le concept d4 appartient au treillis des décrets LQ,dec et contient dans sonextension l’objet Qd

vo avec les documents O45 et D95 qui partagent le descripteur sémantiqueab. Selon le contexte relationnel, un graphe réponse exacte existe, il est composé du documentAS lié au document O45 (G = ⟨AS →rf O45⟩).

6.6 Navigation dans la structure conceptuelle

Les treillis de concepts ont l’avantage d’offrir une vue structurée des collections d’objets etde proposer une classification de l’ensemble de l’espace de recherche (classification des objets dessolutions potentielles) dans une structure navigable (on peut naviguer de proche en proche ensuivant les liens de généralisation ou de spécialisation entre les concepts du treillis). Les treillisrelationnels ajoutent une nouvelle dimension à cette structure en introduisant des relations inter-concepts déduites des relations entre les objets.

119

Page 139: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

La structure construite utilisant l’AFC et l’ARC à partir d’un graphe de documents organiseles documents dans des groupes qui partagent les mêmes propriétés (descripteurs sémantiquesde contenu et attributs relationnels), qui sont classés dans une hiérarchie de documents de typeshomogènes qui sont liés par différents types de relations intertextuelles. Cette hiérarchie organiseles classes de documents selon une relation de généralisation/spécialisation 87. Les documents sontclassés de manière à ce que nous ayons toujours la possibilité de généraliser, spécifier ou retournerune réponse approximative à l’utilisateur s’il n’existe pas de réponse exacte en naviguant dansla structure sans calcul supplémentaire.

La navigation dans cette structure offre de nouvelles fonctionnalités sémantiques aux sys-tèmes d’accès documentaires. En effet, outre la fonctionnalité d’interrogation, l’utilisateur peututiliser la structure pour explorer l’ensemble des documents. Deux stratégies de navigation sontpossibles :

– par généralisation ou raffinement de requête ;– par calcul de similarité.Il y a plusieurs scénarios dans lesquels ces stratégies de navigation sont utiles :– Dans certains cas, après avoir présenté une requête au système et obtenu un résultat,

l’utilisateur veut élargir ou affiner la requête afin d’élargir ou de restreindre l’ensemblede documents retournés. Ce processus d’expansion/raffinement de résultats est obtenu enaccédant à partir de la réponse retournée à un concept plus général ou plus spécifique dansla structure.

– L’utilisateur peut disposer au départ d’un échantillon, un document ou un ensemble dedocuments. Il s’agit dans ce cas d’identifier leurs caractéristiques communes et de trouverdans la structure relationnelle tous les autres documents qui possèdent ces mêmes attributs(ou une partie).

– Dans d’autres cas, la requête de l’utilisateur ne correspond pas à une réponse exacte. Celasignifie qu’il n’y a pas un concept qui contient l’ensemble des attributs de la requête maisune stratégie de navigation par similarité dans la structure relationnelle permet de calculerdes résultats approchés.

Nous détaillons dans les sections suivantes les possibilités de navigation offertes par la struc-ture des treillis de concepts formels et relationnels.

6.6.1 Raffinement et expansion des résultats

L’utilisateur n’est pas toujours satisfait par les résultats de la recherche par interrogation(voir section 6.5). Il a souvent en retour trop de documents ou trop peu de documents. Dansces cas, il doit formuler une nouvelle requête, avec plus ou moins d’attributs ou de contraintessémantiques et intertextuelles.

Grâce à la structure du treillis, de tels résultats affinés ou généralisés peuvent être obtenus sansavoir besoin de relancer une nouvelle requête – ce qui est efficace d’un point de vue opérationnel –en aidant l’utilisateur à reformuler sa requête initiale. Si le système renvoie trop (respectivementtrop peu) de documents, l’utilisateur peut choisir de naviguer à partir du concept représentantla requête vers ses voisins supérieurs (ou inférieurs) pour généraliser (ou affiner) sa requête. Pourobtenir un accès aux voisins supérieurs (les super-concepts du concept requête), l’utilisateurrelâche une ou plusieurs contraintes de sa requête, par la suppression d’un ensemble d’attributsde l’intension de la requête initiale. Pour les voisins inférieurs (les sous-concepts), l’utilisateur

87. Naviguer de bas en haut correspond à une généralisation : on passe d’un concept à un concept supérieur quia une extension plus large (plus de documents), mais une intension plus petite (moins de propriétés). Inversement,la navigation du haut en bas permet de spécialiser.

120

Page 140: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.6. Navigation dans la structure conceptuelle

peut affiner sa requête en ajoutant un ou plusieurs attributs à l’intension de la requête initiale.Dans les deux cas, la structure du treillis indique quel(s) est (sont) l’attribut (les attributs)pertinents à enlever ou à ajouter afin d’élargir ou affiner la requête, et le nombre de documentsqu’un tel élargissement ou raffinement pourrait donner.

Prenons un exemple de requête simple :Qdec

s = "Quels sont les lois et les décrets qui parlent d’activités bruyantes (ab) et de tranquillitédu voisinage (tv) ?".

L’objet requête Qdvo est classé dans le concept d6 qui a pour intension I = (ab, tv) et pour

extension E = (O45, Qdvo) comme illustré sur la figure 6.10. Une réponse exacte à Qdec

s est donc ledocument O45. Si l’utilisateur a besoin d’avoir plus de résultats, il a la possibilité de parcourir levoisinage du document retourné en relâchant une contrainte sémantique de sa requête initiale. Leretrait du descripteur tv implique de rechercher des lois et décrets sur les activités bruyantes (ab),auxquelles on peut répondre par le concept d4 où I = (ab) et E = (D95, O45, Qd

vo). Le retrait dudescripteur ab implique de rechercher des lois et décrets sur la tranquillité du voisinage (tv), quiretourne le concept d5 où I = (tv) et E = (CPen,O45, Qd

vo). Deux documents supplémentaires(D95 et CPen) sont retournés à l’utilisateur : ils représentent des réponses approchées à larequête initiale Qdec

s .

Figure 6.10 – Exemple de navigation par généralisation basée sur une requête simple

Nous adaptons la technique proposée par [Wray and Eklund, 2011] au cadre de l’ARC etau cas des requêtes relationnelles. L’approche de voisinage conceptuel permet de naviguer dansl’espace de recherche fourni par la famille de treillis relationnels. Telle que définie dans la section6.5.3, une requête relationnelle est un graphe dans lequel chaque noeud correspond à une sous-requête simple sur un treillis (un type de documents) et les arêtes correspondent aux contraintesrelationnelles entre ces sous-requêtes simples. L’utilisateur peut relâcher soit les contraintes sé-mantiques soit les contraintes relationnelles. La même chose s’applique pour l’ajout de contraintespour le raffinement de requêtes.

Si les contraintes relationnelles sont considérées comme étant obligatoires, seules les contraintessémantiques sont relâchées ou ajoutées. L’utilisateur doit choisir quelle sous-requête simple doit

121

Page 141: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

être généralisée ou affinée, i.e. quel treillis ou quel type de documents doit être parcouru. En fait,dans une requête relationnelle, il existe un treillis principal qui correspond au type de documentsqui doivent être retournés. Par défaut, l’utilisateur navigue dans le treillis principal enrichi selonla relation de la requête.

L’utilisateur peut également relâcher une contrainte relationnelle, ce qui équivaut à laissertomber une partie du graphe requête. L’ajout d’une contrainte relationnelle est plus complexe carla nouvelle relation n’est généralement pas déjà modélisée dans la famille des treillis relationnels.

Prenons un exemple de requête relationnelle (voir section6.5.3) :

Qarrr = "Quels sont les arrêtés qui parlent du niveau sonore (nvs) et qui font référence à des

décrets sur les activités bruyantes (ab) ?".

Les objets requête Qavo et Qd

vo sont respectivement classés dans les concepts a12 et d4 commeillustré sur la figure 6.11. Le treillis des arrêtés est le treillis principal. Le graphe-réponse exactest G = ⟨AS →rf O45⟩. Si l’utilisateur relâche la contrainte relationnelle, il se retrouve dansle cas d’une requête simple. Sinon, il peut relâcher une contrainte sémantique sur le treillis desarrêtés. En retirant le descripteur nvs, l’utilisateur cherche tous les arrêtés faisant référence à deslois et décrets sur les activités bruyantes (ab) qui sont regroupés dans le concept a13. Un graphe-réponse approché est donné par le document AP lié au document D95 (G = ⟨AP →rf D95⟩).En retirant l’attribut relationnel rf : c4, l’utilisateur cherche les arrêtés qui parlent de niveausonore nvs qui sont regroupés dans le concept a3. Une réponse approchée est donc donnée parles documents AS et AY .

L’utilisateur peut également relâcher des contraintes sémantiques sur le treillis des décrets sile concept requête simple sur ce treillis ne contient pas de réponse exacte.

Figure 6.11 – Exemple de navigation par généralisation à partir d’une requête relationnelle

122

Page 142: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.6. Navigation dans la structure conceptuelle

6.6.2 Recherche par exemple de documents

Le modèle permet aussi de parcourir la collection de documents en spécifiant un document ouun ensemble de documents plutôt qu’un ensemble d’attributs comme dans les requêtes ci-dessus.Dans ce cas, le document (ou l’ensemble de documents) est (sont) utilisé(s) comme un point dedépart du processus de navigation. Cette fonction de requête par l’exemple a été définie dansle cadre de l’AFC en utilisant les attributs formels [Wray and Eklund, 2011], nous en proposonsune extension dans le cadre de l’ARC pour prendre en compte les contraintes intertextuelles.

Cas1 : recherche par équivalence entre attributs de documents

Partant d’un document ou d’un ensemble de documents comme échantillon, il est facilede déterminer leurs caractéristiques communes et de retourner le concept correspondant à cetensemble d’attributs.

L’utilisateur utilise un document ou un ensemble de documents de même type comme unéchantillon et cherche les documents similaires. Ceci est équivalent à avoir une requête simple, surle treillis correspondant au type de documents de l’échantillon, définie par les attributs communsdes documents. Si ce treillis est enrichi avec des attributs relationnels, ils sont pris en comptedans l’ensemble des attributs communs. Ainsi, la similarité concerne à la fois les descripteurssémantiques et les relations entre les documents.

Cette fonctionnalité est très utile dans plusieurs situations où l’utilisateur ne possède qu’unensemble de documents au départ. Prenons par exemple le cas d’un secrétaire de mairie de la villede Paris qui doit rédiger un arrêté local sur le bruit anormalement gênant. Pour commencer, le se-crétaire de mairie cherche quelques arrêtés similaires, AB et AY (arrêtés de Boulogne-Billancourtet des Yvelines), issus de villes voisines (qui parlent du même thème). Il veut maintenant savoirquels sont les lois et les décrets qu’il doit citer dans le nouvel arrêté qu’il doit publier et s’ilexiste d’autres documents similaires à ceux qu’il possède déjà. Les documents qu’il possèdecomme échantillon appartiennent à l’extension du concept a4 dans le treillis enrichi des arrêtés(figure 6.6). Puisque l’extension du concept a4 ne contient pas de documents autres que AB etAY , le secrétaire de mairie sait qu’il n’y a pas de documents similaires disponibles. Cependant,outre les descripteurs sémantiques identifiés pour AB et AY (bag et ns : ces arrêtés parlent debruit anormalement gênant et de nuisance sonore), l’intension de ce concept contient certainsattributs relationnels (ref : c2 et ref : c8). Le secrétaire de mairie comprend donc qu’une ré-férence similaire aux lois et décrets sur l’isolation phonique (ip) – le concept d8 du treillis desdécrets (figure 6.4) – peut être pertinente pour le nouvel arrêté.

Cas2 : recherche par mesure de similarité entre documents

Pour avoir une approche plus générale de recherche de documents similaires, nous défi-nissons des mesures de distance et de similarité. Nous nous basons sur les mesures décritesdans [Ducrou et al., 2006] que nous étendons au cas de l’ARC. Deux objets o1, o2 sont ainsi simi-laires si leurs ensembles d’attributs o′1 et o′2 sont similaires. Un premier niveau de similarité estdonné par le regroupement d’objets dans les concepts formels. La similarité est alors calculée surdes concepts pour permettre de retourner une liste triée de concepts similaires selon les mesuresde distance et de similarité.

Notons par c le concept (E, I) tel que E est l’ensemble des documents de l’échantillon et Iest l’ensemble des attributs formels et relationnels communs aux documents de l’échantillon. Ladistance entre un concept ci = (Ei, Ii) et le concept c = (E, I) est définit comme suit :

123

Page 143: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Définition 26 (Distance entre concepts formels) [Ducrou et al., 2006] La distance entreun concept ci et un concept donné c dans C, ensemble des concepts d’un treillis L correspondantà un contexte K = (O,A, Inc) est :

distf : C × C −→ [0, 1]

dist(c, ci) = distf ((E, I), (Ei, Ii)) =1

2

(|E −Ei|+ |Ei − E|

|O|+|I − Ii|+ |Ii − I|

|A|

)Notons par simf = 1−distf la similarité déduite de cette mesure de distance. Nous étendons

cette formule pour prendre en compte les attributs relationnels et nous définissons la similaritéentre concepts d’un treillis relationnel comme suit :

Définition 27 (Similarité entre concepts relationnels) La similarité d’un concept ci avecun concept donné c d’un treillis L+ correspondant à un contexte K = (O,A, Inc) enrichi avec larelation r ∈ R est :

simr : C+ × C+ −→ [0, 1]

simr(c, ci) = 1− distr(c, ci)= 1− distr((E, I), (Ei, Ii))

= 1− 1

2

(|E − Ei|+ |Ei − E|

|O|+|I − Ii|+ |Ii − I||A|+ |R|

)Avec

L+ est le treillis résultant du scaling relational de L avec la relation r ∈ R dela FCR = (K,R). C+ est l’ensemble des concepts de L+.|O| est la cardinalité de l’ensemble des objets du contexte K (objets dans lesextensions de L+).|A| est la cardinalité de l’ensemble des attributs du contexte K (attributsformels dans les intensions de L+).|R| est la cardinalité de l’ensemble des attributs relationnels ajoutés aucontexte K après enrichissement relationnel avec la relation r (attributs rela-tionnels dans les intensions des concepts de L+).E − Ei est la différence entre l’ensemble E et l’ensemble Ei : les objets ap-partenant à l’extension E du concept c et n’appartenant pas à l’extension Ei

du concept ci.I−Ii est la différence entre l’ensemble I et l’ensemble Ii : les attributs formelset relationnels appartenant à l’intension I du concept c et n’appartenant pasà l’intension Ii du concept ci.

Dans la définition, l’intension d’un concept regroupe les attributs formels et relationnels quisont tous les deux représentés par l’ensemble I. Nous désignons dans la suite par F l’ensemble lesattributs formels, par R l’ensemble des attributs relationnels et par Rc l’ensemble des conceptsréférencés par les attributs relationnels.

Définition 28 (Concepts similaires) Considérons deux concepts c1 et c2 dans un treillis for-mel L (resp. dans un treillis relationnel L+). Le concept c1 est dit similaire à c2, c1 ∼f c2 (resp.c1 ∼r c2), si simf (c1, c2) > v (resp. simr(c1, c2) > v), v ∈ [0, 1].

Dans la suite, nous considérons que c1 ∼ c2 (dans le cas général) si sim(c1, c2) ≥ 0.5 etc1 � c2 sinon.

124

Page 144: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.6. Navigation dans la structure conceptuelle

Exemples de calcul de similarité entre deux concepts relationnels : Soit le treillisenrichi des arrêtés L+arr de la figure 6.11.Exemple 1 Similarité entre les concept a12 et a10

– a12 = (E,F,R) = ({AS}, {nvs}, {rf : c4})– a10 = (Ei, Fi, Ri) = ({AS,AY }, {nvs}, {rf : c2})– |O| = 4 : nombre total d’objets– |A| = 5 : nombre total d’attributs– |R| = 9 − 1 = 8 : nombre total d’attributs relationnels - attribut relationnel vers le

concept Top du treillis Ldec (rf : c0)– simr(a12, a10) = 1− 1

2

(0+14 + 0+0+1+1

5+8

)= 0, 79

– a12 ∼ a10

Exemple 2 Similarité entre les concept a12 et a11– a12 = (E,F,R) = (AS, nvs, rf : c4)– a11 = (Ei, Fi, Ri) = (AB,AP , bag, rf : c3)

– simr(a12, a11) = 1− 12

(1+24 + 1+1+1+1

5+8

)= 0, 47

– a12 � a11

La distance considère le nombre d’objets et d’attributs formels et relationnels appartenantexclusivement à chacun des concepts comparés, normalisé par le nombre total d’objets et d’at-tributs formels et relationnels. La similarité est égale à 1− distance.

Telle qu’elle est définie, cette mesure ne prend pas en compte les deux noeuds du graphe liéspar la relation r. Le calcul est basé sur un treillis (L+) que nous considérons comme source de larelation, dans lequel nous pouvons naviguer pour trouver des concepts similaires au concept c. Letreillis L′, correspondant au contexte co-domaine de la relation r utilisée pour l’enrichissementrelationnel, n’est pas utilisé pour naviguer ou pour le calcul de similarité.

Le calcul de distance sur les attributs relationnels (|R−Ri|+ |Ri−R|), considère les attributsrelationnels au même niveau que les attributs formels, c.à.d que si deux attributs relationnels, surune même relation, ne font pas référence au même concept, ils sont considérés comme différents.Ils sont donc comptés comme attributs exclusifs ce qui donnera une mesure de distance plusgrande.

Sur l’exemple 1 :– R = {rf : c4}– Ri = {rf : c2}– c4 = c2 ⇒– R−Ri = {rf : c4}, |R−Ri| = 1– Ri −R = {rf : c2}, |Ri −R| = 1

Dans le cas où les deux concepts référencés par les attributs relationnels, c4 et c2, sontsimilaires dans le treillis L′ (les enrichissements relationnels de L′ ne sont pas considérés), leurdistance (distf ) est plus petite (voir définition 26). Afin de prendre en compte la similaritésimf des concepts référencés par les attributs relationnels de R et de Ri dans le treillis L′, nousdéfinissons une nouvelle mesure dans laquelle nous introduisons cette dimension pour le calculde |R−Ri|.

Définition 29 (Différence entre ensembles de concepts) Soit C′ l’ensemble des conceptsde L′, P(C′) est l’ensemble des parties de C′. Soit A et B deux sous-ensembles de P(C′), A ⊂

125

Page 145: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

P(C′), B ⊂ P(C′). La fonction ⊖ calcule la différence entre les deux ensembles A et B en fonctionde la similarité entre leurs concepts. ⊖ est définie comme suit :

⊖ : P(C′)×P(C′) −→ P(C′)A⊖B = A\{ci ∈ A|∃cj ∈ B, avec : ci ∼f cj}

Pour chaque concept ci de A, calculer sa similarité (∼f ) avec tous les concepts cj de B et negarder que le ci qui n’a aucun concept similaire cj .

Reprenons l’exemple 1 :– R = {rf : c4}, Rc = {c4}– Ri = {rf : c2}, Rci = {c2}– simf (c4, c2) = 1− 1

2

(1+14 + 1+1

4

)= 0, 5

– ⇒ c4 ∼f c2– Rc ⊖Rci = ∅, |Rc −Rci | = 0– Rci ⊖Rc = ∅, |Rci −Rc| = 0

Prendre en compte cette similarité entre concepts référencés permet de donner des valeurs dedistance (distr) et de similarité (simr) qui sont plus précises. Nous modifions alors le calcul dela similarité simr (de la définition 27) entre deux concepts c et ci comme suit :

Définition 30 La similarité d’un concept ci avec un concept donné c d’un treillis L+ correspon-dant à un contexte K = (O,A, Inc) enrichi avec la relation r ∈ R est :

simr : C+ × C+ −→ [0, 1]

simr(c, ci) = 1− 1

2

(|E − Ei|+ |Ei −E|

|O|+|F − Fi|+ |Fi − F |+ |Rc ⊖Rci |+ |Rci ⊖Rc|

|A|+ |R|

)Modification sur les exemples de calcul de similarité entre deux concepts relation-nels : Reprenons les exemples présentés ci-dessus :

Exemple 1 Similarité entre les concept a12 et a10– a12 = (E,F,R) = ({AS}, {nvs}, {rf : c4})– a10 = (Ei, Fi, Ri) = ({AS,AY }, {nvs}, {rf : c2})– simr(a12, a10) = 1− 1

2

(0+14 + 0+0+0+0

5+8

)= 0, 88

– a12 ∼ a10

Exemple 2 Similarité entre les concept a12 et a11– a12 = (E,F,R) = ({AS}, {nvs}, {rf : c4})– a11 = (Ei, Fi, Ri) = ({AB,AP}, {bag}, {rf : c3})– simr(a12, a11) = 1− 1

2

(1+24 + 1+1+0+0

5+8

)= 0, 54

– a12 ∼ a11 (a12 � a11 avec la première mesure)

Synthèse

La recherche de concepts similaires a l’avantage de trouver des concepts proches. Outre lafonction de voisinage des concepts qui propose une méthode de navigation utile dans l’ensemblede données et le regroupement des objets similaires dans le même concept, la fonction de recherchepar l’exemple d’objets en utilisant la similarité entre les concepts renvoie une liste de concepts

126

Page 146: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.6. Navigation dans la structure conceptuelle

similaires, plutôt qu’une liste de documents. Les attributs des documents des concepts retournéspermettent de montrer de quelle manière ces documents se rapportent à l’ensemble des documentsdans l’échantillon.

Avec cette fonctionnalité nous avons la possibilité d’analyser le contexte d’interprétationd’un document donné par la visualisation de documents voisins. Cette fonctionnalité consiste àretourner la liste triée des documents plus ou moins similaires au document source. Les docu-ments voisins sont groupés par classes présentées par des concepts formels dans la famille destreillis relationnels. Ces concepts sont classés par ordre décroissant de similarité par rapport auconcept contenant le document initial. Les documents les plus similaires sont ceux contenus dansl’extension du concept contenant le document source et la similarité diminue à mesure que lesdocuments partagent moins d’attributs sémantiques et relationnels avec la source.

La fonction de recherche par l’exemple de documents peut être considérée comme la fonctionduale de la recherche avec un ensemble d’attributs (interrogation simple et relationnelle décritesdans les sections 6.5.2 et 6.5.3). Si la recherche par un ensemble défini d’attributs (A) ne renvoiepas d’objet (cela signifie que le concept (A′, A) possède une extension vide) nous pouvons calculerles concepts similaires (avec une petite distance) et les retourner comme réponse approchée àl’utilisateur. Cette fonction est décrite dans la section suivante (section 6.6.3).

6.6.3 Recherche de réponses approchées

Dans certains cas, la requête de l’utilisateur n’a pas de réponse exacte. Cela se produitlorsqu’aucun document ne correspond exactement à toutes les propriétés spécifiées dans la requêteet donc le concept requête possède une extension vide. Il est intéressant dans ce cas de retournerune réponse approchée à l’utilisateur ce qui est possible à partir de la structure des treillis sansavoir besoin de faire des calculs supplémentaires (avantage majeur de l’utilisation des treillis).

Ayant défini la distance et la similarité entre les concepts d’un treillis enrichi, nous pou-vons utiliser ces mesures pour naviguer dans le treillis principal de la requête pour recher-cher des concepts similaires et les classer en conséquence. Nous utilisons l’algorithme définidans [Ducrou et al., 2006] que nous étendons à l’ARC.

Le processus de navigation commence par trouver les voisins possibles du concept de larequête et ensuite il parcourt le treillis pour les trier par ordre de pertinence. Le parcours dutreillis est limité à une certaine largeur. Pour chaque concept visité, une condition de test estcalculée pour vérifier si ce concept doit être utilisé pour élargir la navigation.

La condition de test dépend d’un paramètre de largeur de recherche (SearchWidth, qu’onnotera σ), qui est spécifié par l’utilisateur pour rendre la recherche plus large ou plus étroitedans le treillis, et la distance entre le concept visité et le concept de la requête. Cette conditionde test permet de ne garder dans l’ensemble des résultats que les concepts qui sont à une certainedistance du concept de la requête. À la fin, une liste triée des concepts pertinents est retournéeau lieu d’un ensemble résultat initialement vide.

La condition de test prenant en compte les attributs relationnels est définie comme suit :

distr((E, I), (Ei, Ii))× σ <1

2(|E||O|

+|F |+ |R||A|+ |R|

)

où E et I (respectivement Ei et Ii) sont l’extension et l’intension du concept de la requête(respectivement du concept visité), F est l’ensemble des attributs formels et R est l’ensemble desattributs relationnels du concept de la requête, O est l’ensemble total des objets, A est l’ensembletotal des attributs formels et R est l’ensemble total des attributs relationnels.

127

Page 147: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Exemple de réponse approchée à une requête simple

Considérons un exemple de requête simple sur le treillis des décrets :

Qdecs = "Quels sont les lois et décrets qui parlent d’activités bruyantes (ab) et d’isolation

phonique (ip) ?".

La requête ne possède pas de réponse exacte. Un nouveau concept d10 avec une extensionvide (qui contient uniquement l’objet virtuel de la requête Qvod) est ajouté au treillis. Dans cecas, l’algorithme de recherche et de navigation effectue un parcours des concepts du treillis desdécrets (comme le montre la figure 6.12) afin d’identifier les concepts similaires contenant lesréponses approchées potentielles.

Pour σ = 0.8, les étapes de parcours du treillis et les concepts similaires ajoutés à chaqueétape pour calculer une réponse approchée à Qdec

s = (Qvod, {ab, ip}) sont comme suit :

1- d10 contient le seul objet virtuel Qdecs

2- d4 df (d10, d4) = 1/2((0 + 2)/5 + (1 + 0)/4) = 0.325df (d10, d4)× σ < 1/2(1/5 + 2/4)(= 0.35)d4 est utilisé pour étendre la navigationsimf (d10, d4) = 0.675

d8 dr(d10, d8) = 0.325dr(d10, d8)× σ < 0.35d8 est utilisé pour étendre la navigationsimf (d10, d8) = 0.675

3- d0 df (d10, d3) = 1/2((1 + 1)/5 + (1 + 1)/4) = 0.45df (d10, d3)× σ > 0.35d3 n’est pas utilisé pour étendre la navigationsimf (d10, d0) = 0.55

d6 df (d10, d6) = 0.45df (d10, d6)× σ > 0.35d6 n’est pas utilisé pour étendre la navigationsimf (d10, d6) = 0.55

d3 df (d10, d3) = 0.45df (d10, d3)× σ > 0.35d3 n’est pas utilisé pour étendre la navigationsimf (d10, d0) = 0.55

d9 df (d10, d9) = 0.45df (d10, d9)× σ > 0.35d9 n’est pas utilisé pour étendre la navigationsimf (d10, d9) = 0.55

Au lieu de trier des documents, des classes de documents (représentées par des concepts) sonttriées en utilisant la mesure de similarité détaillée dans la définition 26 après avoir effectué unparcours du treillis.

Par exemple, sur la figure 6.12, le concept d4 (contenant des documents sur les activitésbruyantes) a un score de similarité égal à 0.675 et est classé avant d3 (contenant des documentssur l’isolation phonique et tranquillité du voisinage) qui a un score de similarité 0.55.

128

Page 148: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.7. Algorithmes d’interrogation et de navigation

Figure 6.12 – Un exemple de navigation pour retourner des réponses approchées dans le casd’une requête simple

Exemple de réponse approchée à une requête relationnelle

On peut faire le même raisonnement pour les requêtes relationnelles, en ajoutant les attributsrelationnels dans le calcul de distance et similarité.

Considérons l’exemple suivant de requête relationnelle sur les treillis des arrêtés et des décrets :

Qarrr = "Quels sont les arrêtés qui parlent de bruit anormalement gênant (bag) et de nuisance

sonore (ns) et qui font référence à des décrets sur les activités bruyantes (ab) ?".

L’objet requête Qvod sur le treillis de décrets est classé dans le concept d4 (comme le montrela figure 6.13). Cette sous-requête possède comme réponse exacte les documents D95 et O45. Lasous-requête sur le treillis des arrêtés ne possède pas de réponse exacte. Un nouveau concept,a12, avec une extension vide (contenant uniquement l’objet virtuel de la requête Qvoa) est ajoutéau treillis enrichi des arrêtés. Dans ce cas, l’algorithme effectue un parcours du treillis. Le treillisconcerné par la navigation est celui des arrêtés.

6.7 Algorithmes d’interrogation et de navigation

Dans cette section, nous présentons les algorithmes d’interrogation et de navigation qui ontété utilisés dans les exemples des sections précédentes et qui sont testés dans le chapitre 8.L’algorithme 2 décrit l’algorithme général de recherche relationnelle qui se compose d’un ensemblede procédures : enrichissement des contextes (algorithme 3), construction des treillis (algorithmeMultiFCA [Rouane et al., 2007]) et construction de réponses (algorithme 4). Les algorithmes 5et 6 décrivent les procédures de construction de réponses exactes et approchées.

129

Page 149: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Figure 6.13 – Un exemple de navigation pour retourner des réponses approchées dans le casd’une requête relationnelle

Algorithm 2 Recherche relationnelleRequire: FCR = (K,R) // famille de contextes relationnelsQr = (C,R) // requête relationnelle (voir définition 23)

Ensure: FTR = {LQ+} // ensemble de treillis relationnels correspondant à FCRG = (OG,RG) // graphe résultat (voir définition 25)

1: Enrichir (K,R) par Qr = (C,R) : (KQ,RQ) := (K,R)⊕RQr

2: Construire {LQ+} correspondant à (KQ,RQ) // utilisation de l’algorithme MultiFCA3: Construire G = (OG,RG), le graphe réponse à Qr

130

Page 150: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.7. Algorithmes d’interrogation et de navigation

Algorithm 3 Enrichir FCR avec Qr : "⊕R"Require: FCR = (K,R) // famille de contextes relationnelsQr = (C,R) // requête relationnelle (voir définition 23)

Ensure: (KQ,RQ) // famille de contextes enrichies par la requête// Enrichissement des contextes formels

1: for Qs,i ∈ C do2: // ajouter Qs,i à Ki correspondant3: Oi := Oi ∪ {Qvo,i} // ajouter Qvo,i à l’ensemble des objets du contexte4: Ai := Ai ∪ {ai} // ajouter les attributs de la requête à l’ensemble d’attributs du contexte5: Inc := Inc ∪ {Qvo,i} × {ai} // ajouter la relation d’incidence de la requête à celle du

contexte6: end for// Enrichissement des contextes relationnels7: for Rk ∈ R do8: // ajouter les relations de la requête au contexte relationnel rk ∈ R correspondant9: Oi := Oi ∪ {Qvo,i}

10: Oj := Oj ∪ {oj}11: Inc := Inc ∪ {Qvo,i} × {oj} // ajouter la relation d’incidence de la requête à celle du

contexte relationnel12: end for

Algorithm 4 Construire G = (OG,RG), le graphe réponse à Qr

Require: FTR = {LQ+} // ensemble de treillis relationnels correspondant à (KQ,RQ)Qr = (C,R) // requête relationnelle (voir définition 23)

Ensure: G = (OG,RG) // graphe résultat (voir définition 25)1: for Qs,i ∈ C do2: CQ = (Q′

I , QI) := Localiser Qs,i dans {LQ,i+}

3: if Q′I \ {Qvo,i} = ∅ then

4: Construire réponse exacte à partir de CQ

5: else6: Construire réponse approchée à partir de CQ

7: end if8: end for

Algorithm 5 Construire réponse exacte à partir d’un concept CQ = (Q′I , QI)

Require: FTR = {LQ+} // ensemble de treillis relationnels correspondant à (KQ,RQ)CQ = (Q′

I , QI) // Concept identifié pertinentEnsure: G = (OG,RG) // graphe résultat (voir définition 25)1: OG := OG ∪Q′

I \ {Qvo,i}2: for relk ∈ QI ∩R do3: Cj := Le concept référencé par relk4: Cj = (Ej , Ij) := Localiser Cj dans mathcalLj

5: OG := OG ∪ Ej \ {Qvo,j}6: RG := RG ∪ relk7: end for

131

Page 151: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Algorithm 6 Construire réponse approchée à partir d’un concept CQ = (Q′I , QI)

Require: FTR = {LQ+} // ensemble de treillis relationnels correspondant à (KQ,RQ)CQ = (Q′

I , QI) // Concept identifié pertinentEnsure: G = (OG,RG) // graphe résultat (voir définition 25)1: V := Voisins (CQ)2: for Vi ∈ V do3: G := G∪ Construire réponse exacte à partir de Vi4: if Vi vérifie la contrainte de distance (Equation 6.6.3) then5: Construire réponse approchée à partir de Vi6: end if7: end for

6.8 Requêtes exprimables par le modèle

Le modèle relationnel que nous proposons permet de répondre, en plus des requêtes simples(RS) décrites par un ensemble de descripteurs de contenu, à de nouvelles formes de requêtes,les requêtes relationnelles (RR). Ce modèle permet de retrouver à la fois des documents quiportent sur un sujet donné et qui sont liés à d’autres documents ou classes de documents avecdes types spécifiques de relations. Le modèle permet aussi de retourner des réponses approchéesdans le cas où la requête ne possède pas de réponses exactes. Ceci est possible grâce à la structureconceptuelle hiérarchique construite sur la collection de documents.

Dans ces deux cas, les objets retrouvés dans les deux étapes partagent un attribut (formelet/ou relationnel) ou une conjonction d’attributs (formels et/ou relationnels) avec la requête.De cette manière, le traitement d’une requête simple (Qs = (Qvo;Aq)) ou relationnelle (avecdes relations Rk) est équivalent au traitement d’une suite de requêtes conjonctives. La premièrerequête est formée par la conjonction de tous les attributs dans Aq plus les attributs relationnelsde Rk. Les requêtes suivantes sont formées par la conjonction des sous ensembles de Aq et deRk jusqu’aux requêtes formées par un seul attribut de Aq ou de Rk. Le résultat final est formépar l’union des résultats de chaque requête.

Exemple Pour illustrer la décomposition de la requête en un ensemble de requêtes conjonc-tives, prenons l’exemple d’une requête simple sur le treillis des décrets : décrets sur l’isolationphonique (ip) et la tranquillité du voisinage (tv). Qdec

s = (QdecE , Qdec

I ) = (Qdvo, {ip, tv}). Les re-

quêtes conjonctives et les résultats qui leur correspondent sont donnés par la figure 6.14 et sontdétaillés comme suit :

Requête1 ip ∧ tv – CPenRequête2 ip – CPen et L92Requête3 tv – CPen et O45

Formalisation Dans notre modélisation, les requêtes simples ou relationnelles peuvent porter,en plus des attributs formels ou relationnels, sur un ou plusieurs types de documents. Commedécrit dans la section 6.2, nous créons un contexte formel par type de document ce qui permetde considérer le type de document comme paramètre dans la formalisation des requêtes. Aprèsenrichissement, les relations sont exprimées par des attributs relationnels qui sont représentés dela même manière que les attributs formels. Nous exprimons ci-dessous ces requêtes de manière

132

Page 152: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.8. Requêtes exprimables par le modèle

Figure 6.14 – Conjonction de requêtes simples sur le treillis des décrets Ldec.

formelle en utilisant le vocabulaire décrit dans le tableau suivant :

Types T1, T2, . . .Descripteurs D1, D2, . . .

Attributs relationnels R1, R2, . . .—

– Une RS sur un treillis de concepts L correspondant à un contexte formel K = (O,A, Inc)représentant un type de document (T ) et portant sur un ou plusieurs descripteurs séman-tiques (Di, i = 1..N avec N = |A|) est décrite comme suit.

(D1 ∧D2 ∧ ... ∧Di) ∧ T =

(∧i∈N

Di

)∧ T

i = 1..N,N = |A|La réponse à cette requête est localisée dans un concept du treillis et dans ses super-concepts (comme montré dans les sections précédentes). Chaque concept contient dans sonextension un ensemble d’objets qui représente la réponse à un requête caractérisée par toutou une partie des attributs de la requête. Ainsi, répondre à la requête initiale revient àdonner une réponse à une conjonction de RS (voir exemple figure 6.14). Ce cas exprime leET logique.

– Étant donné un treillis de concepts L, il est aussi possible de répondre à plusieurs requêtesdisjonctives par navigation dans le treillis. En effet, les concepts fermés du treillis (qui ontdes intensions exclusives) représentent pour chacun une requête décrite par un ensemblepropre de descripteurs (qui n’est pas partagé même en partie avec une autre requête).Ce cas exprime le OU logique. Si on considère que chaque requête est décrite par un seuldescripteur sur l’ensemble des concepts fermés de L, soit F , ce cas se présente formellementcomme suit.

(D1 ∨D2 ∨ ... ∨Dj) ∧ T =

∨j∈M

Dj

∧ T133

Page 153: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

j = 1..M,M = |F|

– Le cas général est donné par la combinaison des cas précédents :

((D1 ∧D2 ∧ ... ∧Di)1 ∨ ... ∨ (D1 ∧D2 ∧ ... ∧Di)j) ∧ T =

∨j∈M

(∧i∈N

Dij

) ∧ T

i = 1..N,N = |A|

j = 1..M,M = |F|

Dans le cas général, l’ensemble des RS que nous pouvons exprimer sur une collection de do-cuments représentée par un treillis de concepts est décrit par une disjonction de conjonctiond’un ensemble ou d’une partie d’un ensemble de descripteurs de contenu de ces documents.

– Les RR exprimables sur une FTR correspondant à une FCR = (K,R) représentant unecollection documentaire avec plusieurs types de documents (Tl, l = 1..S avec S = |K| )reliés entre eux par différentes relations (Rk, k = 1..P avec P = |R|) et portant sur un ouplusieurs descripteurs sémantiques (Di, i = 0..N avec N = |A| sur un contexte dans K )sont décrites formellement comme suit.

((D1 ∧ ... ∧Di ∧R1 ∧ ... ∧Rk) ∧ T1) ∧ ... ∧ ((D1 ∧ ... ∧Di ∧R1 ∧ ... ∧Rk) ∧ Tl)

=

((∧i∈N

Di ∧∧k∈P

Rk

)∧ T1

)∧ ... ∧

((∧i∈N

Di ∧∧k∈P

Rk

)∧ Tl

)

=∧l∈S

(∧i∈N

Di ∧∧k∈P

Rk ∧ Tl

)

i = 0..N,N = |A|k = 1..P, P = |R|l = 1..S, S = |K|

La réponse à cette requête est donnée par un (ou plusieurs) graphe(s) dont les noeuds sontles concepts (ou les super-concepts) des treillis de la FTR et les arêtes sont les relationsdéfinies par les attributs relationnels. Les noeuds de chaque graphe contiennent dans leursextensions un ensemble d’objets qui représente la réponse à une requête caractérisée partout ou partie des attributs formels (si i = 0) ou relationnels de la requête (que des at-tributs relationnels si i = 0) . Ainsi, répondre à la requête initiale revient à donner uneréponse à une conjonction de RR. Ce cas exprime le ET logique.

– Étant donné une FTR, il est aussi possible de répondre à plusieurs RR disjonctives parnavigation dans le treillis (comme décrit pour le cas des RS). Si on considère que chaquerequête est décrite par un seul descripteur sémantique et/ou un seul attribut relationnel,

134

Page 154: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.8. Requêtes exprimables par le modèle

ce cas se présente formellement comme suit.

((D1 ∨ ... ∨Dj ∧R1 ∨ ... ∨Rk) ∧ T1) ∧ ... ∧ ((D1 ∨ ... ∨Dj ∧R1 ∨ ... ∨Rk) ∧ Tl)

=∧l∈S

∨j∈M

Dj ∧∨k∈P

Rk ∧ Tl

j = 1..M,M = |F|k = 1..P, P = |R|l = 1..S, S = |K|

– Le cas général est donné par la combinaison des deux cas relatifs aux RR :

∧l∈S

∨j=1..M

( ∧i=0..N

Dij

)∧∨

k=1..P

( ∧k=0..P

Rk

)∧ Tl

Ce cas est le plus général puisqu’il combine les RS et les RR.Si i=0, la RR ne porte pas sur les descripteurs Di, mais sur le type Tl et sur les

relations Rk (i.e. on cherche tout les documents d’un type donné et quipossèdent des relations vers d’autres documents ;

Si k=0, la RR ne porte pas sur les relations Rk, mais sur les Di et le type Tl. Onest donc dans le cas d’une RS qui porte sur le contenu d’un documentde type donné ;

Si i=k=0, la requête n’est pas valide (une requête concerne au moins un aspect :contenu ou relation).

Le tableau 6.5 donne un récapitulatif des différents types de requêtes simples et relationnellesque nous pouvons exprimer dans le modèle conceptuel de la collection documentaire et la compareavec la typologie des requêtes décrite dans le chapitre 5.

L’étude de l’expressivité que nous venons d’effectuer montre que le modèle tel qu’il est pré-senté dans ce travail ne permet de satisfaire qu’une partie des requêtes identifiées dans l’ana-lyse des besoins. Au vue des propriétés des requêtes types listées dans le chapitre 5, le modèleFCA/RCA :

– permet de gérer la complexité structurelle des requêtes (nombre de relations, réflexivité,cycles) au moment de l’enrichissement relationnel,

– permet l’utilisation des variables pour désigner les documents et les attributs mais n’auto-rise pas la variabilisation des relations (définies par les contextes relationnels) et des types(définis par les contextes formels),

– traite la cible et les contraintes par filtrage des résultats retournées,– ne permet pas de traiter les présupposés d’unicité dans les requêtes en langage naturel. S’il

existe plus d’une réponse, elles sont toutes retournées.L’étude de l’expressivité montre également que le modèle permet de répondre à d’autres

types de requêtes, les requêtes disjonctives, qui ne sont pas prises en compte dans la typologiedu chapitre 5. Ceci est possible grâce à la navigation dans la structure des treillis sans effectuerde calculs supplémentaires.

135

Page 155: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

Table 6.5 – Tableau récapitulatif de la typologie des requêtes exprimables par l’AFC et l’ARCet leur correspondance avec les requêtes-types issues de l’analyse des besoins.

Formalisation Correspondance requêtes-typesRequêtes simplesRS (ET)

(∧i∈N Di

)∧ T RT1-1, RT1-2, RT1-4, RT1-5

RS (OU)(∨

j∈M Dj

)∧ T non exprimable par le langage de re-

quêtesRS (OU(ET))

(∨j∈M

(∧i∈N Dij

))∧ T non exprimable par le langage de re-

quêtesRequêtes relationnellesRR (ET)

∧l∈S(∧

i∈N Di ∧∧

k∈P Rk ∧ Tl)

RT2-1, RT2-2, RT2-4, RT3-1, RT3-2,RT4-1, RT4-2

RR (OU)∧

l∈S

(∨j∈M Dj ∧

∨k∈P Rk ∧ Tl

)non exprimable par le langage de re-quêtes

RR (OU(ET))∧

l∈S∨

j=1..M (∧

i=0..N Dij)∧ non exprimable par∨k=1..P (

∧k=0..P Rk) ∧ Tl le langage de requêtes

6.9 Conclusion

Nous avons présenté une modélisation qui donne une représentation unifiée des descripteursde contenus et des relations intertextuelles caractérisant une collection documentaire. Cette mo-délisation est basée sur l’AFC et l’ARC que nous avons appliqué à des collections documentaires.Nous avons étendu les propositions d’interrogation et de navigation de l’AFC à l’ARC et définiun algorithme pour l’exploitation des structures relationnelles construites.

La figure 6.15 donne une vue globale de l’approche décrite dans ce chapitre qui se composede quatre étapes principales :

1. Modélisation du contenu sémantique : le contenu sémantique des documents est annoté etles contextes formels sont extraits en fonction de ces annotations permettant la constructiondes treillis formels.

2. Modélisation de la structure intertextuelle : les liens entre les documents sont identifiés etles contextes relationnels sont extraits sur la base de ces liens permettant la constructionde treillis relationnels enrichis.

3. Interrogation : l’utilisateur crée une requête, qui peut être une combinaison de descripteurssémantiques de contenu et de contraintes sur les liens intertextuels.

4. Construction des résultats : l’algorithme de recherche analyse la requête et cherche desréponses pertinentes dans les treillis. L’utilisateur peut avoir en réponse une liste de docu-ments ou de graphes de documents. Il peut également naviguer dans la structure relation-nelle construite.

Par rapport à l’analyse des besoins, cette approche permet de répondre à l’ensemble desrequêtes (simples et relationnelles) exprimées dans le chapitre 5, de répondre à d’autres typesde requêtes (requêtes disjonctives) grâce à la navigation, de retourner des réponses plus riches(sous forme de graphes et pas que des documents isolés) et de fournir des réponses approchéesà l’utilisateur en l’absence de réponses exactes. Cependant, elle ne permet pas de traiter tous

136

Page 156: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

6.9. Conclusion

Figure 6.15 – Aperçu de l’approche conceptuelle de RI relationnelle.

les types de requêtes ni d’avoir un processus homogène pour le traitement et ne permet pas detravailler sur des collections de grande taille. Nous proposons des solutions à ces points avecl’approche sémantique que nous décrivons dans le chapitre suivant.

137

Page 157: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 6. RI et intertextualité : approche conceptuelle

138

Page 158: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7

RI et intertextualité : approchesémantique

Sommaire7.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1397.2 Bonnes pratiques pour la construction de vocabulaires . . . . . . . . 1407.3 Première ontologie documentaire . . . . . . . . . . . . . . . . . . . . . 141

7.3.1 Structure globale de l’ontologie . . . . . . . . . . . . . . . . . . . . . . . 1427.3.2 Modélisation de la collection documentaire . . . . . . . . . . . . . . . . 1447.3.3 Modélisation des documents . . . . . . . . . . . . . . . . . . . . . . . . . 1477.3.4 Modélisation sémantique des contenus textuels . . . . . . . . . . . . . . 152

7.4 Deuxième ontologie documentaire . . . . . . . . . . . . . . . . . . . . 1547.4.1 Gestion des versions d’un document . . . . . . . . . . . . . . . . . . . . 1567.4.2 Gestion des références . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1567.4.3 Structure globale de l’ontologie . . . . . . . . . . . . . . . . . . . . . . . 1637.4.4 Positionnement par rapport au standard juridique Metalex . . . . . . . 165

7.5 Mise en œuvre des ontologies documentaires . . . . . . . . . . . . . . 1667.5.1 Instanciation et interrogation dans la première ontologie . . . . . . . . . 1667.5.2 Instanciation et interrogation dans la deuxième ontologie . . . . . . . . 173

7.6 Conclusion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 179

7.1 Introduction

Dans ce chapitre nous décrivons une approche différente dans le but de modéliser la collectionpuis de l’interroger. Nous proposons un modèle basé sur les technologies du web sémantique, quipermet de passer à l’échelle. Dans cette approche, l’effort ne porte pas tant sur l’interrogationde la collection documentaire que sur sa modélisation. De ce point de vue, cette approche diffèreclairement de la précédente qui reposait sur un modèle <objets × attributs> simple.

Dans l’approche sémantique, on peut proposer un modèle documentaire beaucoup plus richeet l’essentiel de notre effort a consisté à intégrer la dimension intertextuelle dans une ontologiedocumentaire adaptée aux documents juridiques. Une telle ontologie permet de représenter lecontenu sémantique du document (ce dont parle le document), sa structure logique, ses différentesversions et son cycle de vie, ainsi que la structure de la collection documentaire qui organisedifférents types de documents dans un vaste réseau de liens intertextuels.

139

Page 159: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Nous proposons de représenter les relations entre les documents de deux manières différentes.Dans une première ontologie, les relations entre les documents sont représentées comme desliens directs entre les classes (des propriétés d’objets). Ce choix de modélisation représente unepremière vision naïve des liens intertextuels dans le domaine juridique. Dans un deuxième temps,nous présentons une ébauche de deuxième ontologie où les relations sont décrites comme devéritables opérations documentaires. Nous verrons que ce deuxième modèle rend même compte dela dynamique des collections juridiques. Une fois une collection documentaire modélisée commeune instanciation de cette ontologie, les requêtes relationnelles peuvent se traduire facilementsous la forme de requêtes SPARQL.

La suite du chapitre est organisée comme suit. La section 7.2 décrit les bonnes pratiques etles règles que nous avons suivies pour la création des ontologies. La section 7.3 présente l’on-tologie documentaire traitant les relations comme des liens directs, avec les différents modulesla composant et leurs dépendances. La section 7.4 présente l’ontologie documentaire où les rela-tions sont modélisées comme des opérations. Des exemples d’utilisation de ces ontologies pourla modélisation d’une collection juridique et l’interrogation avec des requêtes relationnelles sontdécrits dans la section 7.5.

7.2 Bonnes pratiques pour la construction de vocabulaires

Dans la conception des deux ontologies documentaires, nous avons essayé autant que pos-sible de suivre les recommandations et les bonnes pratiques pour construire un vocabulaire dansle cadre du web de données 88. Les ontologies documentaires créées réutilisent des vocabulaireslargement déployés dans le web de données. Elles suivent une approche légère (lightweight) puis-qu’elles se basent essentiellement sur des assertions de base en RDFS et OWL. Nous avonségalement veillé à documenter chaque nouveau terme avec des étiquettes et des commentaires.Pour faciliter la manipulation du vocabulaire, nous avons aussi défini des propriétés inverses pourles principales propriétés d’objets.

Pour la réutilisation de vocabulaires, nous avons adopté la stratégie de conception recomman-dée par la communauté de web de données qui consiste en premier lieu à rechercher des termesde vocabulaires largement utilisés qui pourraient être réutilisés pour représenter les données ; sices vocabulaires ne fournissent pas tous les termes qui sont nécessaires pour décrire le contenucomplet d’un ensemble de données, les termes requis doivent être définis comme un vocabulairepropriétaire (avec un espace de noms (namespace) contrôlé par le concepteur) et utilisés en com-plément des termes de ces vocabulaires [Heath and Bizer, 2011]. Nous avons aussi utilisé despropriétés de RDFS et OWL pour relier les nouveaux termes à ceux de vocabulaires existants.

Les ontologies documentaires développées réutilisent les vocabulaires de référence suivants :

Le schéma Dublin Core : un schéma de métadonnées générique qui permet de décrire desressources numériques ou physiques et d’établir des relations avec d’autres ressources 89.Préfixe : dc (ou aussi dce).

L’ontologie DCMI terms : une spécification mise à jour de tous les termes de métadonnéesgérés par la Dublin Core Metadata Initiative (DCMI), y compris les propriétés, les schémasde codage de vocabulaire, des schémas de codage de syntaxe, et les classes 90. Préfixe : dct(ou aussi dcterms).

88. Le vocabulaire définit dans le cadre de ce travail ne peut pas être publié sur le web (selon les recommanda-tions du web de données) puisqu’il est développé dans le cadre d’un projet avec des partenaires industriels.

89. http ://purl.org/dc/elements/1.1/90. http ://purl.org/dc/terms/

140

Page 160: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

L’ontologie WGS84 Geo Positioning : représente tout objet avec étendue spatiale (position,taille, etc.) comme par exemple les personnes et les lieux 91. Préfixe : geo.

L’ontologie Metalex : un schéma OWL de l’Open XML Interchange Format for Legal andLegislative Resources 92. Préfixe : metalex. Nous réutilisons plusieurs termes de cette onto-logie qui sont des termes propres à Metalex ou des termes empruntés à d’autres vocabulairestrès déployés, tels que :

L’ontologie FRBR (Functional Requirements for Bibliographic Records ou Fonctionna-lités requises des notices bibliographiques) de l’IFLA 93 : un modèle conceptuel dedonnées bibliographiques qui schématise le processus intellectuel du catalogage (mo-déliser les documents en tant qu’entités qui vont du plus concret au plus abstrait) 94.Préfixe : frbr.

L’ontologie Event : traite la notion d’événement réifiée. Elle définit un concept principalEvent. Un événement peut avoir un lieu, une date, des agents actifs, des facteurs etdes produits 95. Préfixe : event.

L’ontologie bibo définit les termes bibo:Document, bibo:Collection et bibo:LegalDocumentmais dans un contexte différent de notre objectif (contexte bibliographique). Nous n’utilisons pasces termes dans les ontologies documentaires que nous créons.

Nous avons utilisé Protégé et TopBraid Composer pour le développement des deux ontologiesdocumentaires que nous détaillons dans ce chapitre. Nous avons utilisé Corese 96 dans un premiertemps pour l’interrogation avec SPARQL d’un premier ensemble de données représentées par unschéma RDFS simple décrivant les documents et leurs annotations sémantiques.

Les choix de modélisation et les ontologies créées résultent du travail de recherche effectuédans le cadre de cette thèse en s’appuyant sur l’expertise métier de juristes du projet Légilocal(notamment Ève Paul de Victoires Éditions) et les discussions avec les partenaires du projet. Lesmodèles présentés dans ce travail ne sont pas ceux adoptés dans le cadre du projet. Ils ont servide base à un modèle simplifié qui rejoint les objectifs du projet dans sa première phase. Unedeuxième phase du projet est en cours de préparation dans laquelle des aspects de modélisationplus avancés peuvent être pris en compte.

7.3 Première ontologie documentaire

L’ontologie que nous proposons a été conçue sur la base de l’analyse des besoins présentéedans le chapitre 5 et en suivant les recommandations décrites dans la section 7.2. Elle permet dereprésenter de manière homogène toutes les informations relatives aux documents juridiques :

1. la structure d’un document (sections, paragraphes, etc.),

2. le cadre temporel dans lequel il s’inscrit (dates, versions),

3. la caractérisation sémantique de son contenu à l’aide de concepts ou d’entités du domaineconsidéré,

91. http ://www.w3.org/2003/01/geo/wgs84_pos92. http ://justinian.leibnizcenter.org/MetaLex/metalex-cen.owl93. International Federation of Library Associations and Institutions.94. http ://vocab.org/frbr/core.html95. http ://purl.org/NET/c4dm/event.owl96. Corese [Corby et al., 2004] : un moteur d’interrogation du Web Sémantique développé en utilisant les

graphes conceptuels et implémentant les langages RDF, RDFS, SPARQL 1.1 Query et Update ainsi que desrègles d’inférence.

141

Page 161: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

4. son type (loi, décret, etc.),

5. les relations qu’il entretient avec d’autres documents (modification, abrogation, jurispru-dence, transposition, etc.).

7.3.1 Structure globale de l’ontologie

L’ontologie documentaire que nous proposons intègre les différents types de propriétés (sé-mantiques, structurelles et temporelles) dans un même modèle. Elle permet aussi de rendrecompte de la dimension intertextuelle qui est peu représentée dans les ontologies documentairesexistantes. Cette ontologie est structurée en trois grands modules qui permettent de modéliserles propriétés ci-dessus :

– le module document (propriétés 1 et 2 : structure et cadre temporel),– le module collection (propriétés 4 et 5 : types de documents et liens),– le module sémantique (propriété 3 : contenu sémantique).La figure 7.1 donne une vue globale de l’ontologie documentaire et montre la dépendance

entre ses différents modules 97. La granularité de la description a été adaptée au cas d’usageLégilocal pour lequel cette ontologie a été initialement développée.

97. Nous avons utilisé des noms en anglais pour exprimer les classes, les propriétés et les attributs de l’ontologieafin d’homogénéiser avec les vocabulaires de tiers utilisés dans la conception (qui sont exprimés en anglais).

142

Page 162: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Fig

ure

7.1

–O

ntol

ogie

deco

llect

ion

docu

men

tair

e:m

odul

eset

dépe

ndan

ces

143

Page 163: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Le module document est représenté par les classes DocumentText et DocumentaryUnit. Lemodule sémantique est modélisé par un thésaurus en SKOS 98 qui est représenté dans l’ontologiepas la classe skos:Concept et ses sous-classes et est lié au module document via les propriétéshasConcept et isAssignedToDocText. Le module collection est représenté par l’ensemble destypes de documents (Législation est une sous classe de Document, par exemple) et un ensembledes relations intertextuelles (par ex. modifies pour une relation de modification, isCodifiedBypour exprimer une relation de codification, etc.).

Les relations intertextuelles peuvent porter sur n’importe quelle unité documentaire, que cesoit un document juridique complet ou un de ses articles. À la différence des relations intertex-tuelles, les annotations sémantiques portent sur des composants de documents (paragraphe, parex.).

La figure 7.2 présente le haut niveau de l’ontologie avec les concepts représentant ces différentsaspects.

Figure 7.2 – Les concepts de haut niveau de l’ontologie documentaire.

7.3.2 Modélisation de la collection documentaire

Types de documents

Dans le domaine juridique, plusieurs types de documents sont créés et doivent être manipulés.Ceci est particulièrement le cas pour la collection de documents Légilocal qui comporte des do-cuments de différents types : législation, décisions de justice (figure 7.3), actes locaux (figure 7.4)ainsi que les documents éditoriaux (figure 7.5).

En effet, pour préparer un acte municipal sur un sujet particulier, les agents des administra-tions locales (agents de mairie) doivent examiner la législation nationale et la jurisprudence sur lemême sujet. Afin de les aider, le projet Légilocal fournit des fonctionnalités de recherche séman-tique dans la législation nationale et la jurisprudence, ainsi que dans les actes locaux d’autrescommunes sur le même sujet et même dans certains documents éditoriaux. Ces fonctionnalités derecherche sémantique nécessitent l’annotation de ces documents pour faire ressortir leurs contenusémantique, leurs dépendances ainsi que leurs structures. En effet, selon son type (par ex. actelocal ou document législatif) un document possède une structure particulière qui est importanteà préciser. Ceci permet d’annoter le document avec des propriétés connexes telles que l’organisa-tion locale ou la personne en charge du document (qui sont spécifiques pour chaque acte local)

98. SKOS : Simple Knowledge Organization System, http ://www.w3.org/2004/02/skos/.

144

Page 164: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Figure 7.3 – Une décision de justice

Figure 7.4 – Un acte local

145

Page 165: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Figure 7.5 – Un document éditorial

ou vérifier leur conformité. Nous distinguons ici un acte local d’un document législatif par le faitque nous n’avons pas besoin d’aller à un niveau fin de décomposition lorsque nous traitons unacte local, contrairement à la législation où habituellement l’unité de base manipulée est l’article.

Les différents types de documents sont modélisés par une hiérarchie de classes dont le hautniveau est présenté par la figure 7.6. Les trois catégories principales permettent de distinguer :

– les documents des collectivités territoriales (dont ceux des mairies) : classe LocalAuthorityAct ;– les documents éditoriaux (revues, guides, modèles) : classe EditorialDocument. Ces do-

cuments sont principalement des guides pratiques et des modèles de documents qui aidentles administrateurs locaux à créer leurs propres actes et qui font généralement référence àla législation et à la jurisprudence ;

– les documents correspondant aux sources du droit (classe SourceOfLaw) parmi lesquels ondistingue la législation (Legislation) et la jurisprudence (CaseLaw).

À chaque type de document sont attachés des attributs et des propriétés spécifiques. Parexemple, la classe jurisprudence (CaseLaw) a une propriété (object property) applique-législation(appliesLegislation) qui la relie à la classe législation.

Liens entre documents

Dans notre ontologie, l’intertextualité est modélisée par des relations (object properties) quiont pour sujet une unité documentaire (document ou article) et pour objet une autre unitédocumentaire. Par exemple, la propriété creates définit la relation de création entre un articlenon codifié 99 (UncodifiedArticle) et un article de texte codifié 100 (CodifiedArticle). Dansnotre modèle, chaque type de relation est associé à une source et une cible spécifiques, ce quipermet de spécifier non seulement à quels types et parties de textes il réfère, mais aussi dansquels types de textes et parties de textes le lien modélisé peut apparaître.

La figure 7.7 donne un aperçu des types de relations que nous avons codés dans ce module etleur organisation hiérarchique. La relation references représente le sommet de cette hiérarchieet donc le type de lien le plus générique. Une requête qui porte sur les liens entre documents

99. Un article non codifié est un article qui appartient à un texte réglementaire autre que les codes : articles deloi, etc.100. Un article codifié est un article qui appartient à un code : code civil, code de l’environnement.

146

Page 166: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Figure 7.6 – Hiérarchie des types de documents.

exprimée par la relation references aura comme réponse tous les documents possédant lesrelations filles.

Nous distinguons deux grands types de relations : la relation de référence references et larelation de citation cites. La relation de référence exprime tout type de relation agissant ou passur le document source : modification, codification, abrogation, etc. La relation citation, sous-type de la relation référence, avec ses sous-classes (cite jurisprudence, visas législation) exprimele cas particulier d’un simple lien de citation partant d’un document vers un autre.

Figure 7.7 – Types de liens entre les documents et leur hiérarchie.

7.3.3 Modélisation des documents

Les documents juridiques possèdent une structure riche dont la sémantique est importanteà prendre en compte. Les parties d’un document n’ont pas toutes la même importance : le

147

Page 167: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

préambule est généralement peu utile alors que les articles qui composent le texte font l’objet derequêtes particulières. L’intérêt de l’utilisateur (citoyen, personnel administratif ou juriste dans lecas de Légilocal) porte souvent sur une partie du texte plutôt que sur le texte dans son ensemble.Cela suppose que les métadonnées d’identification et les annotations sémantiques soient attachéesnon pas au texte globalement mais à ses sous-parties [Hoekstra, 2011]. Les mêmes besoins sontvalables pour les références entre les textes permettant une analyse fine des interdépendancesentre eux.

C’est pourquoi nous représentons une collection documentaire comme un ensemble d’unitésdocumentaires (classe Unité documentaire : DocumentaryUnit) et de fragments de documents(classe Texte de document : DocumentText) plutôt que comme un ensemble de documents. L’en-semble des documents (unités documentaires et fragments de documents) représentent des partiesd’une même collection documentaire (représentée par la classe Collection) et ils y sont attachéspar des propriétés d’appartenance (hasCollectionPart et son inverse isPartOfCollection).Nous pouvons de cette façon modéliser plusieurs collections qui ne sont pas forcément homo-gènes dans un même modèle.

Une unité documentaire correspond à un document ou à un élément de document qui a uncycle de vie propre comme par exemple un article de la législation. Un texte correspond à undocument entier ou un fragment de document (élément de structure). C’est au niveau de chaqueunité documentaire que seront définies les relations de référence (propriétés references, cites,etc.). Les annotations sémantiques sont attachées à un fragment de texte. Nous présentons danscette section la modélisation de la structure du document ainsi que la gestion de son cycle de vieet ses différentes versions.

Structure de document

La structure d’un document est modélisée dans l’ontologie par la classe DocumentText et sessous-classes Fragment et Document. La figure 7.8 montre les détails des classes modélisant lastructure d’un document.

La classe DocumentText : représente le texte d’un document pris dans sa globalité (Document)ou en partie (Fragment).

La classe Document : représente un document dans le sens général du mot. Il correspond àl’unité de texte globale qui contient des fragments de texte. Les deux classes Document etFragment sont reliées par des relations de composition isPartOfDocument et hasDocumentPart.Ci-dessous une description 101 de la classe document :

1 @prefix : <http://www-lipn.univ-paris13.fr/~mimouni/owl/2014/06/DocModelOntology.owl#> .

2 @prefix owl: <http://www.w3.org/2002/07/owl#> .

3 @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .45 :Document6 a owl:Class ;7 rdfs:label "Document"@en ;8 rdfs:subClassOf :DocumentaryUnit , :DocumentText ;9 owl:disjointWith :Fragment , :Article ;

10 owl:equivalentClass

11 [ a owl:Restriction ;12 owl:allValuesFrom :Fragment ;13 owl:onProperty :hasDocumentPart

14 ] .

Listing 7.1 – Classe Document.

101. En TURTLE : Terse RDF Triple Language, http ://www.w3.org/TR/turtle/

148

Page 168: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Figure 7.8 – Les classes modélisant la structure d’un document.

149

Page 169: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

La classe Fragment : représente un élément de structure d’un document : préambule, visas,corps, article, paragraphe et chapitre.

Les classes Body, Chapter, Paragraph, Preamble : représentent les éléments de structure d’undocument. Une relation de composition (hasFragmentPart) peut être définie entre certainséléments. Cette liste peut être étendue avec d’autres éléments en cas de besoin.

La classe Article : représente un élément de structure particulier contenu dans un documentjuridique. Nous justifions ci-dessous l’intérêt de faire la distinction entre cet élément destructure et le reste des composants ainsi que les détails des propriétés de cette classe.

La représentation des éléments de structure dans l’ontologie a pour principal but de contex-tualiser les annotations sémantiques et les relations (références et citations entre documents).Nous nous sommes limitée à ce niveau de représentation de la structure dans l’ontologie et nousreprésentons la structure détaillée, correspondant à chaque type de document (acte local, textede législation, etc.) dans un schéma XML. Un schéma XML a été défini dans le cadre du pro-jet Légilocal 102 pour préciser, pour chaque type de document, les différentes métadonnées et lastructure attendue. Nous avons fait ce choix pour plusieurs raisons : ne pas alourdir l’ontologieet ainsi la base RDF créée après instantiation, profiter de tout le potentiel du standard XMLpour la description de la structure d’un document et, principalement, permettre un contrôlede conformité des documents (au moment de leur création) selon leurs types en se référant auschéma.

Gestion de l’aspect temporel/de cycle de vie

Dans notre conceptualisation, nous introduisons une opposition entre les fragments de texteet les unités documentaires. Nous jugeons important de distinguer les parties du document quisont susceptibles d’être citées (unités documentaires) de celles qui ne le sont pas (simples frag-ments). Par exemple, dans une loi donnée, nous considérons le document en entier et ses articlescomme des unités documentaires mais pas le préambule. De la même manière, seules les unitésdocumentaires peuvent être retournées en réponse aux requêtes des utilisateurs.

Dans le cadre du projet Légilocal, nous considérons en effet que l’unité documentaire debase possédant un cycle de vie indépendant (suite à un processus de modification, etc.) estl’article. Ainsi, la deuxième partie du module document de l’ontologie est représentée par laclasse DocumentaryUnit et ses sous classes Document et Article comme le montre la figure 7.9.

La complexité du cycle de vie du document juridique (et des articles qui le composent)provient du fait qu’il subit, à des dates différentes, des processus de modification, de consolidation,etc. La modification ou la consolidation, à une date précise, d’un texte implique la création denouvelles versions identifiées par leurs dates. Il est important de gérer toutes ces versions avecleurs dates respectives (date de modification, date de mise en vigueur, etc.).

Plusieurs dates sont de ce fait associées à un document (date de publication datePublication,d’entrée en vigueur dateInForce, etc.). Nous représentons ces dates par des attributs (datatypeproperties) dont les valeurs sont de type dct:date 103 comme sur la figure 7.10.

La classe DocumentaryUnit : un ensemble étendu d’attributs et de propriétés est défini auniveau de chaque unité documentaire : titre (dct:title), sujet (dct:subject), identifiant(dct:identifier), etc. Sont définies aussi les dates de signature (dateSignature), depublication (datePublication) et de mise en vigueur (dateInForce).

102. Ce schéma ne rentre pas dans le cadre de notre travail et ne sera pas décrit dans ce mémoire.103. http ://purl.org/dc/terms/date

150

Page 170: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Figure 7.9 – Gestion du cycle de vie d’une unité documentaire (document ou article).

Figure 7.10 – Dates associées à une unité documentaire ou un article.

151

Page 171: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

La classe Article : représente l’unité documentaire de base qui peut être identifiée, qui subitdes modifications et qui a un cycle de vie propre. Un article est lié au document qui lecontient (classe Document) par les propriétés hasArticle et isArticleOf. Au niveau dechaque article sont définies les dates d’abrogation (dateAbrogation) et de modification(dateModification). Un attribut legalState permet d’indiquer l’état d’un article : envigueur ou abrogé.

Nous considérons toutes les versions d’articles comme des unités documentaires différenteset la modification d’un article est représentée par un lien entre l’article modificateur et l’articlemodifié, la date de modification étant celle de l’entrée en vigueur de l’article modificateur. Nousreprésentons le chaînage entre les versions des articles par la propriété hasPreviousVersion

(figure 7.11). De cette manière, le cycle de vie d’un document est traité comme une relationentre des unités documentaires correspondant chacune à une version (la gestion des relations estfaite au niveau de la collection).

Figure 7.11 – Gestion de versions d’un article.

7.3.4 Modélisation sémantique des contenus textuels

Le module sémantique est classique. En pratique, on cherche généralement à réutiliser uneontologie ou un thésaurus existants. Dans le projet Légilocal, des ressources terminologiquesont été développées pour définir les termes utilisés pour l’annotation sémantique. Elles sontstructurées en trois grands sous-modules ou vocabulaires :

– le sous-module organisation décrit les différentes juridictions françaises et les entités admi-nistratives (par exemple, la cour d’appel, le tribunal de district, le ministère) ;

– le sous-module géographique décrit les différentes entités géographiques françaises (parexemple, les régions, les communes) ;

– le sous-module juridique décrit les notions juridiques de base du droit français ;– le sous-module randonnée décrit le vocabulaire couramment utilisé pour administrer les

routes, chemins et sentiers, ce domaine relevant de la compétence de la municipalité ; cemodule représente le cas d’utilisation de test choisi par le projet.

Il est prévu dans Légilocal d’enrichir ces ressources sémantiques avec des éléments de voca-bulaire utilisateurs acquis à partir des mots-clés de recherche des citoyens et ensuite l’alignementde ce vocabulaire avec la terminologie juridique et administrative des documents.

Dans notre modélisation, nous regroupons toutes ces ressources sémantiques dans un seulmodule de l’ontologie documentaire : le module sémantique. Ce module est décrit dans la fi-gure 7.12.

152

Page 172: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.3. Première ontologie documentaire

Figure 7.12 – Ressources et annotation sémantique.

Chaque ressource sémantique développée dans le projet correspond à une branche d’une mêmeracine représentée par un concept SKOS. Les ressources sémantiques correspondent de ce fait àdifférents thésaurus (en SKOS). À chaque ressource nous faisons correspondre un concept termi-nologique qui représente la classe de termes de cette ressource. Par exemple, EnvironmentConceptest un concept terminologique (en relation d’héritage (rdfs:subClassOf) avec skos:Concept),qui représente la classe de tous les termes du domaine de l’environnement (polluants, bruit, etc.)comme décrit sur la figure 7.13.

Figure 7.13 – Concepts terminologiques représentant les ressources sémantiques. Hiérarchieentre concepts de la ressource Environnement.

Cette modélisation est particulièrement utile lorsqu’il s’agit de données provenant de sourcesexternes et hétérogènes. Cette modélisation permet d’étendre facilement l’ontologie avec de nou-velles ressources, de modifier les ressources existantes ou de les supprimer sans affecter le restedes modules de l’ontologie (bien que les vocabulaires SKOS et OWL soient utilisés dans le mêmegraphe, les deux flux de données restent séparés).

Tous les concepts du module sémantique sont des skos:Concept qui possèdent au moinsl’attribut skos:prefLabel et éventuellement l’attribut skos:altLabel. Une hiérarchie peut êtrecréée entre les concepts d’une ressource sémantique. Elle est définie par les relations de généralisa-tion ou de spécification créées par les propriétés skos:broader et skos:narrower. La figure 7.13montre un exemple de hiérarchie entre les concepts de la ressource sémantique Environnement.En RIS, la hiérarchie des concepts permet de répondre à des requêtes auxquelles des réponsesexactes n’ont pas pu être retrouvées en retournant des réponses approchées (en spécialisant ou

153

Page 173: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

en généralisant la requête) et éviter ainsi de retourner un ensemble vide.Le module sémantique est relié au module document par la propriété hasConcept définie

entre un texte juridique DocumentText et un concept du module sémantique (du concept ter-minologique EnvironmentConcept par exemple) comme décrit sur la figure 7.13. Cette relationdirecte permet notamment de retrouver des documents qui possèdent les annotations sémantiquesindiquées dans les requêtes.

En conclusion, dans le cadre de Légilocal, ces annotations sémantiques sont à la base desfonctionnalités de recherche d’information sémantique offertes par la plateforme du projet auxagents de collectivités locales et aux citoyens. En liant les fragments des textes aux ressources sé-mantiques, ces derniers associent un contexte sémantique aux documents retournés et permettentune navigation à facettes basée sur un thésaurus et offrent des fonctionnalités de généralisationou de spécialisation des requêtes.

7.4 Deuxième ontologie documentaire

La première ontologie permet de représenter assez simplement une collection documentairecomme un réseau de documents, une unité documentaire pouvant être liée à une autre pardifférents types de relations. Cette approche – assez intuitive – suffit sans doute à modéliser l’in-tertextualité dans certains domaines et pour certaines applications (par ex. les articles de presse,les oeuvres littéraires, les brevets) mais elle s’avère trop limitée pour rendre compte de la com-plexité de l’intertextualité juridique. Cette complexité ressort de l’analyse des besoins faite dansle cadre du projet Légilocal montrant que certaines caractéristiques spécifiques aux collectionsjuridiques (versions d’un même document, actions juridiques) ne peuvent être modélisées.

L’intertextualité est au coeur de l’activité juridique où les actions (décisions, jugements, re-cours, régulation, etc.) se réalisent au travers de la publication de documents qui font référenceà d’autres actions, c’est-à-dire d’autres documents qu’ils modifient ou dont ils s’inspirent. Mo-déliser la complexité de cette activité documentaire par des relations binaires comme proposéci-dessus est impossible parce qu’on a des cas de relations ternaires, notamment lorsqu’un do-cument crée un nouveau document en agissant sur un document antérieur. Cela nous incite àmodéliser explicitement les opérations documentaires sous-jacentes aux relations intertextuelles(pour prendre en compte le cas de relations qui prennent plus de deux unités documentairescomme arguments) plutôt que sous la forme de relations directes.

Par ailleurs, il est essentiel de prendre en compte l’historique des différentes versions desdocuments juridiques qui résultent de ces opérations. Même si ces différentes versions se rem-placent les unes les autres, elles coexistent au sein du système juridique puisque chacune est laversion de référence pour une période donnée. Or, d’un point de vue général, la première on-tologie représente les documents comme de simples artefacts sans tenir compte des différentesnatures d’objets informationnels que la science de l’information a mis au jour depuis longtempset sans lesquelles on ne peut pas rattacher les différentes versions d’un document à une sourcecommune. Vu l’importance de cette notion dans le domaine juridique, nous introduisons doncdans l’ontologie la distinction entre le document maître, l’œuvre, et les différentes versions quien sont données. Nous suivons en cela l’approche proposée par Metalex qui repose sur la dis-tinction classique introduite par FRBR 104 [IFLA, 1998]. Cela implique de spécifier à quel niveau

104. FRBR introduit la distinction entre l’œuvre (work), ses différentes expressions (expression), les manifes-tations (manifestation) de ces dernières et les différents exemplaires (item) qui en résultent. Cette classificationpermet d’expliquer que le livre écrit par Marcel Proust (l’œuvre) n’est pas le même que celui que je viens de dé-chirer (l’exemplaire), que les différentes éditions (des manifestations) reprennent le texte dit de « la pléiade » (une

154

Page 174: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

se situent les relations d’intertextualité introduites et cela permet de factoriser une partie despropriétés documentaires sur l’œuvre sans les dupliquer sur chacune de ses versions.

Nous montrons dans ce qui suit comment nous proposons de prendre en compte ces deuxaspects – les relations d’intertextualité à plus de deux arguments et la distinction œuvre-version –avant de présenter globalement une structure d’ontologie documentaire qui les intègre, l’ontologieLIDO (Legal Interlinked Documents Ontology).

Nous avions le souci de suivre les recommandations du web de données et de nous aligneravec les vocabulaires ouverts du web. Nous avons réutilisé des vocabulaires généralistes tels queDublin Core et FOAF. Nous avons aussi étudié les standards juridiques et plus spécifiquementMetalex, et nous nous sommes alignée avec l’ontologie définie dans ce standard (voir chapitre 2pour une présentation détaillée de ce standard).

Les termes des vocabulaires tiers qui sont réutilisés par le vocabulaire LIDO sont listés dansle tableau 7.1. Plus de détails sur leur utilisation sont donnés dans les sections qui suivent.

Table 7.1 – Classes et propriétés réutilisés par le vocabulaire LIDO.

Classesmetalex:Legislative

Creation

Opération qui résulte en la création d’une source de loi.

metalex:Author Auteur d’un document, agent participant à toute création bibliographique.metalex:Legislator Législateur, un type d’auteur, agent d’une création législative.metalex:Editor Éditeur, un type d’auteur, agent d’une édition.metalex:Date Date d’une opération.metalex:Matter Instrument participant à une opération.metalex:Result Objet résultant d’une opération.foaf:Agent Tout agent (personne ou groupe) participant à une opération. Un auteur est

un agent, un législateur ou un éditeur (qui sont des auteurs) sont des agents.geo:SpatialThing Désigne toute instance juridique (mairie, tribunal, etc.).

Propriétésevent:place Relier une opération à un lieu.dct:hasPart Exprimer un lien d’appartenance.dct:identifier Affecter un identifiant à un document.dct:title Décrire le titre du document.dct:date Exprimer une date comme attribut de document.metalex:participant Relier un participant à une opération.metalex:realizes Relier une œuvre à une de ces expressions.

Dans la suite nous décrivons les modules de la nouvelle ontologie documentaire conçue poursatisfaire les deux critères décrits plus haut : la gestion des versions des documents (distinctionœuvre-version) et la gestion des relations d’intertextualité à plus de deux arguments (propriétésliées aux opérations à l’origine de ces relations).

expression) mais que l’édition de la Pléiade (une manifestation) n’est pas ce que j’ai acheté hier (un exemplaire).

155

Page 175: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

7.4.1 Gestion des versions d’un document

La gestion des versions des documents repose sur le modèle FRBR, utilisé par Metalex, quiintroduit quatre niveaux d’abstraction d’un document. Une œuvre peut naturellement donnerlieu à plusieurs expressions. Une expression peut se manifester de différentes manières et chaquemanifestation peut être produite en plusieurs exemplaires.

Dans notre modèle, nous utilisons les deux niveaux supérieurs, œuvre et expression, afin dereprésenter les différentes versions des articles et des documents. Parmi ces quatre niveaux, seulesles œuvres et les expressions correspondent à des unités documentaires auxquelles on peut faireréférence ou qu’on peut citer. Les documents que nous modélisons sont de plusieurs types, commedécrits dans la section 7.3.2, et sont considérés comme étant des œuvres.

Nous maintenons l’opposition proposée dans la première ontologie entre une unité documen-taire « citable » et tous les textes ou fragments de document qui sont « annotables ». Nous créonsune nouvelle entité documentaire (classe DocumentObject) subsumant la classe des fragments dedocuments (classe DocumentText) et celles des unités documentaires (CitableDocumentObject)que nous avons créée pour désigner tout objet documentaire (œuvre ou expression) possédant uncycle de vie indépendant, pouvant être cité, modifié, etc. La classe DocumentText reste inchangéepar rapport à la première modélisation et garde les même attributs et propriétés. Les propriétésd’appartenance entre une collection de documents (classe Collection) et un objet documentaire(classe DocumentObject), entre un document (classe Document) et un fragment de document(classe Fragment) sont désormais des sous-propriétés de la propriété dct:hasPart.

Nous avons distingué dans l’ontologie les classes DocumentaryUnitWork et DocumentaryUnitExpression.La première classe correspond à l’unité documentaire en tant qu’œuvre comme par exemplel’article L2213− 2 du code général des collectivités territoriales, alors que la seconde classe cor-respond à chaque version de cet article (des expressions différentes). Une œuvre est un objet do-cumentaire réalisé par une ou plusieurs expressions et une expression est un objet documentairequi réalise une œuvre. Toute modification dans une expression produit une nouvelle expression.Les liens entre les documents sont attachés aux expressions du fait qu’une nouvelle expression(version) peut faire référence à un ensemble de documents différent de celui référencé par laversion précédente et que, dans l’autre sens, pour les liens entrants, ce n’est pas l’œuvre qui estcitée mais plutôt la version en vigueur à une date donnée.

La figure 7.14 présente la hiérarchie des classes permettant de modéliser les unités documen-taires en tant qu’œuvres et versions pour les différents types de documents.

Les propriétés metalex:realizes et son inverse metalex:realizedBy permettent de re-lier une unité documentaire en tant qu’œuvre à ses différentes versions (ou expressions). Lapropriété metalex:realizes (figure 7.14), associant une DocumentaryUnitExpression et unDocumentaryUnitWork, est définie comme propriété fonctionnelle (Functional Property) : uneversion ne pouvant être reliée qu’à une seule œuvre, ce qui signifie qu’une version donnée (indi-vidu de la classe DocumentaryUnitExpression) ne peut être reliée qu’à un individu au plus parcette propriété. En d’autres termes, une version ne peut correspondre qu’à un seul document.

Lorsqu’une version est créée, elle est reliée à la précédente et à l’unité documentaire qui l’acréée via une action (de modification ou codification par exemple).Ces relations et les classes quiles gèrent sont présentées dans la section qui suit (section 7.4.2).

7.4.2 Gestion des références

Nous proposons de modéliser l’intertextualité sous la forme de concepts intertextuels pourprendre en compte le cas des relations qui prennent plus de deux unités documentaires comme

156

Page 176: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

Figure 7.14 – Gestion des versions des documents d’une collection et la relation de réalisationentre un document (œuvre) et ses versions (expression). La classe DocumentText représente lesfragments de documents qui peuvent être annotés et la classe CitableDocumentObject représenteles unités documentaires qui peuvent en outre être citées.

157

Page 177: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

arguments. Ces concepts intertextuels modélisent des citations ou des opérations documentairesqui peuvent faire intervenir un nombre variable d’unités documentaires selon le type de relationqu’ils représentent :

– opérations documentaires à un argument : création (d’une œuvre) ;– opérations documentaires à deux arguments : abrogation ;– opérations documentaires à trois arguments : codification, transposition, modification.Les textes jouent un rôle dans ces opérations documentaires, ils portent parfois la trace de

ces opérations : un lien existe toujours dans le document initiant l’opération documentaire (parexemple du document modifieur vers le document modifié, lien modifie) mais pas nécessairementdans le document résultat de l’opération (lien modifié par). Ces liens sont ajoutés a-posterioripar des systèmes de RI juridique comme Legifrance. Dans notre modélisation, ils peuvent êtredéduits à partir des rôles des documents participants (source, cible et résultat) aux opérationsdocumentaires.

Nous distinguons deux types de liens entre les unités documentaires, les liens de citation etde référence. Une citation est un lien qui possède une source et une cible. À chaque type decitation correspondent des types de documents particuliers. Une citation apparaît dans le texted’un document source pour indiquer une information complémentaire qui pourrait être utileà la compréhension du contenu, elle n’agit pas (en modification ou codification par exemple)sur un autre document. Contrairement aux citations, les références concernent l’évolution destextes juridiques (création, codification, modification, transposition et abrogation). Un lien deréférence est la trace d’une opération documentaire qui modifie la collection documentaire. Dansle cas de relations ternaires, elle fait intervenir en plus du document source et du documentcible, un document qui est le résultat d’une opération comme par exemple la transposition (parexemple, transposition de la directive européenne 2004/114/CE 105 comme le montre le graphede la figure 7.15).

Figure 7.15 – Transposition de la directive 2004/114/CE, cible de la relation de transposition(la source de la relation est le texte de loi Loi n 2006 − 911 du 24 Juillet 2006 ) et objet del’opération de transposition (le résultat est l’article Art. L221 − 33 (M) du Code monétaire etfinancier).

105. http ://eur-lex.europa.eu/legal-content/FR/TXT /HTML/ ?uri=CELEX :32004L0114

158

Page 178: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

Dans l’ontologie LIDO, l’intertextualité est modélisée par la classe IntertextualLink et sessous-classes Citation et DocumantaryOperation comme décrit dans la figure 7.16. Les objets dela classe IntertextualLink sont attachés aux fragments de texte qui contiennent le lien (trace),représentés par la classe ReferenceText, par la propriété textOf.

Figure 7.16 – Gestion des liens intertextuels.

Les citations

La classe Citation représente tout type de lien de citation, dans le sens expliqué plus haut,vers une unité documentaire « citable » (CitableDocumentObject). Pour nous caler sur l’usage,nous introduisons différents types de citations en fonction des types des documents qui citent(citationSource) et sont cités (citationTarget) (voir figure 7.17). Par exemple, le lien d’ap-plication (lido:Application) correspond à une citation reliant une jurisprudence (documentsource) à une législation (document cible). La description de cette classe est donnée en Listing 7.2.Les citations sont définies sur les versions des documents (DocumentaryUnitExpression). Onimpose à ces versions de documents la relation de réalisation (lido:realizes) avec une œuvre(DocumentaryUnitWork) de même type (ceci est valable aussi dans le cas où une seule versionexiste pour un document, chaque œuvre possède au moins une expression).

Figure 7.17 – Classe Citation.

159

Page 179: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

1 @prefix lido : <http://www-lipn.univ-paris13.fr/~mimouni/owl/2013/12/docOntology#> .

2 @prefix metalex: <http://www.metalex.eu/metalex/2008-05-02#> .

3 @prefix owl: <http://www.w3.org/2002/07/owl#> .

4 @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .56 lido:Application7 a owl:Class ;8 rdfs:label "Application"^^xsd:string ;9 rdfs:subClassOf lido:Citation ;

10 rdfs:subClassOf

11 [ a owl:Restriction ;12 owl:onProperty lido:citationSource ;13 owl:someValuesFrom

14 [ a owl:Class ;

15 owl:intersectionOf (lido:DocumentaryUnitExpression [ a owl:Restriction ;16 owl:onProperty metalex:realizes ;17 owl:someValuesFrom lido:CaseLaw

18 ])

19 ]

20 ] ;21 owl:equivalentClass

22 [ a owl:Restriction ;23 owl:onProperty lido:citationTarget ;24 owl:someValuesFrom

25 [ a owl:Class ;

26 owl:intersectionOf (lido:DocumentaryUnitExpression [ a owl:Restriction ;27 owl:onProperty metalex:realizes ;28 owl:someValuesFrom lido:SourceOfLaw

29 ])

30 ]

31 ] .

Listing 7.2 – Classe Application.

Les références - opérations documentaires

La classe DocumentaryOperation représente les différents types d’opérations documentairesqui font intervenir des documents en tant que source, cible et résultat. Des liens de référence, quilient les documents participants deux à deux, sont la trace de ces opérations. Dans le cas général,seul le lien entre source et cible existe effectivement ; il apparaît dans le texte du documentsource. Les autres liens de référence sont déduits à partir des documents participants.

Prenons l’exemple d’une opération de modification. La figure 7.18 décrit les participantsà cette opération (en noir) et les liens de référence qui en découlent (en gris) : seul le lienmodifie (en trait continu) a une trace dans les textes des documents participants. Les liensversion suivante, version précédente, crée par modification et créé par modification

par peuvent être ajoutés à la collection au moment de l’annotation.En plus des documents source, cible et résultat, nous ajoutons aux opérations les informations

concernant l’agent (en tant que personne responsable de la création du document source), la dateet le lieu de l’opération documentaire. Ils sont représentés dans l’ontologie comme des entitésfilles de la classe OperationParticipant (qui sont souvent liées au document source). La classeDocumentaryOperation est décrite dans la figure 7.19. Ces différentes propriétés et les classesreliées sont détaillées dans le tableau 7.2.

Dans le tableau, le co-domaine de la propriété matter correspond en général au documentcible. Les propriétés matter et result peuvent ne pas être utilisées dans certains cas. Parexemple, dans le cas d’une création législative, il n’existe pas de document objet (matter), etdans le cas d’une abrogation il n’y a pas de document résultat (un attribut décrivant le statutdu document doit être modifié).

160

Page 180: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

Figure 7.18 – Opération documentaire de modification : participants et liens de référence etcitation résultants.

Figure 7.19 – Classe DocumentaryOperation.

161

Page 181: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Table 7.2 – Classes et propriétés reliées à la classe DocumentaryOperation.

Classe :metalex:Date 106

Date - Une date d’une opération de référence.

Classe : foaf:Agent 107 Agent - La classe des agents (par exemple, une personne, un groupeou une organization).

Classe :goe:SpatialThing 108

Spatial thing - Tout objet ayant des dimensions dans l’espace, c’est-à-dire une taille, une forme ou une position (par exemple, personnes,places).

Propriété :metalex:date

date - Relie une opération de référence à une date. Domaine :DocumentaryOperation, co-domaine : metalex:Date.

Propriété :metalex:agent

agent - L’agent responsable de l’opération à l’origine de la référencejuridique (la propriété foaf:maker peut également être utilisée).Domaine : DocumentaryOperation, co-domaine : foaf:Agent.

Property : event:place place - Relie une opération à un lieu. Domaine :DocumentaryOperation, co-domaine : geo:SpatialThing.

Property :lido:referenceSource

referenceSource - Le document source de la référence juridique. Do-maine : DocumentaryOperation, co-domaine : LegalDocument.

Property :lido:referenceTarget

referenceTarget - Le document cible de la référence juridique. Do-maine : DocumentaryOperation, co-domaine : LegalDocument.

Property :metalex:matter

matter - Le document sur lequel un agent agit (via le docu-ment source). Domaine : DocumentaryOperation, co-domaine :LegalDocument.

Property :metalex:result

result - Le document qui résulte de l’action de l’agent. Domaine :DocumentaryOperation, co-domaine : LegalDocument.

162

Page 182: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

Exemple d’utilisation Prenons l’exemple suivant d’une opération de codification d’un articledu Code général des impôts (décrit sur Legifrance 109). Cet évènement implique :

– comme source : le décret (classe Decree) Décret n 92-836 du 27 août 1992,– comme cible : l’article non codifié (classe UncodifiedArticle) Article 46 quater-00 A bis

- 4 juillet 1992,– comme résultat : l’article codifié (classe CodifiedArticle) Article 46 quater-00 A bis- 29

août 1992,– comme lieu l’Assemblée nationale,– comme date le 27 août 1992,– comme signataire le ministre de budget, Michel Charasse.L’opération de codification (classe Codification) fait intervenir un document de type décret

(Decree), un article non codifié (UncodifiedArticle) et un article codifié (CodifiedArticle).Dans cette opération, l’article non-codifié est à la fois cible (du lien de référence) et objet (del’opération). Le digramme des instances est décrit dans la figure 7.20.

Figure 7.20 – Codification de l’Article 46 quater-00 A bis du 4 juillet 1992.

7.4.3 Structure globale de l’ontologie

La deuxième ontologie proposée permet de prendre en compte les deux aspects décrits ci-dessus : les relations d’intertextualité à plus de deux arguments et la distinction œuvre-version.La structure globale de cette ontologie est donnée dans la figure 7.21.

109. http ://www.legifrance.gouv.fr/affichCode.do ?cidTexte= LEGITEXT000006069577&dateTexte=20140623

163

Page 183: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Fig

ure

7.21

–O

ntol

ogie

deco

llect

ion

docu

men

tair

eav

ecge

stio

nde

sve

rsio

nset

des

réfé

renc

es(r

elat

ions

tern

aire

s).

164

Page 184: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.4. Deuxième ontologie documentaire

7.4.4 Positionnement par rapport au standard juridique Metalex

Document vs. collection La vision de l’ontologie Metalex est centrée autour du document :les classes et propriétés sont décrites relativement au document qui est annoté avec le standard,alors que dans notre modélisation, nous nous focalisons sur la collection et pas sur un document.L’ontologie Metalex a d’abord été conçue pour modéliser la législation, nous élargissons la ty-pologie des documents pour prendre en compte et décrire davantage de documents : les textesproduits par les collectivités locales et la jurisprudence. Pour les besoins du projet Légilocal, lessources de droit sont traitées comme une collection de documents qui sont de différents types,reliés par différents types de citations.

Liens intertextuels (citation vs. référence) et annotations sémantiques Les deux no-tions, référence et citation, sont définies dans l’ontologie Metalex. Elles permettent de faire ladistinction entre les liens vers des objets textuels (cites) ou des objets non-textuels (refersTo).Une citation a comme cible un objet bibliographique (par exemple l’article 1, le premier article,l’article précédent), tandis que la référence est un élément qui se réfère à tout type d’entitéintéressante mais non-bibliographique (par exemple, le ministre, le Président de la République,l’accusé).

Dans Metalex, la modification, par exemple, est une action bibliographique (sous classe deAction), BibliographicModification. Elle a comme résultat un objet bibliographique qui peutêtre un document (expression manifestation ou item) ou une citation (ce type de résultat n’estpas indiqué explicitement mais il n’est pas exclu, nous considérons qu’il est possible). La sourcede la modification est le document courant (celui qui contient le lien) et la cible est le documentrelié par la relation matter. Une citation (metalex:BibliographicCitation) relie les ressources(objets bibliographiques) au niveau des articles (plutôt qu’au niveau des éléments dans le texteportant la référence) aux ressources citées. C’est ce que nous exprimons dans notre modèle par ladualité texte de document / unité documentaire ( DocumentText/DocumentaryUnit ) où l’objetréférencé ou cité est une unité documentaire (article ou document) et l’objet annoté est toutfragment de texte.

Notre modèle de gestion de références diffère de celui de Metalex sur deux points. D’unepart, nous affinons la notion générique citation/référence en introduisant divers sous-types deréférences (modification, codification, etc.) et de citations (application, visas, etc.). D’autre partnous distinguons les annotations sémantiques des liens intertextuels. En effet, une large distinc-tion oppose les citations et les références qui font référence à un objet textuel (liens intertextuels)et les annotations sémantiques qui font référence à des objets non textuels (concepts d’une res-source sémantique).

Gestion des évènements vs. opérations documentaires Dans l’ontologie Metalex, lesréférences et les citations (sous-types de référence) sont représentées comme le résultat d’un évè-nement. Les références (metalex:BibliographicReference) et les évènements metalex:Event

sont représentés par des entités différentes reliées par la propriété metalex:resultOf. Il existeplusieurs types d’évènements (creation, modification, etc.) mais un seul type générique de réfé-rence.

Dans notre modèle, nous proposons une représentation compacte d’un évènement et d’uneréférence dans une seule entité qui décrit à la fois les liens (traces dans les textes) et les opérationsgénératrices de ces liens. La modélisation proposée permet de gérer les liens intertextuels commedes opérations : une unique opération documentaire est créée, bien que trois liens puissent êtreproduits, ce qui permet de réduire les efforts d’instanciation. Elle a également l’avantage de

165

Page 185: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

garder une cohérence des données lors de la manipulation des références entre les documentssource, cible et résultat impliqués dans une opération documentaire.

7.5 Mise en œuvre des ontologies documentaires

La modélisation d’une collection juridique revient à instancier l’ontologie documentaire enproduisant un ensemble de triplets RDF. Sont ainsi modélisés les documents et leurs types(Legislation, Jurisprudence, etc), les articles (CodifiedArticle, UncodifiedArticle), lesconcepts terminologiques (Environment, Organisation, etc.), les annotations sémantiques (hasConcept),les liens entre documents (cites, modifies, etc). La collection de documents est ainsi représentéecomme une base de connaissances qui peut ensuite être interrogée à l’aide de requêtes SPARQL.

Les modèles ontologiques représentés ci-dessus offrent des fonctionnalités avancées de re-cherche et permettent de répondre à des requêtes relationnelles par des graphes de documents(figure 7.22) :

1. Est-ce que ce texte de loi a été modifié ? à quelle date ? quelle est la nouvelle version(résultante après la modification) ?

2. Par quel texte juridique l’articles 46 a-t-il été codifié ? quel est l’agent (ou l’institutionjuridique) qui a effectué cette codification ?

3. À quelle date la loi 1994 a-t-elle été abrogée ? et par quel texte juridique ?

Figure 7.22 – Graphes réponses à une requête relationnelle.

7.5.1 Instanciation et interrogation dans la première ontologie

Les figures 7.23, 7.24 et 7.25 montrent trois extraits de collections juridiques modélisées àl’aide du modèle documentaire de la première ontologie :

1. Loi 76− 517 du 14 juin 1976 qui modifie la loi 67405 du 20− 05− 1967 sur la sauvegardede la vie humaine en mer et l’habitabilité à bord des navires (figure 7.23).

2. Loi n 57− 362 du 23 mars 1957 RUR. qui modifie l’article 402 du code rural sur la pêchefluviale (figure 7.24 ).

3. Décret n 2004 − 62 du 14 janvier 2004 modifiant le décret n 99 − 508 du 17 juin 1999qui cite l’article 266 du code des douanes et instituant une taxe générale sur les activitéspolluantes (figure 7.25).

166

Page 186: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

1 @prefix : <http://example.org#>

2 @prefix dmo: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2014/06/DocModelOntology.owl#> .

3 @prefix owl: <http://www.w3.org/2002/07/owl#> .

4 @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

5 @prefix dct: <http://purl.org/dc/terms/> .

6 @prefix skos: <http://www.w3.org/2004/02/skos/core#> .789 :loi_76-517

10 a dmo:Law ;11 rdfs:label "loi 76-517"^^xsd:string ;12 dmo:datePublication "1976-06-14"^^xsd:date ;13 dmo:modifies :loi_67405 ;14 skos:prefLabel "loi 76-517"^^xsd:string .1516 :loi_6740517 a dmo:Law ;18 rdfs:label "loi 67405"^^xsd:string ;19 dmo:datePublication "1967-05-20"^^xsd:date ;20 dmo:hasConcept :habitabilité_à_bord_des_navires , :sauvegarde_de_la_vie_humaine_en_mer ;21 skos:prefLabel "loi 67405"^^xsd:string .2223 :habitabilité_à_bord_des_navires24 a skos:Concept ;25 rdfs:label "habitabilité à bord des navires"^^xsd:string ;26 skos:prefLabel "habitabilité à bord des navires"^^xsd:string .2728 :sauvegarde_de_la_vie_humaine_en_mer29 a dmo:EnvironmentConcept ;30 rdfs:label "sauvegarde de la vie humaine en mer"^^xsd:string ;31 skos:prefLabel "sauvegarde de la vie humaine en mer"^^xsd:string .

Figure 7.23 – Exemple 1

167

Page 187: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

1 @prefix : <http://example.org#>

2 @prefix dmo: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2014/06/DocModelOntology.owl#> .

3 @prefix owl: <http://www.w3.org/2002/07/owl#> .

4 @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

5 @prefix dct: <http://purl.org/dc/terms/> .

6 @prefix skos: <http://www.w3.org/2004/02/skos/core#> .789 :loi_57-362

10 a dmo:Law ;11 rdfs:label "loi 57-362 RUR"^^xsd:string ;12 dmo:datePublication "1957-03-23"^^xsd:date ;13 dmo:modifies :article_402 ;14 skos:prefLabel "loi 57-362 RUR"^^xsd:string .1516 :article_40217 a dmo:CodifiedArticle ;18 rdfs:label "article 402"^^xsd:string ;19 dmo:hasConcept :peche_fluviale ;20 dmo:isCodArticleOf :code_rural ;21 skos:prefLabel "article 402"^^xsd:string .222324 :code_rural25 a dmo:CodifiedText ;26 rdfs:label "code rural"^^xsd:string ;27 skos:prefLabel "code rural"^^xsd:string .

Figure 7.24 – Exemple 2

168

Page 188: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

1 @prefix : <http://example.org#>

2 @prefix dmo: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2014/06/DocModelOntology.owl#> .

3 @prefix owl: <http://www.w3.org/2002/07/owl#> .

4 @prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .

5 @prefix dct: <http://purl.org/dc/terms/> .

6 @prefix skos: <http://www.w3.org/2004/02/skos/core#> .789 :decret_2004-62

10 a dmo:Decree ;11 rdfs:label "decret 2004-62"^^xsd:string ;12 dmo:datePublication "2004-01-14"^^xsd:date ;13 dmo:hasConcept :taxe_activite_polluante ;14 dmo:modifies :decret_99-508 ;15 skos:prefLabel "decret 2004-62"^^xsd:string .1617 :decret_99-50818 a dmo:Decree ;19 rdfs:label "decret 99-508"^^xsd:string ;20 dmo:citesDocUnit :article_266 ;21 dmo:datePublication "1999-06-17"^^xsd:date ;22 skos:prefLabel "decret 99-508"^^xsd:string .2324 :article_26625 a dmo:CodifiedArticle ;26 rdfs:label "article 266"^^xsd:string ;27 dmo:isCodArticleOf :codes_des_douanes ;28 skos:prefLabel "article 266"^^xsd:string .2930 :codes_des_douanes31 a dmo:CodifiedText ;32 rdfs:label "codes des douanes"^^xsd:string ;33 skos:prefLabel "codes des douanes"^^xsd:string .

Figure 7.25 – Exemple 3

169

Page 189: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

L’adoption d’un modèle documentaire unifié pour coder la structure des documents, leursannotations sémantiques et la structure sémantique de la collection permet de traiter des re-quêtes complexes combinant des critères de recherche structurels, intertextuels et de contenu.Par exemple,

– si un administrateur local veut trouver des exemples d’actes locaux qui traitent des « routesrurales » et qui citent un décret particulier d, il peut exprimer une requête combinant descontraintes sur l’annotation sémantique (utilisant la propriété hasConcept vers un conceptde la classe des termes cheminRural) et sur les liens entre documents (citer (cites) ledécret d).

– De même, un secrétaire de mairie peut rechercher des arrêtés existants (orders) parlantde la circulation de camions électriques (camionElectrique) dans la région parisienne(regionParisienne) pendant les pics de pollution (pics de pollution) et citant l’articlearticle-R.221-1 du code de l’environnement (codeEnvironnement).

– Un agent de collectivité territoriale (collectiviteTerritoriale) peut être amené à créerun arrêté local (arreteLocal) en application (applies) de l’arrêté inter-préfectoral relatifà la procédure d’information et d’alerte du public (procedureInformation, alertePublicen cas de pointe de pollution atmosphérique (pollutionAtmospherique) en région d’Île-de-France (region-Ile-de-France) 110. Pour ce faire, il peut rechercher des exemples d’acteslocaux de communes voisines sur le même sujet pour s’en inspirer.

Les requêtes peuvent porter sur différents aspects de la collection :

1. Le contenu sémantique d’un type donné de documents :– Quels sont les textes qui parlent de la préservation de l’environnement ?– Quels articles traitent de la responsabilité pour faute ou responsabilité pour négligence ?

Ces requêtes portent sur :– les classes DocumentText et Article,– les concepts terminologiques Environnement et Juridique,– la propriété hasConcept.

2. L’historique d’une unité documentaire (versions), qu’il s’agisse d’un document ou de l’unde ses articles :– Comment a été abrogé l’article 22 de la loi sur l’enseignement obligatoire ?– Quelles sont les différentes versions de l’Article 1382 du Code Civil ?– Trouver la version en vigueur de l’Article 1328 avec sa date de modification.

Ces requêtes font appel aux :– classes Article, CodifiedText (Code Civil) et UncodifiedText (la loi sur l’enseigne-

ment obligatoire),– attribut legalState (inForce),– propriétés hasPreviousVersion, dateModification et abrogates. La requête sur

l’abrogation doit retourner tous les documents qui ont abrogé l’article 22 en ques-tion (si la version de l’article 22 considérée n’est pas précisée, tous les textes abrogatifsdoivent être retournés).

3. Les types de documents et les types des liens :– Donnez moi les jurisprudences qui ont appliqué l’article 4 actuellement en vigueur de la

loi Sapin.

110. http://www.driee.ile-de-france.developpement-durable.gouv.fr/IMG/pdf/20111027-arrete_

interprefectoral_pointe_de_pollution_cle7a15da.pdf

170

Page 190: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

– Par quel texte l’article 1382 du Code Civil a-t-il été créé ?Ces requêtes portent sur :– les classes CaseLaw (jurisprudence), Article et UncodifiedText,– les propriété appliesLegislation (lien d’application entre jurisprudence et législa-

tion), isCreatedBy.Nous pouvons aussi poser des requêtes sur la consolidation d’un texte à une date donnée.

Cela suppose un calcul un peu plus compliqué, puisqu’il faut partir de la structure du texte,identifier la liste des articles qui le composent et retrouver pour chacun la version en vigueur àla date considérée.

Exemple collection Bruit Reprenons l’exemple illustratif étudié dans le chapitre 6.Cette collection est modélisée par une ontologie documentaire comme le montre la figure 7.26.

Les documents de types arrêtés et décrets correspondent à des instances des classes Order etDecree. Les annotations sémantiques des documents représentent des instances du concept termi-nologique EnvironmentConcept et spécifient le concept Noise, ils sont décrits dans la figure 7.27.Le lien de référence entre les documents est représenté par la propriété makesReference de laclasse des arrêtés vers la classe des décrets.

Figure 7.26 – Modélisation de la collection arrêtés-décrets.

Requête 1 : Quels sont les documents qui parlent de nuisance sonore ? Cette requête vise àretrouver tous les documents (arrêtés ou décrets) qui sont annotés sémantiquement par leconcept nuisance sonore (ns).

1 SELECT *

2 WHERE {3 ?subject :hasConcept ?concept .4 ?concept skos:prefLabel "ns" .

5 }

La réponse à cette requête est formée des deux arrêtés de Boulogne et des Yvelines :Subject Concept

AB ns

AY ns

171

Page 191: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

Figure 7.27 – Annotations sémantiques des arrêtés et des décrets.

Requête 2 : Quels sont les documents (arrêtés ou décrets) qui parlent de nuisance sonore oude lutte contre le bruit ? Cette requête vise à retrouver tous les documents (arrêtés oudécrets) qui sont annotés sémantiquement par le concept nuisance sonore (ns) ou leconcept lutte contre le bruit (lcb).

1 SELECT *

2 WHERE {3 ?subject :hasConcept ?concept .

4 {?concept skos:prefLabel "ns"}

5 UNION {?concept skos:prefLabel "lcb"} .

6 }

La réponse à cette requête est formée par les deux arrêtés de Boulogne et des Yvelinesannotés par le concept ns auxquels s’ajoute la loi 1992 et le décret 1995 tous les deuxannotés par le concept lcb :Subject Concept

AB ns

AY ns

L92 lcb

D95 lcb

Requête 3 : Quels sont les arrêtés qui font référence à des décrets qui parlent de lutte contrele bruit ? Cette requête vise à retrouver les documents de type arrêté qui ont une relationfait-référence vers des documents de type décret annotés par le concept lutte contre

le bruit (lcb).1 SELECT *

2 WHERE {3 ?subject :makesReference ?object .4 ?object :hasConcept ?concept .5 ?concept skos:prefLabel "lcb" .

6 }

La réponse à cette requête est donnée par deux graphes réponse dont les noeuds sont reliéspar la relation fait-référence : arrêté de Boulogne - loi 1992 et arrêté de Paris - décret1995.

172

Page 192: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

Subject Object Concept

AB L92 lcb

AP D95 lcb

7.5.2 Instanciation et interrogation dans la deuxième ontologie

Considérons les exemples suivants extraits de la collection Légilocal (décrite dans le cha-pitre 5).

L’article L362-1 du code l’environnement possède trois versions (expressions) :

1. La 1ère version en vigueur le 21 septembre 2000 créée par un évènement de codification :(dont elle est le résultat (result))– par l’Ordonnance n 2000-914 du 18 septembre 2000 (publiée au JORF le 21/09/2000)

relative à la partie législative du code de l’environnement (source)– à partir de l’ancien texte : Loi n 91-2 du 3 janvier 1991 relative à la circulation des véhi-

cules terrestres dans les espaces naturels et portant modification du code des communes(objet (matter) et cible (target)).

2. La 2ème version en vigueur le 15 avril 2006 créée par un évènement de modification :(dontelle est le résultat)– par la Loi n 2006-436 du 14 avril 2006 (JORF du 15/04/2006) relative aux parcs natio-

naux, aux parc naturels marins et aux parcs naturels régionaux (source)– à partir de la 1ère version ci-dessus (objet et cible).

3. La 3ème version en vigueur le 1er juillet 2013 créée par un évènement de modification (dontelle est le résultat) :– par l’Ordonnance n 2012-34 du 11 janvier 2012 (source)– à partir de la 2ème version ci-dessus (objet et cible).

L’Ordonnance n 2000-914 du 18 septembre 2000 abroge la Loi n 91-2 du 3 janvier 1991 relativeà la circulation des véhicules terrestres dans les espaces naturels et portant modification du codedes communes. Un évènement d’abrogation a lieu avec :

– comme source : l’Ordonnance n 2000-914 du 18 septembre 2000,– comme objet et cible : la Loi n 91-2 du 3 janvier 1991.

La modélisation de cet extrait de collection utilisant le modèle documentaire de la deuxièmeontologie est donnée par les figures 7.28 (codification), 7.29 (première modification), 7.30 (deuxièmemodification) et 7.31 (abrogation).

Les requêtes peuvent porter sur different aspects de la collection, par exemple la version envigueur d’un article à une date donnée ou le texte qui modifie une version d’un article en vigueurà une date donnée. Sur l’exemple de collection décrit ci-dessous, nous pouvons répondre auxrequêtes suivantes :

Requête 1 : Quelle est la version en vigueur de l’article 362-1 du code de l’environnement au26/09/2007 ?Cette requête fait appel à :– la classe DocumentaryUnitExpression : le type de l’objet recherché est une expression

(version d’un article),– la propriété realizes : l’expression réalise l’œuvre "article L362-1" ,– la propriété dateInForce.

173

Page 193: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

1 @prefix : <http://example.org/ontology2#> .

2 @prefix lido: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2013/12/docOntology#> .

3 @prefix metalex: <http://www.metalex.eu/metalex/2008-05-02#> .

4 @prefix dct: <http://purl.org/dc/terms/> .567 :codification_artL362-1_21-09-008 a lido:Codification ;9 rdfs:label "codification art l362-1 21-09-00"^^xsd:string ;

10 lido:referenceSource :Ordonnance_2000-914 ;11 lido:referenceTarget :loi_91-2 ;12 metalex:date :artL362_workCreationDate_21-09-00 ;13 metalex:matter :loi_91-2 ;14 metalex:result :article_L362-1 .1516 :Ordonnance_2000-91417 a lido:Ordinance ;18 rdfs:label "Ordonnance 2000-914"^^xsd:string ;

19 dct:title "Ordonnance n 2000-914 du 18 septembre 2000 (publiée au JORF le 21/09/2000)20 relative à la partie législative du code de l’environnement"^^xsd:string ;21 lido:datePublication "2000-09-21"^^xsd:date ;22 lido:dateSignature "2000-09-18"^^xsd:date .2324 :loi_91-225 a lido:Law ;26 rdfs:label "loi 91-2"^^xsd:string ;27 dct:identifier "n 91-2"^^xsd:string ;28 dct:subject "Circulation des véhicules terrestres dans les espaces naturels"^^xsd:string ;29 dct:title "Loi n 91-2 du 3 janvier 1991 relative à la circulation des véhicules terrestres30 dans les espaces naturels et portant modification du code des communes"^^xsd:string ;31 lido:dateSignature "1991-01-03"^^xsd:date ;32 lido:hasConcept :circulation_vehicule_terrestre , :espace_naturel .3334 :article_L362-135 a lido:CodifiedArticle ;36 rdfs:label "article L362-1"^^xsd:string ;37 metalex:realizedBy :article_L362-1_V21-09-00 .3839 :article_L362-1_V21-09-0040 a lido:DocumentaryUnitExpression ;41 rdfs:label "article L362-1 V21-09-00"^^xsd:string ;42 lido:dateInForce "2000-09-21"^^xsd:date ;

43 lido:expressionType "\"codified article\""^^xsd:string ;44 metalex:realizes :article_L362-1 .

Figure 7.28 – Codification de l’article L362 − 1 du code de l’environnement par l’Ordonnancen 2000− 914.

174

Page 194: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

1 @prefix : <http://example.org/ontology2#> .

2 @prefix lido: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2013/12/docOntology#> .

3 @prefix metalex: <http://www.metalex.eu/metalex/2008-05-02#> .

4 @prefix dct: <http://purl.org/dc/terms/> .567 :modification_artL362-1_15-04-068 a lido:Modification ;9 rdfs:label "modification article L362-1 15-04-06"^^xsd:string ;

10 lido:referenceSource :loi_2006-436 ;11 lido:referenceTarget :article_L362-1_V21-09-00 ;12 metalex:date :artL362-1_modificationDate_15-04-06 ;13 metalex:matter :article_L362-1_V21-09-00 ;14 metalex:result :article_L362-1_V15-04-06 .1516 :loi_2006-43617 a lido:Law ;18 rdfs:label "loi 2006-436"^^xsd:string ;19 lido:datePublication "2006-04-15"^^xsd:date ;20 lido:dateSignature "2006-04-14"^^xsd:date ;21 lido:hasConcept :parc_naturel_marin , :parc_naturel_regional , :parc_national .2223 :article_L362-1_V15-04-0624 a lido:DocumentaryUnitExpression ;25 rdfs:label "article L362-1 V15-04-06"^^xsd:string ;26 lido:dateInForce "2006-04-15"^^xsd:date ;

27 lido:expressionType "\"codified article\""^^xsd:string ;28 metalex:realizes :article_L362-1 .

Figure 7.29 – Modification de l’article L362−1 du code de l’environnement par la Loi n 2006−436.

175

Page 195: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

1 @prefix : <http://example.org/ontology2#> .

2 @prefix lido: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2013/12/docOntology#> .

3 @prefix metalex: <http://www.metalex.eu/metalex/2008-05-02#> .

4 @prefix dct: <http://purl.org/dc/terms/> .56 :modification_artL362-1_11-01-127 a lido:Modification ;8 rdfs:label "modification article L362-1 11-01-12"^^xsd:string ;9 lido:referenceSource :ordonnance_2012-34 ;

10 lido:referenceTarget :article_L362-1_V15-04-06 ;11 metalex:date :artL362-1_modificationDate_11-01-12 ;12 metalex:matter :article_L362-1_V15-04-06 ;13 metalex:result :article_L362-1_V01-07-13 .1415 :ordonnance_2012-3416 a lido:Ordinance ;17 rdfs:label "ordonnance 2012-34"^^xsd:string ;18 lido:dateSignature "2012-01-11"^^xsd:date .1920 :article_L362-1_V01-07-1321 a lido:DocumentaryUnitExpression ;22 rdfs:label "article L362-1 V01-07-13"^^xsd:string ;23 lido:dateInForce "2013-07-01"^^xsd:date ;

24 lido:expressionType "\"codified article\""^^xsd:string ;25 metalex:realizes :article_L362-1 .

Figure 7.30 – Modification de l’article L362− 1 du code de l’environnement par l’Ordonnancen 2012− 34.

176

Page 196: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.5. Mise en œuvre des ontologies documentaires

1 @prefix : <http://example.org/ontology2#> .

2 @prefix lido: <http://www-lipn.univ-paris13.fr/~mimouni/owl/2013/12/docOntology#> .

3 @prefix metalex: <http://www.metalex.eu/metalex/2008-05-02#> .

4 @prefix dct: <http://purl.org/dc/terms/> .567 :abrogation_loi91-28 a lido:AbrogationUC ;9 rdfs:label "abrogation loi91-2"^^xsd:string ;

10 lido:referenceSource :Ordonnance_2000-914 ;11 lido:referenceTarget :loi_91-2 ;12 metalex:date :loi-91-2_abrogationDate_18-09-2000 ;13 metalex:matter :loi_91-2 .141516 :loi_91-217 a lido:Law ;18 rdfs:label "loi 91-2"^^xsd:string ;19 dct:identifier "n 91-2"^^xsd:string ;20 dct:subject "Circulation des véhicules terrestres dans les espaces naturels"^^xsd:string ;21 dct:title "Loi n 91-2 du 3 janvier 1991 relative à la circulation des véhicules terrestres22 dans les espaces naturels et portant modification du code des communes"^^xsd:string ;23 lido:dateSignature "1991-01-03"^^xsd:date ;24 lido:hasConcept :circulation_vehicule_terrestre , :espace_naturel ;25 lido:dateRepeal "2000-09-18"^^xsd:date ;26 lido:legalState "repealed"^^xsd:string .

Figure 7.31 – Abrogation de la Loi n 2006− 436 par l’Ordonnance n 2000− 914.

177

Page 197: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

1 PREFIX example: <http://example.org/ontology2>2 SELECT ?article ?date

3 WHERE {4 ?article rdf:type lido:DocumentaryUnitExpression .5 ?article metalex:realizes example:article_L362-1 .6 ?article lido:dateInForce ?date .

7 FILTER (?date <= "2007-09-26"^^xsd:date) .

8 }

9 ORDER BY DESC(?date) LIMIT 1

La réponse à cette requête est donnée par la version de l’article L362-1 entré en vigueur le

15/04/2006 :article date

article_L362-1_V15-04-06 2006-04-15

Requête 2 : Quel texte a abrogé la Loi n 91-2 du 3 janvier 1991 ?Cette requête fait appel aux :– classes Abrogation (évènement d’abrogation) et AbrogationDate,– propriétés referenceSource et referenceTarget de l’évènement.

1 SELECT ?texte ?date

2 WHERE {3 ?abrogevent lido:referenceSource ?texte .4 ?abrogevent rdf:type lido:Abrogation .5 ?abrogevent lido:referenceTarget example:loi_91-2 .6 ?abrogevent metalex:date ?eventDate .7 ?eventDate rdf:type lido:AbrogationDate .8 ?eventDate metalex:xsdDate ?date .

9 }

La réponse à cette requête est donnée par l’Ordonnance n 2000− 914 et l’abrogation a eu

lieu le 18/09/2000 :texte date

ordonnance_2000-914 2000-09-18

Requête 3 : Quel texte a modifié la version de l’article 362-1 du code de l’environnement envigueur au 26/09/2007 ?Cette requête fait appel aux :– classes Modification (évènement de modification), ModificationDate et DocumentaryUnitExpression

(version d’un article),– les propriétés referenceSource et referenceTarget de l’évènement, realizes (l’ex-

pression réalise l’œuvre "article L362-1") et dateInForce de la version modifiée.1 SELECT ?texte

2 WHERE {3 ?modifevent lido:referenceSource ?texte .4 ?modifevent rdf:type lido:Modification .5 ?modifevent lido:referenceTarget ?article.

6 {SELECT ?article

7 WHERE {8 ?article rdf:type lido:DocumentaryUnitExpression .9 ?article metalex:realizes example:article_L362-1 .

10 ?article lido:dateInForce ?date .

11 FILTER (?date < = "2007-09-26"^^xsd:date) .

12 }

13 ORDER BY DESC(?date) LIMIT 1 }

14 }

La réponse à cette requête est donnée par l’Ordonnance n 2012−34 :texte

ordonnance_2012-34

Exemple collection Bruit Sur cette collection, les références entre les documents sont re-présentées par un seul type de lien « fait-référence» entre les arrêtés (source de la référence) et

178

Page 198: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

7.6. Conclusion

les décrets (cible de la référence). La collection ne fournit pas davantage d’information sur lanature de la référence et sur ses propriétés, à savoir l’agent responsable, la date, etc. La relationde référence peut être donc identifiée à une citation dans la deuxième ontologie (classe Citation)entre le document source (définir la propriété citationSource) et le document cible (définir lapropriété citationTarget). De plus, la collection ne précise pas de quelles versions de docu-ments il s’agit (objets de la classe Expression) et à quelles dates. La création d’objets oeuvres(classe Work) et expressions (classe Expression) ne peut donc être faite. Ainsi, l’instantiationde l’exemple de la collection Bruit sur la deuxième ontologie oblige à réduire les propriétés dumodèle et ne permet pas de mettre en avant le potentiel de cette modélisation par rapport aupremier modèle.

7.6 Conclusion

Dans ce chapitre, nous proposons une solution basée sur les technologies sémantiques pourrésoudre le problème de la gestion de contenu auquel les collectivités locales françaises et l’ad-ministration sont confrontées.

Les deux modèles ontologiques que nous avons présentés permettent de modéliser une collec-tion documentaire avec l’ensemble de ses caractéristiques sous la forme d’un graphe RDF puis del’interroger de manière sémantique, structurelle, temporelle et relationnelle à l’aide de SPARQL.L’interrogation est immédiate, nous pouvons répondre à toutes les requêtes du chapitre analysedes besoins et à d’autres types de requêtes, mais nous n’avons pas la navigation offerte parla structure relationnelle de l’approche conceptuelle. En terme de faisabilité, les deux ontologiessont possibles à mettre en œuvre, choisir l’une ou l’autre dépend des choix de l’application (typesde requêtes, structure de la collection, etc.).

179

Page 199: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 7. RI et intertextualité : approche sémantique

180

Page 200: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8

Experimentation

Sommaire8.1 Introduction . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1818.2 Corpus OIT . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 182

8.2.1 Description du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1828.2.2 Requêtes OIT et réponses pertinentes . . . . . . . . . . . . . . . . . . . 1838.2.3 Approche conceptuelle : AFC/ARC . . . . . . . . . . . . . . . . . . . . 1838.2.4 Approche sémantique : première ontologie . . . . . . . . . . . . . . . . . 1878.2.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 191

8.3 Corpus Légilocal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1918.3.1 Description du corpus . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1918.3.2 Requêtes Légilocal et réponses pertinentes . . . . . . . . . . . . . . . 1938.3.3 Exécution sur la première ontologie documentaire . . . . . . . . . . . . . 1938.3.4 Exécution sur la deuxième ontologie documentaire . . . . . . . . . . . . 1988.3.5 Discussion . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 201

8.1 Introduction

Dans ce chapitre, nous décrivons les expérimentations que nous avons conduites pour validerles approches de modélisation et de recherche relationnelle proposées. Le but de ces expérimenta-tions est de tester l’intérêt et la faisabilité de l’ajout d’une couche sémantique d’intertextualité.Les besoins d’interrogation intertextuelle étant émergeants, il n’existe pas de collections de docu-ment déjà annotées comme décrit dans le chapitre 5, ni de benchmark que nous pouvons utiliserdirectement. Nous avons cependant pu trouver une collection qui correspond partiellement ànotre besoin : elle est constituée d’un ensemble de documents de deux types collectés sur le sitede l’Organisation Internationale de Travail. Dans le projet Légilocal nous n’avons pu travaillerque sur une petite collection. En effet, le projet a permis de définir des spécifications détailléessur un échantillon réel de données et de mettre en place le dispositif de collecte et d’annotationde données. La construction effective de la collection est donc sur le point de débuter chez notrepartenaire Victoires Éditions. Elle n’était pas exploitable pour notre travail de thèse. Pour validernotre travail, nous avons construit une collection de petite taille composée d’un sous-ensemblede documents collectés dans Légilocal. La collection a été annotée manuellement afin d’extrairela structure des documents, leurs liens intertextuels et leurs contenus sémantiques.

181

Page 201: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

Nous avons testé les approches proposées en parallèle sur les deux corpus introduits dans lechapitre 5 :

– Le corpus de l’OIT contenant un nombre plus grand de documents et un type de lien : l’ex-périmentation est mise en œuvre avec l’approche conceptuelle et avec la première ontologiede l’approche sémantique. La collection est peu détaillée, elle est de ce fait compatible avecles approches citées.

– Le corpus Légilocal plus riche sémantiquement (types de documents, types de liens) :l’expérimentation est mise en œuvre avec les deux ontologies de l’approche sémantique.La modélisation de la deuxième ontologie étant plus riche, le but est de la comparer avecla première modélisation par rapport à la représentation des relations et la gestion desversions ainsi que l’interrogation de la collection portant sur ces propriétés.

Nous nous sommes concentrée sur les points suivants pour tester la faisabilité des approches :

1. la modélisation de la collection,

2. la formulation des requêtes,

3. l’interrogation (stratégie de recherche),

4. la navigation (si possible).

La section 8.2 décrit le corpus de données OIT, les requêtes formulées sur ce corpus, letraitement de ces requêtes par les approches correspondantes et se termine par une synthèse. Lasection 8.3 suit la même logique sur le corpus Légilocal.

8.2 Corpus OIT

8.2.1 Description du corpus

Ce corpus est constitué d’un ensemble d’environ 400 documents concernant le droit interna-tional du travail établis par l’Organisation Internationale du Travail 111 entre 1919 et 2007. Ily a deux types de documents : les conventions (188 documents) et les recommandations (199documents). Les documents sont identifiés par leurs numéros (C1, C2,.., R1, R2, etc.). Nousavons utilisé une taxonomie de termes reliés au domaine du travail, également accessible sur lesite, pour décrire le contenu des documents. En tout, 256 descripteurs ont servi pour annoterle corpus (par exemple : accident du travail, contrat, établissement agricole, bateau de pêche,heures supplémentaires, etc.).

Ces documents contiennent des références vers d’autres documents du corpus, ou vers desarticles de la constitution de l’Organisation Internationale du Travail. Parmi les références in-ternes au corpus, il existe à la fois des références entre conventions, entre recommandations,ou de recommandation à convention et inversement. Nous avons distingué parmi ces référencesdifférents types de relations entre documents comme par exemple la relation d’implémentationentre une convention et une recommandation, ou la relation de modification entre 2 conventionsou entre 2 recommandations. Dans la suite, nous avons utilisé le lien d’implémentation, qui partdes conventions vers les recommandations, et qui est le type de lien le plus fréquent (les autrestypes sont rares).

Ainsi chaque document possède un ensemble de descripteurs sémantiques de contenu et peut,dans le cas des conventions, avoir une ou plusieurs relations d’implémentation vers des recom-mandations.

111. http://www.ilo.org/dyn/normlex/en/f?p=NORMLEXPUB:1:0. Corpus construit par Thibault Mondary.

182

Page 202: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.2. Corpus OIT

8.2.2 Requêtes OIT et réponses pertinentes

Reprenons l’ensemble des requêtes formulées sur le corpus OIT présentées dans le chapitre 5(section 5.4). Le tableau 8.1 décrit les requêtes (de 1-1 à 1-7) et donne pour chacune la réponseou l’ensemble de réponses attendues. Nous considérons également les requêtes (de 2-1 à 2-7)proposées pour compléter les types du premier ensemble pour lesquelles nous ne disposons pasde réponses pertinentes (ce sont des requêtes génériques) mais que nous proposons de traiterdans la suite.

Ces requêtes ont été soumises à une juriste qui a identifié les documents à retourner pour cha-cune. Il existe cependant un biais dans cette expérimentation puisque la juriste a créé l’ensembledes requêtes et leurs réponses en ayant une connaissance parfaite du corpus : les descripteursdes documents (les descripteurs annotant déjà les documents sont utilisés dans les requêtes), lenombre de réponses (requêtes formulées au singulier ou au pluriel selon qu’il existe une ou plu-sieurs réponses). Les réponses à ces requêtes sont de ce fait toutes retrouvées par nos approches.Ce qui change c’est la stratégie de recherche adoptée pour les retrouver : les requêtes ne sont pastoutes traitées de la même façon.

Table 8.1 – Requêtes OIT avec réponses pertinentes.

Requête RéponseConvention Recommandation

OIT1-1 Quelle convention implémente la Recommandation 113 surla consultation aux échelons industriel et national ?

C144

OIT1-2 Quelle convention implémente la recommandation quiparle des accidents de travail des marins ?

C164 R142

OIT1-3 Quelles recommandations sont implémentées par laconvention qui parle de l’exposition à l’amiante ?

C162 R147, R156, R164,R171

OIT1-4 Quelles sont les recommandations implémentées par lesconventions qui parlent de la pollution de l’air ?

C148,C162

R112, R114, R118,R120, R144, R147,R156, R164, R171

OIT1-5 Quelles sont les recommandations implémentées par desconventions qui parlent de la convention collective et de lanégociation collective ?

C147,C154

R137, R158, R107,R108

OIT1-6 Quelles conventions implémentent les recommandationsqui parlent de bruit et vibrations ?

C120,C148

R118, R120

OIT1-7 Quelle recommandation qui parle du benzène, est implé-mentée par la convention 139 sur le cancer professionnel ?

R144

8.2.3 Approche conceptuelle : AFC/ARC

Modélisation de la collection Dans cette expérimentation, nous avons travaillé sur un corpuscontenant 20 conventions et 30 recommandations annotées avec l’ensemble des attributs, pourdeux raisons :

– c’est un corpus clos : le jugement avec des réponses exhaustives a été réalisé sur ce sous-ensemble de documents ;

– le temps de calcul des treillis est raisonnable.À partir de ces données nous avons construit les contextes formels et relationnels qui mo-

délisent la collection documentaire. La famille de contextes relationnels construite est composée

183

Page 203: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

de :– un contexte formel de conventions : 20 objets et 256 attributs (descripteurs sémantiques

de contenu) ;– un contexte formel de recommandations : 30 objets et 256 attributs (descripteurs séman-

tiques de contenu) ;– un contexte relationnel définissant la relation d’implémentation (convention × recomman-

dation).Nous avons mis en place un prototype de test pour la validation de l’approche : nous avons

implémenté l’algorithme de recherche et de navigation décrit dans le chapitre 6 (section 6.7) enJava et nous avons créé un module de visualisation de résultats en nous appuyant sur l’APIPrefuse 112. Nous avons utilisé l’outil Galicia 113 pour la construction des treillis avant et aprèsinsertion des requêtes. L’algorithme prend en entrée la famille de treillis construite (exportés auformat xml) et fournit en résultat un ensemble de concepts qui sont donnés en entrée au module devisualisation, lequel construit et affiche les graphes réponses. Ce prototype peut être vu commele point de départ pour le développement d’un outil de recherche relationnelle par treillis deconcepts (avec interfaces de saisie de requêtes et d’affichage de résultats) mis à disposition desutilisateurs sur des collections de documents liés.

Nous avons construit la famille de treillis relationnels à partir des contextes décrits ci-dessus(collection réduite de l’OIT). Rappelons que dans cette modélisation, le treillis des conventions(domaine) est enrichi par la relation implement vers le treillis des recommandations (co-domaine).Le tableau 8.2 décrit la FTR en nombre de concepts, nombre d’arcs, nombre de niveaux et la com-pare avec la FTR construite sur sur toute la collection OIT (en considérant les 188 conventionset les 199 recommandations avec 244 attributs).

Table 8.2 – Propriétés de la collection OIT : Nb. objets, Nb. attributs, Nb. concepts dans letreillis, Nb. arcs, Nb. niveaux (hauteur) du treillis.

#Obj #Att #Conc #Arc #NivConv. 188 244 5.947 21.797 16Rec. 198 244 28.341 126.888 18

Conv. réduit 20 244 134 333 9Rec. réduit 31 244 494 1433 13

La figure 8.1 illustre le treillis des conventions de la collection réduite de l’OIT avant enri-chissement relationnel 114. Vu leurs tailles, les treillis enrichis ne sont pas facilement visualisablespour exploration. Nous proposons la navigation par calcul de voisinage et par généralisation ouspécialisation et le module de visualisation de graphes résultats comme alternatives qui exploitentle potentiel de cette structure relationnelle. Ces possibilités sont discutées dans la suite.

Traitement des requêtes : formulation, interrogation, navigation Une fois le modèle dela collection construit, nous procédons au traitement des requêtes décrites dans le tableau 8.1. Cesrequêtes sont toutes relationnelles. Au-delà de l’algorithme d’interrogation, nous avons adoptéune stratégie complète de recherche (voir section 6.5.1) pour le traitement de ces requêtes. Elleconsiste en plusieurs étapes :

112. http ://prefuse.org/113. http ://www.iro.umontreal.ca/ galicia/114. Visualisé par Galicia.

184

Page 204: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.2. Corpus OIT

Figure 8.1 – Treillis des conventions avant enrichissement relationnel.

1. Décomposition/formulation de la requête : à partir de la requête en langage naturel,construire les concepts à insérer dans les treillis (extraire les descripteurs sémantiqueset le type de relation). Pour les besoins de test, nous avons développé une interface parformulaire que nous avons testée sur l’exemple de la collection (arrêtés, décrets).

2. Interrogation et navigation (si possible) : construire les treillis enrichis et localiser les ré-sultats pertinents (algorithme d’interrogation et de navigation).

3. Affichage des résultats : visualisation des graphes réponses (module de visualisation).Le présupposé d’unicité dans les requêtes n’est pas pris en compte, nous cherchons à chaque

fois toutes les réponses (listes, couples, graphes) possibles. Nous ne faisons pas la différence entrerequêtes avec ou sans cible dans l’affichage des résultats : nous affichons dans le résultat tous lesobjets qui sont mis en relations. Les traitement des requêtes diffèrent selon le nombre d’objetsvirtuels à ajouter. Le cas le plus général est l’ajout de deux objets virtuels (requêtes OIT1-2 etOIT1-6), un seul objet virtuel est ajouté lorsque qu’il existe un objet identifié dans la requête(requêtes OIT1-1 et OIT1-7). Dans ces deux cas, localiser les objets virtuels permet de trouverla réponse. Lorsqu’il n’existe pas de contraintes sur les identifiants, attributs ou relations dela requête, le traitement s’effectue comme pour une requête simple puis la partie relationnellede la réponse est lue directement sur les contextes relationnels. C’est le cas lorsque la cible estune recommandation qui n’est pas identifiée et qui n’est pas décrite par des attributs (requêtesOIT1-3, OIT1-4 et OIT1-5).

Les points suivants décrivent étape par étape le cas général de la stratégie de recherche adop-tée. Ils concrétisent l’algorithme 2 de recherche relationnelle du chapitre 6.7. La première partieconcerne la préparation des requêtes et la deuxième partie concerne la recherche de réponsespertinentes. L’algorithme retourne une liste de couples d’objets qui sont utilisés par le module

185

Page 205: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

de visualisation pour construire les graphes réponses.Étapes de la stratégie de recherche : Cas général

Entrée - Famille de contextes relationnels : Conventions, Recommandations, Relation Imple-ment.- Une requête relationnelle : "(Conv, {attc}), impl, (Rec, {attr})” , telle que :Conv ∈ {Convi, QueryConv} : objet convention identifié ou virtuelRec ∈ {Reci, QueryRec} : objet recommandation identifié ou virtuel{attx} : ensemble d’attributs, qui peut être vide

Sortie Liste de couples d’objets pertinents : {C} (conventions) , {R} (recommandations)

Préparation : formulation des requêtes et enrichissement des contextes formels1. Ajout de (QueryConv, {attc}) au contexte Conventions2. Ajout de (QueryRec, {attr}) au contexte Recommandations3. Ajout de la relation (Conv ×Rec) dans le contexte relationnel

Construction de la famille des treillis relationnelsConstruire les treillis : LatConv (conventions) et LatRec (recommandation) (procédureMULTIFCA de Galicia)

Recherche d’objets pertinentsCas 1 Deux objets virtuels ou un objet virtuel et un objet identifié

1. CC = identifier les concepts Conv dans LatConv (les concepts les plus spécifiquesdes objets dans la même extension que QueryConv ou l’objet identifié)2. CR = identifier les concepts Rec dans LatRec (les concepts les plus spécifiques desobjets dans la même extension que QueryRec ou l’objet identifié)3. Résultat : {C} = ∪Ext(CC) , {R} = ∪Ext(CR)

Cas 2 Un seul objet virtuel1. CC = identifier les concepts Conv dans LatConv (les concepts les plus spécifiquesdes objets dans la même extension que QueryConv ou l’objet identifié)2. Lire sur le contexte relationnel, pour chaque objet dans CC , les objets Reci qu’ilimplémente3. Résultat : {R} = ∪{Reci}

Nous détaillons dans ce qui suit le déroulement des étapes de cette stratégie sur les requêtesOIT1-1 et OIT1-2 (correspondant à chacun de ces cas) et les possibilités de navigation offertes :

OIT1-2 : Cette requête reflète le cas le plus général d’interrogation (ajout de deux objets vir-tuels). La requête est formulée comme suit : "(QueryConv),impl,(QueryRec,{accidentsde travail, marin})". L’algorithme d’interrogation retourne l’objet R142 (dans l’exten-sion du concept contenant QueryRec) et l’objet C164 (dans l’extension du concept contenantQueryConv). Le graphe réponse de cette requête, créé par le module de visualisation, estdonné par la figure 8.2. Sur ce graphe, la partie centrale correspond à la réponse exacte(R142) qui possède les attributs de la requête. La partie droite contient, en plus de la ré-ponse exacte, plusieurs réponses approchées (R107, R138, R164, R171) qui ne possèdentqu’une partie des attributs et qui sont obtenues par navigation dans le treillis (parcours degénéralisation). La partie gauche représente la convention qui implémente ces recomman-dations avec l’ensemble de ces attributs.Par le module de visualisation, nous avons cherché les attributs (descripteurs sémantiques)

186

Page 206: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.2. Corpus OIT

de l’objet C164 afin de les afficher avec le graphe résultat. Ceci permet à un utilisateurd’étendre les résultats en recherchant les conventions qui parlent de sujets similaires à C164

(qui sont annotés avec une partie de ses d’attributs seulement). La fonction de recherchepar l’exemple, décrite dans le chapitre 6, est destinée à ce type d’usage. Nous pouvonsà ce stade (sans l’interface de navigation) proposer directement à l’utilisateur des objetssimilaires en effectuant une recherche simple (requête simple avec les attributs de C164)sur le treillis initial des conventions.

Figure 8.2 – Graphes réponses exactes et approchées de la requête OIT1-2.

OIT1-1 : Cette requête contient un objet identifié (R113) donc un seul objet virtuel est créé(QueryConv). La requête décrit la recommandation avec un identifiant et aussi un en-semble d’attributs. L’identifiant est utilisé pour formuler la requête pour l’interrogation :"(QueryConv),impl,(R113)". L’algorithme d’interrogation retourne l’objet C144. Le grapheréponse de cette requête est donné par la figure 8.3. Relâcher la requête sur l’identifiant pourn’utiliser que les attributs permet de retourner des réponses approchées : "(QueryConv),impl,(R113QueryRec,{accidentsde travail, marin})".

Figure 8.3 – Graphe réponse de la requête OIT1-1.

8.2.4 Approche sémantique : première ontologie

Dans un premier temps l’ontologie a été peuplée avec les documents du corpus (individusde la classe Convention et de la classe Recommandation) ayant la relation hasConcept avec les

187

Page 207: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

descripteurs sémantiques de contenu du domaine du travail (individus de la classe WorkConcept

de type skos:Concept) et reliés entre eux par la relation implement ayant comme source desobjets de la classe Convention et comme cible des objets de la classe Recommandation. Cetteopération est faite automatiquement en transformant les documents (leurs identifiants), leursdescripteurs et leurs relations en triplets en se basant sur les classes de l’ontologie.

Nous avons interrogé la base de connaissances construite avec les requêtes OIT1-1 à OIT1-7pour lesquelles nous avons obtenu à chaque fois les réponses pertinentes, ainsi qu’avec les requêtesde OIT2-1 à OIT2-7. L’interrogation est faite avec SPARQL qui est plus expressif que le langagedéfini dans le chapitre 5 et nous permet d’exprimer des requêtes plus complexes. La traductionen SPARQL des requêtes est faite à la main mais en suivant quelques règles que nous explicitonssur quelques requêtes types.

OIT1-1 : Quelle convention implémente la Recommandation 113 sur la consultation aux éche-lons industriel et national ?Cette requête cherche les objets Convention en relation implement avec l’objet identi-fié Recommandation R113. Le présupposé de l’unicité dans la requête en langage natureln’est pas pris en compte dans la traduction SPARQL, s’il existe plus d’une réponse, ellessont toutes retournées. Comme dans l’approche conceptuelle, les descripteurs de contenuéchelon industriel et échelon national ne sont pas utilisés pour la recherche puisqu’ilsuffit d’utiliser l’identifiant de l’objet. Si la requête ne retourne pas de résultats, ils peuventservir à lancer une nouvelle requête qui cherche de manière plus générale les recomman-dations qui parlent de ce sujet. La requête OIT1-7 se traduit de la même manière, l’objetidentifié est la convention C139.

1 SELECT ?conv

2 WHERE {3 ?conv rdf:type ilo:Convention .4 ?conv ilo:implement ilo:R113 .

5 }

OIT1-2 : Quelle convention implémente la recommandation qui parle des accidents de travaildes marins ?Cette requête cherche les objets Convention en relation implement avec des objets Recommandationdécrits par les concepts accidents de travail et marins. Nous avons eu comme réponseexacte la recommandation R142 qui possède les deux attributs. S’il n’y a pas de réponseà cette requête, une réponse approchée peut être intéressante à retourner à l’utilisateur.L’approche sémantique ne retourne pas de telles réponses approchées contrairement à l’ap-proche conceptuelle qui propose des alternatives à la réponse exacte (en se basant sur lastructure du treillis) soit pour enrichir l’ensemble des résultats soit pour éviter de retournerun ensemble vide (dans le cas où il n’existe pas de réponse exacte). La requête OIT1-6 setraduit avec la même structure.

1 SELECT ?conv ?recom

2 WHERE {3 ?recom ilo:hasConcept ilo:occupationalaccidents , ilo:seafarer .4 ?conv ilo:implement ?recom .

5 }

OIT1-5 : Quelles sont les recommandations implémentées par des conventions qui parlent dela convention collective et de la négociation collective ?Cette requête (OIT1-3 et OIT1-4 ont la même structure) cherche les objets Recommandationen relation implement avec les objets Convention décrits par les concepts convention

188

Page 208: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.2. Corpus OIT

collective et négociation collective. La réponse, décrite dans le tableau ci-dessous,est donnée par les graphes dont les noeuds sont (R107,C147), (R108,C147), (R137,C147),

(R158,C154) et les arcs représentent la relation implémenté-par. Sa structure est trèsproche de la requête précédente, seule la cible change de convention à recommandation.Lorsque la cible est une recommandation, nous ne sommes pas obligée de créer la relation in-verse implémenté-par, changer l’ordre des variables (devant la clause SELECT de la requête)fait l’affaire sans toucher aux schémas de graphes (dans la clause WHERE). Avec l’approcheconceptuelle, ces requêtes ont nécessité un traitement différent des autres puisque, en l’ab-sence de contraintes sur les recommandations (ni d’attributs ni de relations dont ils sontle domaine), elles étaient d’abord traitées comme des requêtes simples sur les conventionsensuite complétées à partir des contextes relationnels.

1 SELECT ?recom ?conv

2 WHERE {3 ?conv ilo:hasConcept ilo:collectiveagreements, ilo:collectivebargaining .4 ?conv ilo:implement ?recom .

5 }

Recommandation Convention

R107, R108, R137 C147

R158 C154

Considérons maintenant les requêtes OIT2-1 à OIT2-7 décrites dans le chapitre 5. Nous avonsformulé ces requêtes pour compléter les types du premier ensemble définis par l’expert du do-maine. Ces requêtes sont génériques et ne disposent pas d’un ensemble de réponses pertinentesdéfini a priori comme dans le cas du premier ensemble. Dans la suite, nous proposons de trai-ter ces requêtes en décrivant leur traduction en SPARQL et en donnant un sous-ensemble desréponses retournées (seulement quelques requêtes représentatives seront décrites).

OIT2-1 : Quelles sont les recommandations qui sont implémentées ?Cette requête cherche tous les objets Recommandation qui sont le co-domaine de la relationimplement. Plusieurs réponses sont retournées (39), un extrait est donné dans le tableauci-dessous.

1 SELECT ?recom

2 WHERE {3 ?conv ilo:implement ?recom .

4 }

Recommandation

R083, R100, R105

OIT2-3 : Quels sont les couples de conventions et de recommandations (en relation d’implé-mentation) qui parlent de sujets différents ?Dans la requête, l’expression « sujets différents » peut être comprise de deux façons : au-cun descripteur de contenu en commun ou au moins un descripteur différent. La premièretraduction n’a pas de solution : toutes les recommandations possèdent au moins un des-cripteur en commun avec les conventions qui les implémentent. La deuxième traductionretourne 39 réponses dont un extrait est décrit dans le tableau ci-dessous.

1 SELECT ?recom ?conv

2 WHERE {3 ?conv ilo:implement ?recom .4 ?conv ilo:hasConcept ?concept .

5 MINUS {

6 SELECT ?recom WHERE {

7 ?recom ilo:hasConcept ?concept .}

189

Page 209: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

8 }

9 }1011 SELECT DISTINCT ?recom ?conv

12 WHERE {13 ?conv ilo:implement ?recom .14 ?recom ilo:hasConcept ?concept1 .15 ?conv ilo:hasConcept ?concept2 .

16 FILTER (?concept1 != ?concept2 ).

17 }

Recommandation Convention

R083 C122

R105 C164

OIT2-5 : Quelles sont les conventions qui implémentent la même recommandation et la recom-mandation qu’elles implémentent ?La requête cherche, pour un objet Recommandation, les objets Convention qui l’implé-mentent. Le mot clé ORDER BY permet de regrouper les résultats par recommandation. Entout, 8 réponses sont retournées, un exemple est donné dans le tableau suivant.

1 SELECT ?conv ?recom

2 WHERE {3 ?conv ilo:implement ?recom .

4 }

5 ORDER BY (?recom)

Recommandation Convention

R112 (C148,C161)

R111 (C122,C156)

OIT2-6 : Quelles sont les recommandations qui sont implémentées de deux manières différentes(c’est-à-dire par au moins deux conventions différentes) ? Cette requête retrouve l’ensembledes recommandations retournées dans la requête précédente (8 objets), un exemple deréponse est donné dans le tableau suivant.

1 SELECT DISTINCT ?recom

2 WHERE {3 ?conv1 ilo:implement ?recom .4 ?conv2 ilo:implement ?recom .

5 FILTER ( ?conv1 != ?conv2 )

6 }

Recommandation

R120, R144, R147

OIT2-7 : Existe-t-il des conventions qui implémentent deux recommandations différentes ? Danscette requête, l’utilisation de « Existe-t-il » indique que la réponse attendue est booléenne(vrai ou faux). Nous utilisons ASK à la place de SELECT qui permet de vérifier l’existencede tels triplets dans la base. La réponse retournée pour cette requête est TRUE.

1 ASK

2 {3 ?conv ilo:implement ?recom1 .4 ?conv ilo:implement ?recom2 .

5 FILTER ( ?recom1 != ?recom2 )

6 }

Pour le premier ensemble de requêtes (réelles, exprimées par des experts) la traduction étaitplus évidente que pour le deuxième (créé à des fins de test). De plus, nous avons noté pour cepremier ensemble que certaines structures de requêtes sont récurrentes. Nous proposons, commeperspective, de définir des patrons qui peuvent être utilisés pour automatiser le processus detraduction dans un système d’accès juridique.

190

Page 210: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

8.2.5 Discussion

Les deux approches permettent de retrouver toutes les réponses pertinentes aux requêtes.Même si la première approche n’est pas facile à mettre en œuvre (nous n’avons pas une stratégiede recherche unique pour tous le types de requêtes), elle offre des possibilités intéressantes denavigation.

En plus des réponses exactes, l’approche conceptuelle permet de retourner des réponses ap-prochées en explorant les treillis par généralisation ou par spécialisation ou de retourner lescontextes des documents retrouvés par calcul de voisinage. Ceci n’est pas possible avec l’approchesémantique sans la formulation d’une ou plusieurs nouvelles requêtes correspondant à différentescontraintes (sur les attributs ou sur les relations). Ceci suppose que l’utilisateur possède unebonne connaissance de la base et a un coût supplémentaire en temps de calcul.

Nous considérons qu’une technique de recherche qui combine ces deux approches aura demeilleures performances (en qualité de résultats, en temps de calcul ou passage à l’échelle). Nousproposons, comme perspective, une technique de recherche qui enchaîne l’approche sémantiqueet l’approche conceptuelle. Nous proposons d’organiser les résultats retournés, dans un premiertemps par l’approche sémantique, dans une structure conceptuelle que nous pouvons utiliser àdes fins de navigation ou de visualisation (des contextes formels et relationnels sont construitsà partir de l’ensemble des résultats). Par exemple, une telle technique est utile dans le cas oùbeaucoup de réponses sont retournées. Les organiser dans une structure de treillis facilite leuranalyse et aide à repérer les éventuelles interactions qui peuvent exister entre eux.

8.3 Corpus Légilocal

8.3.1 Description du corpus

La collection sur laquelle nous avons travaillé dans le cadre du projet Légilocal contient 20documents de 4 types différents et 29 articles, les documents peuvent être composés de plusieursarticles et possèdent plusieurs types de relations entre eux. Les documents sont collectés à partirde plusieurs sources : il s’agit de décisions publiées par des collectivités locales, de décisions dejurisprudence et de textes législatifs (lois, décrets, etc) issus de portails juridiques, principalementLegifrance 115. Les documents et leurs relations sont décrits dans le tableau 8.3.

Les actes locaux représentent des actes des communes du comité du public et des actes citésdans les décisions de jurisprudence, dont on n’a pas le texte complet, mais seulement des extraitsinclus dans le texte de la décision. Les décisions de jurisprudence sont récupérées sur Legifranceou bien citées dans les autres décisions (et pas accessibles sur Legifrance) car elles correspondent àdes étapes précédentes de la procédure. Même si on ne dispose pas de ces documents, il nous paraîtpertinent de les représenter en tant qu’instances dans l’ontologie. Leur contenu est partiellementdécrit dans les décisions qui les citent.

Vu que les documents ne sont pas annotés avec un standard juridique pour extraire leursstructures et leur contenu sémantique et identifier les liens de références et de citation qui existententre eux, pour réaliser ces expérimentations, l’instantiation des ontologies avec ce corpus est faiteà la main. L’effort a été réduit par la définition au moment de la conception des deux ontologiesde propriétés inverses, de sous-types de propriétés et de restrictions de type subClassOf etequivalentClass et ensuite par l’exécution d’un moteur d’inférence qui permet de générer denouveaux triplets et de les ajouter à la base.

115. Corpus et requêtes construits par Sylvie Salotti après discussions avec Eve Paul (juriste).

191

Page 211: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

Table 8.3 – Description de la collection Légilocal : les documents, leurs types et leurs relations.

Actes Locaux Arrêté 97-17 de Champigné.Arrêté N 2007-031 de Villecresnes .Arrêté N 2011-22 de Villecresnes.Arrêté N 2012-17 de Villecresnes.Arrêté N 2012-48 de Villecresnes.Arrêté du 4 juillet 1997 du maire d’Ance (annulé par la Cour Adminis-trative d’Appel de Bordeaux le 28/05/02).Arrêté du 24 mai 1994 du maire de Magny-le-Feule (confirmé par leConseil d’État le 29/12/97).

Législation - Codes Code de l’environnement : Articles L.362-1 à L362-8 et Articles R. 362-1à R 362-7.Code général des collectivités territoriales : Article 2122-28, Article 2211-1, Articles 2212-1 à 2212-5, Articles 2213-1 à 2213-6-1.Code de la route.Code de la voirie routière.Code des communes : Article 131-1 (ancien texte abrogé remplacé parl’article 2212-1 du Code général des collectivités territoriales, cité par ladécision du Conseil d’État du 29/12/97).

Législation - Textesnon codifiés

Loi n 91-2 du 3 janvier 1991 relative à la circulation des véhicules ter-restres dans les espaces naturels et portant modification du Code descommunes.Décret n 92-258 du 20 mars 1992 portant modification du Code de laroute et application de la loi n 91-2 du 3 janvier 1991.Circulaire OLIN du 6 septembre 2005.Ordonnance n 2000-914 du 18 septembre 2000 relative à la partie légis-lative du Code de l’environnement.

Jurisprudence Décision N 99BX00597 de la Cour Administrative d’Appel de Bordeauxdu 28/05/2002.Décision N 173042 du Conseil d’État en date du 29/12/1997.Jugement du tribunal administratif de Pau du 19 janvier 1999.Jugement du tribunal administratif de Caen du 5 juillet 1995.

192

Page 212: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

8.3.2 Requêtes Légilocal et réponses pertinentes

Reprenons l’ensemble des requêtes formulées sur le corpus Légilocal décrites dans le cha-pitre 5 (section 5.4). Ces requêtes étant génériques, nous les avons projetées sur la collectiondécrite dans la section précédente et nous avons sélectionné un sous-ensemble permettant detester les différents aspects de l’approche sémantique. Le tableau 8.4 décrit les nouvelles requêtesavec pour chaque requête la réponse ou l’ensemble de réponses attendues.

Table 8.4 – Requêtes Légilocal avec réponses pertinentes.

Requête RéponseL1 Quelles sont les décisions de jurisprudence qui

appliquent l’article L. 2213-4 du Code Généraldes Collectivités Territoriales ?

L’arrêt du 28/05/2002 de la Cour Admi-nistrative d’Appel de Bordeaux.

L2 Quels sont les textes d’application de la loi 91-2du 3 janvier 1991 ?

Le décret 92-258 du 20 mars 1992.

L3 Quelle est la décision qui fait l’objet de l’arrêt N99BX00597 de la Cour Administrative d’Appelde Bordeaux du 28/05/2002 ?

Le jugement du Tribunal Administratif dePau du 19/01/1999.

L4 Je cherche des arrêtés municipaux concernant laréglementation de la circulation sur les cheminsruraux qui ont été confirmés par une décision dejustice.

L’arrêté de Magny-le-Feule du24/05/1994 confirmé par la décisiondu Conseil d’État du 29/12/1997.

L5 Quels sont les textes législatifs sur lesquels s’ap-puient les décisions de jurisprudence qui ont an-nulé des arrêtés municipaux parlant de cheminsruraux ?

L’article L. 2213-4 du code général descollectivités territoriales.

L6 Je voudrais des arrêtés municipaux qui parlentde réglementation de la circulation sur les che-mins ruraux ou les chemins forestiers avec tousles textes visés.

Ensemble de graphes <arrêté , visasLegis-lation, textes législatifs visés>.

L7 Je voudrais savoir quel texte a codifié l’articleL362-1 du code de l’environnement.

Ordonnance n 2000-914 du 18 septembre2000 relative à la partie législative ducode de l’environnement.

L8 Je voudrais la dernière version (ou la version envigueur) de l’article L362-1 du code de l’environ-nement.

Article L. 362-1 du code de l’environne-ment en vigueur au 1er juillet 2013.

L9 Je voudrais savoir si les textes visés par l’arrêté97-17 de Champigné ont été modifiés, et si oui,quelles sont les nouvelles versions de ces textesainsi que les textes source de cette modification.

Article L2213-1 du Code Général des Col-lectivités Territoriales version du 29-01-14, Article L2213-4 du Code Général desCollectivités Territoriales version du 01-01-97.

8.3.3 Exécution sur la première ontologie documentaire

Le graphe de la figure 8.4 montre un extrait du graphe RDF de la collection modélisée avecla première ontologie. Toutes les requêtes formulées sur cette collection ont une cible unaire. Lesréponses à ces requêtes sont des listes de documents. Ce type de réponse peut être suffisant dans

193

Page 213: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

Table 8.5 – Vocabulaire utilisé pour la formation de la collection Légilocal et des requêtesassociées

Types DescriptifsCourtDecision décision de jurisprudenceCourtOrder arrêtCodifiedArticle article de codeLocalDecree arrêté municipalLegislation texte législatifRelations DescriptifsappliesLegislation une décision applique un texte législatifisSubjectOfDecision une décision qui fait l’objet d’un arrêtconfirmed-by un arrêté municipal confirmé par une décisioncancel une décision annule un arrêté municipallegVisasBy un texte législatif visé par un arrêté municipalisCodifiedBy un texte législatif qui codifie un articledateInForce une date d’entrée en vigueur d’un texteDescripteurs Equivalents terminologiquesReglementationCirculation « réglementation de la circulation »CheminRural « chemin rural »CheminForestier « chemin forestier »InterdictionCirculer « interdiction de circuler »

194

Page 214: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

le cas où la requête contient un objet identifié. Dans le cas où tous les objets dans la requêtene sont pas identifiés, une réponse intéressante consiste à retourner les triplets qui instancient legraphe de la requête. Pour faire ainsi, nous avons traduit ces requêtes avec au moins deux cibleset le résultat retourné est sous forme de graphe.

Figure 8.4 – Graphe RDF sur la première ontologie : instances de la classe CodifiedText.

L1 : Quelles sont les décisions de jurisprudence qui appliquent l’article L. 2213-4 du Code Gé-néral des Collectivités Territoriales ?L’exécution de cette requête directement sur la base initiale créée au moment de l’instantia-tion ne retourne pas de résultats. Ceci est dû au fait que la requête porte sur les décisionsde jurisprudence (objets de type CourtDecision) qui appliquent l’article L.2213-4 alorsqu’au moment de l’instantiation, le seul document créé en relation d’application avec cetarticle est l’arrêt du 28/05/2002 de la Cour Administrative d’Appel de Bordeaux (de typeCourtOrder). Pour traiter cette requête, il faut vérifier l’exécution d’une règle d’inférenced’héritage afin de reconnaître les objets de classe « Arrêt » (CourtOrder), sous-classe dela classe « Décision de jurisprudence » (CourtDecision), comme étant aussi des objets decette dernière.

1 SELECT ?decision

2 WHERE {3 ?decision rdf:type :CourtDecision .4 ?decision :appliesLegislation :CodeGenCollTerr-ArtL2213-4

5 }

La requête possède une réponse donnée par :decision

ArretCAA-Bordeaux-28-05-02 : l’arrêt du 28/05/2002 de laCour Administrative d’Appelde Bordeaux

L2 : Quels sont les textes d’application de la loi 91-2 du 3 janvier 1991 ?Requête avec une cible (dont on ne précise pas le type) et un objet identifié.

1 SELECT ?text

2 WHERE {3 ?text :appliesLegislation :Loi91-2du3janvier1991 .

4 }

La réponse à cette requête est :text

Decret92-258du20mars1992 : le décret 92-258 du 20 mars1992

195

Page 215: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

L3 : Quelle est la décision qui fait l’objet de l’arrêt N 99BX00597 de la Cour Administratived’Appel de Bordeaux du 28/05/2002 ?Requête avec une cible et un objet identifié. Le type de la cible est donné : décision (dejurisprudence).

1 SELECT ?decision

2 WHERE {3 ?decision rdf:type :CourtDecision .4 ?decision :isSubjectOfDecision :ArretCAA-Bordeaux-28-05-02

5 }

La réponse à cette requête est :decision

JugementTA-Pau-19-01-1999 : le jugement du TribunalAdministratif de Pau du19/01/1999

L4 : Je cherche des arrêtés municipaux concernant la réglementation de la circulation sur leschemins ruraux qui ont été confirmés par une décision de justice.Cette requête ne contient pas d’objet identifié, elle contient deux objets inconnus : elle esttraduite avec deux cibles de types arrêté municipal et décision de jurisprudence.

1 SELECT ?decree ?decision

2 WHERE {3 ?decree rdf:type :LocalDecree .4 ?decree :hasConcept :ReglementationCirculation , :CheminRural .5 ?decree :confirmed_by ?decision .6 ?decision rdf:type :CourtDecision .

7 }

La réponse à cette requête est formée par les deux graphes décrits dans le tableau suivant :l’arrêté de Magny le Feule confirmé par deux décisions :

decree decision

ArreteMagnyLeFeule94 confirmé par DecisionCE-29-12-1997

JugementTA-Caen-5-07-1995

L5 : Quels sont les textes législatifs sur lesquels s’appuient les décisions de jurisprudence quiont annulé des arrêtés municipaux parlant d’interdiction de circuler ?Cette requête ne contient pas d’objet identifié, elle contient trois objets inconnus : elleest traduite avec trois cibles de types arrêté municipal, décision de jurisprudence et textelégislatif.

1 SELECT ?text ?decision ?decree

2 WHERE {3 ?decree rdf:type :LocalDecree .4 ?decree :hasConcept :InterdictionCirculer .5 ?decision rdf:type :CourtDecision .6 ?decision :cancel ?decree .7 ?text rdf:type :Legislation .8 ?decision :appliesLegislation ?text .

9 }

La réponse à cette requête est donnée par un graphe composé de trois noeuds :text decision decree

CodeGenCollTerr- appliqué ArretCAA-Bordeaux- annule Arrete-

ArtL2213-4 par 28-05-02 Ance97

L6 : Je voudrais des arrêtés municipaux qui parlent de réglementation de la circulation sur leschemins ruraux ou les chemins forestiers avec tous les textes visés.

196

Page 216: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

1 SELECT ?decree ?text

2 WHERE {3 ?decree rdf:type :LocalDecree .

4 {?decree :hasConcept :ReglementationCirculation , :CheminForestier .}

5 UNION {?decree :hasConcept :ReglementationCirculation , :CheminRural}6 ?text :legVisasBy ?decree .

7 }

La réponse à cette requête est formée par les dix graphes suivants :decree text

ArreteChampigne97-17 visas Legislation CodeGenCollTerr-ArtL2213-4

CodeGenCollTerr-ArtL2213-1

Loi91-2du3janvier1991

Decret92-258du20mars1992

ArreteMagnyLeFeule94 visas Legislation CodeRural-ArtL161-5

CodeDesCommunes-ArtL131-1

ArreteVillecresnes2011-22 visas Legislation CodeGenCollTerr-ArtL2212-2

CodeGenCollTerr-ArtL2212-1

ArreteVillecresnes2012-17 visas Legislation CodeGenCollTerr-ArtL2122-28

CodeGenCollTerr-ArtL2213-2

L7 : Je voudrais savoir quel texte a codifié l’article L362-1 du code de l’environnement.La relation codifies permet de relier un texte source de la codification et le texte originalqui doit être codifié. Or dans cette requête, nous ne disposons pas d’information sur cedernier mais plutôt sur le nouveau texte issu de la codification (article L362-1 du code del’environnement). Le lien qui peut exister entre le texte source de la codification et le texterésultat, est la relation isCodifiedBy. Nous avons utilisé cette relation pour traduire larequête qui a fourni une réponse décrite dans le tableau ci-dessous. Dans le cas où cetterelation n’est pas créée dans la base, il n’est pas possible de répondre à cette requête avecla première modélisation. En revanche, avec la deuxième ontologie, ceci est possible grâceà la modélisation des relations comme des entités reliant tous les documents intervenant àune opération de codification (nous n’avons pas besoin de coder toutes les relations pourpouvoir retrouver les documents liés).

1 SELECT ?text

2 WHERE {3 ?article rdf:type :CodifiedArticle .4 ?article dct:title "Code de l’environnement - Article L. 362-1" .5 ?article :isCodifiedBy ?text .

6 }

La réponse à cette requête est donnée par :text

Ordonnance2000-914du18septembre2000

L8 : Je voudrais la dernière version (ou la version en vigueur) de l’article L362-1 du code del’environnement.La requête recherche la dernière version de l’article L.362-1 du code de l’environnement.Cet article possède plusieurs versions, elles ont toutes le même titre : nous utilisons cetteinformation pour chercher les différentes versions. Nous cherchons pour chaque version sadate d’entrée en vigueur et le résultat est donné par celle qui a la date la plus récente(ORDER By pour ordonner les versions par date, puis LIMIT 1 pour ne prendre que la plusrécente).

197

Page 217: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

1 SELECT ?article

2 WHERE {3 ?article rdf:type :Article .4 ?article dct:title "Code de l’environnement - Article L. 362-1" .5 ?article :dateInForce ?date .

6 } ORDER BY DESC(?date) LIMIT 1

La réponse à cette requête est donnée par la version du 1er juillet 2013

text

article_L362-1_V3

8.3.4 Exécution sur la deuxième ontologie documentaire

Nous avons créé les instances correspondant aux données du corpus Légilocal sur ladeuxième ontologie et nous avons exécuté le même ensemble de requêtes décrites dans la sectionprécédente. Toutes les requêtes que nous avons pu exécuter sur la première ontologie retournentle même ensemble de résultats sur la deuxième, seule leur traduction en SPARQL est donnée dansla suite. Les requêtes plus complexes, qui portent essentiellement sur l’historique des documents(versions), sont décrites avec leurs résultats.

L1 : Quelles sont les décisions de jurisprudence qui appliquent l’article L. 2213-4 du Code Gé-néral des Collectivités Territoriales ?La relation applique est modélisée comme sous classe de Citation. Les propriétés citationSourceet citationTarget permettent de relier le domaine et le co-domaine de la relation.

1 SELECT ?decision

2 WHERE {3 ?decision rdf:type lido:CourtDecision .4 ?application rdf:type lido:Application .5 ?application lido:citationSource ?decision .6 ?application lido:citationTarget :CGCT-ArtL2213-4

7 }

L2 : Quels sont les textes d’application de la loi 91-2 du 3 janvier 1991 ?

1 SELECT ?text

2 WHERE {3 ?application rdf:type lido:Application .4 ?application lido:citationSource ?text .5 ?application lido:citationTarget :loi_91-2 .

6 }

L3 : Quelle est la décision qui fait l’objet de l’arrêt N 99BX00597 de la Cour Administratived’Appel de Bordeaux du 28/05/2002 ?Pour identifier les documents qui sont mis en relation, nous cherchons l’opération documen-taire Decision qui a comme source le document identifié (arrêt N 99BX00597) et commecible la décision en question.

1 SELECT ?decision

2 WHERE {3 ?decision rdf:type lido:CourtDecision .4 ?decisionref rdf:type :Decision .5 ?decisionref lido:referenceSource :ArretCAA-Bordeaux-28-05-2002 .6 ?decisionref lido:referenceTarget ?decision .

7 }

L4 : Je cherche des arrêtés municipaux concernant la réglementation de la circulation sur leschemins ruraux qui ont été confirmés par une décision de justice.

198

Page 218: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

1 SELECT ?decree ?decision

2 WHERE {3 ?decree rdf:type lido:LocalDecree .4 ?decree lido:hasConcept :reglementation_circulation, :cheminRural .5 ?decision rdf:type lido:CourtDecision .6 ?confirmationref rdf:type :Confirmation .7 ?confirmationref lido:referenceSource ?decision .8 ?confirmationref lido:referenceTarget ?decree .

9 }

L5 : Quels sont les textes législatifs sur lesquels s’appuient les décisions de jurisprudence quiont annulé des arrêtés municipaux parlant d’interdiction de circuler ?La relation « s’appuie sur » correspond à la relation applique modélisée par la classeApplication sous classe de Citation (relation binaire). La relation « annule » est modé-lisée par une opération documentaire Annulation sous-classe de Decision (relation ter-naire).

1 SELECT ?text ?decision

2 WHERE {3 ?decision rdf:type lido:CaseLaw .4 ?decree rdf:type lido:LocalDecree .5 ?application rdf:type lido:Application .6 ?annulation rdf:type :Annulation .7 ?application lido:citationSource ?decision .8 ?application lido:citationTarget ?text .9 ?annulation lido:referenceSource ?decision .

10 ?annulation lido:referenceTarget ?decree .11 ?decree lido:hasConcept :interdiction_de_circuler .

12 }

L6 : Je voudrais des arrêtés municipaux qui parlent de réglementation de la circulation sur leschemins ruraux ou les chemins forestiers avec tous les textes visés.La relation « visa » est modélisée avec la classe VisaCitation sous-classe de Citation

(relation binaire).1 SELECT ?decree ?text

2 WHERE {3 ?decree rdf:type lido:LocalDecree .

4 {?decree lido:hasConcept :reglementation_circulation , :cheminForestier .}

5 UNION {?decree lido:hasConcept :reglementation_circulation , :cheminRural}6 ?visa rdf:type lido:VisaCitation .7 ?visa lido:citationSource ?decree .8 ?visa lido:citationTarget ?text .

9 }

L7 : Je voudrais savoir quel texte a codifié l’article L362-1 du code de l’environnement.La relation « codifie » est modélisée comme une opération documentaire avec la classeCodification (relation ternaire).

1 SELECT ?text

2 WHERE {3 ?codification rdf:type lido:Codification .4 ?codification lido:referenceSource ?text .5 ?codification metalex:result :article_L362-1 .

6 }

L8 : Je voudrais la dernière version (ou la version en vigueur) de l’article L362-1 du code del’environnement.Dans la première modélisation, nous étions obligée de passer par le titre de l’article, unepropriété commune à toutes les versions. Dans cette modélisation, la gestion des versionsavec œuvre et expression facilite la recherche.

199

Page 219: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

1 SELECT ?version

2 WHERE {3 ?version rdf:type lido:DocumentaryUnitExpression .4 ?version metalex:realizes :article_L362-1 .5 ?version lido:dateInForce ?date .

6 } ORDER BY DESC(?date) LIMIT 1

L9 : Je voudrais savoir si les textes visés par l’arrêté 97-17 de Champigné ont été modifiés, etsi oui, quelles sont les nouvelles versions de ces textes ainsi que les textes source de cettemodification.Dans cette requête, l’utilisateur formule une demande complexe qui combine la gestion desversions (version précédente, version suivante) et des relations qui font intervenir plus dedeux documents (document source de modification, document cible et document résultat).Trouver cette information avec la première ontologie n’est pas facilement réalisable, ladeuxième ontologie permet d’expliciter ces contraintes.

1 SELECT ?text ?newversion ?oldversion ?source

2 WHERE {3 ?visa rdf:type lido:VisaCitation .4 ?visa lido:citationSource :ArreteChampigne97-17 .5 ?visa lido:citationTarget ?text .6 ?modification rdf:type lido:Modification .7 ?modification lido:referenceTarget ?oldversion .8 ?modification lido:referenceSource ?source .9 ?modification metalex:result ?newversion .

10 ?text metalex:realizedBy ?oldversion .

11 }

La réponse est donnée par les articles L2213-1 et L2213-4 du code général des collectivitésterritoriales avec leurs anciennes et nouvelles versions et les textes de loi sources de lamodification.

text newversion oldversion source

CGCT-ArtL2213-1 CGCT-ArtL2213-1-V29-01-14 CGCT-ArtL2213-1-V24-02-96 Loi-2014-58-Art62

CGCT-ArtL2213-4 CGCT-ArtL2213-4-V01-01-97 CGCT-ArtL2213-4-V24-02-96 Loi96-1236-Art42

Le graphe de la figure 8.5 montre le graphe instance de l’opération documentaire de modifi-cation pour l’article L2213-1.

Figure 8.5 – Opération documentaire de modification de l’article L2213-1 : l’œuvre, les deuxversions qui réalisent l’œuvre et le texte source de modification.

200

Page 220: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

8.3. Corpus Légilocal

8.3.5 Discussion

Dans la première ontologie les relations sont représentées par des liens directs entre les objets(modélisés avec des propriétés d’objets). Cette modélisation a l’avantage d’être plus facile àinstancier et à interroger mais elle est mal adaptée à la modélisation des relations complexesmettant plus de deux documents en jeu ou associant plusieurs versions à un même document.À l’inverse, la deuxième ontologie demande un plus grand effort d’instantiation mais permetde gérer les aspects liés aux chaînage de versions et des relations de référence à plus de deuxdocuments. Elle est plus adaptée à la complexité des liens dans le domaine juridique.

201

Page 221: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 8. Experimentation

202

Page 222: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 9

Conclusion et perspectives

9.1 Conclusion

Le travail présenté dans cette thèse vise à améliorer le processus de recherche d’informationsémantique dans une collection documentaire en proposant l’intégration de la dimension inter-textuelle dès le départ dans le processus de recherche. L’analyse des besoins dans le domainejuridique montre, notamment à travers les requêtes des juristes, l’enjeu que représente la priseen compte de l’intertextualité dans ce domaine.

Nous avons proposé deux approches de modélisation et de recherche dans une collection dedocuments inter-reliés. Ces approches construisent un modèle de collection documentaire qui sebase sur le contenu sémantique des documents, leur typologie ainsi que les relations intertextuellesqu’ils entretiennent. Cela permet de répondre à des requêtes relationnelles qui portent à la fois surle contenu sémantique et sur les liens intertextuels et de retourner en réponse des graphes de do-cuments liés. La première approche utilise l’analyse formelle de concepts et l’analyse relationnellede concepts pour modéliser la collection de documents par des structures conceptuelles. Nousavons défini des méthodes de recherche de documents par accès direct ou par navigation pourinterroger et explorer le modèle relationnel construit puis retourner des documents ou graphesde documents pertinents. La deuxième approche présente une solution plus opérationnelle baséesur les technologies du web sémantique et propose un modèle à base d’ontologies pour modéliserdes collections de documents liés. Au-delà de la recherche traditionnelle, ces modèles offrent desfonctionnalités sémantiques et relationnelles de RI.

Dans la première approche, des contextes formels et des contextes relationnels sont créésrespectivement en fonction des descripteurs sémantiques et des références entre les documents(les documents doivent être annotés sémantiquement et la structure des documents doit êtreanalysée pour extraire les liens de référence). L’utilisateur formule ensuite une requête qui peutêtre de deux types : simple ou relationnelle. L’algorithme de recherche traite la requête et renvoiedes réponses pertinentes à l’utilisateur, soit une liste de documents pertinents soit des graphes dedocuments. L’utilisateur a aussi la possibilité d’explorer la structure des treillis par navigationentre les catégories de documents.

Bien que cette approche ne permette pas de traiter tous les types de requêtes identifiés dansl’analyse des besoins ni de travailler sur une collection de grande taille, elle nous a permis demontrer l’intérêt d’une approche intertextuelle pour la RI. Elle a aussi l’avantage de proposer àl’utilisateur des réponses approchées en l’absence de réponses exactes.

Dans la deuxième approche, on peut modéliser plus de propriétés documentaires : la typologiedes documents, les liens intertextuels et leurs différents types, la structure d’un document et

203

Page 223: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 9. Conclusion et perspectives

son contenu sémantique. Pour combiner toutes ces propriétés dans un seul et unique modèleutilisant les technologies du web sémantique nous avons proposé une ontologie documentairepour les textes juridiques qui est structurée en trois modules : module document (structure),module collection (types des documents et liens intertextuels) et module sémantique (ressourcessémantiques pour les concepts de domaine). La gestion avancée des versions (cycle de vie d’undocument) et des opérations documentaires à l’origine des références entre les documents nous aamenée à proposer une deuxième ontologie documentaire qui prend en compte ces deux derniersaspects.

L’adoption d’un modèle de document intégré pour coder la structure des documents, leursannotations sémantiques et la structure sémantique de la collection permet de traiter des re-quêtes complexes combinant des critères de recherche structuraux, intertextuels et de contenu.Le choix de la première ou de la deuxième ontologie dépend de l’application et des besoins derecherche. Nous avons pu répondre à toutes les requêtes recensées dans l’analyse des besoins età d’autres types plus complexes que nous avons élaborés en anticipant sur les futurs besoins desutilisateurs. Par rapport à la première approche, nous avons perdu la possibilité d’avoir, sanscalcul supplémentaire, des réponses approchées (avantage lié à la navigation dans la structure destreillis) mais nous avons gagné sur les détails de description des documents (structure, hiérarchiesémantique des attributs) et en échelle.

Les résultats des systèmes de RI juridique existants et les approches relationnelles proposéessont différents. Dans les systèmes de RI existants les documents retournés sont organisés dansune liste sans tenir compte des liens intertextuels qui existent habituellement entre eux. Dansles approches que nous proposons, les réponses sont présentées sous forme de graphes où lesnœuds correspondent aux différents types de documents (code, loi, jurisprudence, etc.) et lesarcs correspondent aux différents types de liens entre eux (modification, abrogation, etc.).

9.2 Perspectives

Dans un contexte applicatif, nous avons pu montrer par notre travail l’intérêt de traiterl’intertextualité dans un système réel d’accès juridique. Évidemment, beaucoup reste à fairepour aboutir à un système opérationnel :

– L’annotation des documents au regard d’une ressource terminologique et l’extraction deleurs structures (étape que nous avons supposée faite dans notre travail). Les documentsétant de différents types, une méthode d’extraction automatique permet de prendre encompte la diversité des documents possédant des structures spécifiques selon leurs types.

– Analyse des besoins en termes d’interfaces pour étudier la manière la plus acceptable pourles utilisateurs pour entrer des requêtes relationnelles basées sur les caractéristiques de lacollection (descripteurs sémantiques, types de documents, types de liens).

– Concevoir sur cette base des interfaces utilisateurs conviviales pour la création des requêteset pour l’affichage des résultats.

À court terme, notre objectif consiste essentiellement à :– Concevoir des interfaces simples à base de formulaires pour aider les utilisateurs à entrer

des requêtes relationnelles. L’utilisation des formulaires a l’avantage de regrouper toutesles caractéristiques sur lesquelles peuvent porter les requêtes ce qui aide les utilisateurs àélargir le champ des requêtes simples habituellement posées.

– Élaborer des interfaces d’affichage de résultats qui sont retournés sous forme de graphes dedocuments.

– Spécifier davantage le langage de requêtes défini dans ce travail pour trouver un compro-

204

Page 224: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

9.2. Perspectives

mis entre le plus expressif (comme SPARQL) et ce qui est effectivement utile pour lesutilisateurs et appréhendable par eux.

– Combiner les deux approches proposées pour en tirer le meilleur des deux : taille de collec-tions pour l’approche sémantique, navigation pour l’approche conceptuelle. Une approchecombinée sémantique-conceptuelle consisterait :

1. à modéliser les documents avec l’approche sémantique en créant une ontologie docu-mentaire instanciée avec les données de la collection,

2. à lancer la recherche sur la base construite,

3. à extraire des données à partir des triplets récupérés pour construire les contextesformels et relationnels,

4. à modéliser les résultats avec une famille de treillis relationnels. Les structures rela-tionnelles construites offrent un espace de navigation dans l’ensemble des résultatsretournés qui facilite leur exploitation et leur analyse.

– Affiner le modèle ontologique en étudiant plus en profondeur les spécificités des textesjuridiques.

– Proposer un modèle de conception d’ontologie (Content Ontology Design Pattern) commesolution réutilisable pour la modélisation des références juridiques. Il s’agit de représenterune référence comme une entité pour permettre une description détaillée de la référenceelle-même en termes de documents et des agents impliqués mais aussi en termes de multi-plicité des types de ces références à laquelle on accorde une très grande importance dansle domaine juridique. Cette représentation permet de réduire les efforts de modélisation etd’instantiation (elle concerne un contenu récurrent dans les textes de loi) ce qui représenteun avantage majeur puisque la calculabilité est un problème commun dans la représentationdes connaissances juridiques.

– Explorer d’autres domaines d’application dans lesquels une recherche d’information rela-tionnelle pourrait apporter des solutions : le domaine juridique présente un exemple extrêmesur lequel nous avons jugé pertinent de tester nos approches, mais il n’est pas certain quedes modèles aussi riches soient nécessaires pour d’autres domaines.

205

Page 225: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Chapitre 9. Conclusion et perspectives

206

Page 226: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[DBL, 2009] (2009). The 12th International Conference on Artificial Intelligence and Law, Pro-ceedings of the Conference, June 8-12, 2009, Barcelona, Spain. ACM.

[Abasolo and Gomez, 2000] Abasolo, J. M. and Gomez, M. (2000). Melisa. an ontology-basedagent for information retrieval in medicine. In Proceedings of the First International Workshopon the Semantic Web (SemWeb2000), pages 73–82.

[Abiteboul et al., 1995] Abiteboul, S., Hull, R., and Vianu, V. (1995). Foundations of Databases.Addison-Wesley.

[Agnoloni and Tiscornia, 2010] Agnoloni, T. and Tiscornia, D. (2010). Semantic web standardsand ontologies for legislative drafting support. In Proceedings of the 2nd IFIP WG 8.5 inter-national conference on Electronic participation, pages 184–196, Berlin, Heidelberg. Springer-Verlag.

[Alam et al., 2013] Alam, M., Chekol, M. W., Coulet, A., Napoli, A., and Smaïl-Tabbone, M.(2013). Lattice based data access (lbda) : An approach for organizing and accessing linkedopen data in biology. In Proceedings of the International Workshop on Data Mining on LinkedData, with Linked Data Mining Challenge collocated with the European Conference on MachineLearning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD2013), Prague, Czech Republic, September 23, volume 1082 of CEUR Workshop Proceedings.CEUR-WS.org.

[Amardeilh et al., 2013] Amardeilh, F., Bourcier, D., Cherfi, H., Dubail, C., Garnier, A.,Guillemin-Lanne, S., Mimouni, N., Nazarenko, A., Ève Paul, Salotti, S., Seizou, M., Szulman,S., and Zargayouna, H. (2013). The légilocal project : the local law simply shared. In LegalKnowledge and Information Systems - JURIX 2013 : The Twenty-Sixth Annual Conference,December 11-13, 2013, University of Bologna, Italy, pages 11–14.

[Amardeilh et al., 2005] Amardeilh, F., Laublet, P., and Minel, J.-L. (2005). Document annota-tion and ontology population from linguistic extractions. In Proceedings of the 3rd internationalconference on Knowledge capture (K-CAP ’05), pages 161–168.

[Andrews and Fox, 2007] Andrews, N. O. and Fox, E. A. (2007). Recent Developments in Do-cument Clustering. Technical report.

[Andrews, 2009] Andrews, S. (2009). In-close, a fast algorithm for computing formal concepts.In the Seventeenth International Conference on Conceptual Structures.

[Andrews, 2011] Andrews, S. (2011). In-close2, a high performance formal concept miner. InConceptual Structures for Discovering Knowledge - 19th International Conference on Concep-tual Structures, ICCS 2011, Derby, UK, Lecture Notes in Computer Science, pages 50–62.Springer.

207

Page 227: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Andrews and Orphanides, 2013] Andrews, S. and Orphanides, C. (2013). Discovering know-ledge in data using formal concept analysis. International Journal of Distributed Systems andTechnologies (IJDST), 4(2) :31–50.

[Angles and Gutierrez, 2008] Angles, R. and Gutierrez, C. (2008). The expressive power ofsparql. In The Semantic Web - International Semantic Web Conference - ISWC 2008, vo-lume 5318 of Lecture Notes in Computer Science, pages 114–129. Springer Berlin Heidelberg.

[Arévalo et al., 2006] Arévalo, G., Falleri, J.-R., Huchard, M., and Nebut, C. (2006). Buildingabstractions in class models : Formal concept analysis in a model-driven approach. In ModelDriven Engineering Languages and Systems, 9th International Conference, MoDELS 2006,Genova, Italy, October 1-6, volume 4199 of Lecture Notes in Computer Science, pages 513–527. Springer.

[Ashley, 2013] Ashley, K. D., editor (2013). Legal Knowledge and Information Systems - JURIX2013 : The Twenty-Sixth Annual Conference, December 11-13, 2013, University of Bologna,Italy, volume 259 of Frontiers in Artificial Intelligence and Applications. IOS Press.

[Azmeh et al., 2011a] Azmeh, Z., Driss, M., Hamoui, F., Huchard, M., Moha, N., and Tiber-macine, C. (2011a). Selection of composable web services driven by user requirements. theApplication and Experience Track of ICWS 2011 - International Conference on Web Services,pages 395–402.

[Azmeh et al., 2011b] Azmeh, Z., Hacène-Rouane, M., Huchard, M., Napoli, A., and Valtchev,P. (2011b). Querying relational concept lattices. In Proceedings of the 8th International Confe-rence on Concept Lattices and their Applications (CLA’11), pages 377–392, Nancy, France.

[Azouaou, 2006] Azouaou, F. (2006). Modèles et outils d’annotation pour une mémoire person-nelle de l’enseignant. PhD thesis, Université Joseph Fourier - Grenoble I.

[Baader, 2009] Baader, F. (2009). Description logics. In Reasoning Web : Semantic Technologiesfor Information Systems, 5th International Summer School 2009, volume 5689 of Lecture Notesin Computer Science, pages 1–39. Springer–Verlag.

[Baader et al., 2003] Baader, F., Calvanese, D., McGuinness, D. L., Nardi, D., and Patel-Schneider, P. F., editors (2003). The Description Logic Handbook : Theory, Implementation,and Applications. Cambridge University Press, New York, NY, USA.

[Baeza Yates and R., 1999] Baeza Yates, R. A. and R., N. B. (1999). Modern Information Re-trieval. Addison-Wesley Longman, Boston, MA, USA.

[Barabucci et al., 2011] Barabucci, G., Palmirani, M., Vitali, F., and Cervone, L. (2011). Long-term preservation of legal resources. In Proceedings of the Second international conferenceon Electronic government and the information systems perspective, EGOVIS’11, pages 78–93,Berlin, Heidelberg. Springer-Verlag.

[Barbut and Monjardet, 1970] Barbut, M. and Monjardet, B. (1970). Ordre et classification :Algèbre et combinatoire, Tome II. Hachette, Paris.

[Baziz, 2004] Baziz, M. (2004). Towards a Semantic Representation of Documents by Ontology-Document Mapping . In Bussler, C. and Fensel, D., editors, The Eleventh International Confe-rence on Artificial Intelligence(AIMSA 2004) , Varna, Bulgaria, 02/09/04-04/09/04, pages33–43, Springer-Verlag Berlin, Heidelberg, Germany. LNCS/LNAI 3192, Springer.

[Baziz, 2005] Baziz, M. (2005). Indexation conceptuelle guidée par ontologie pour la recherched’information. PhD thesis, Institut de recherche en informatique de Toulouse, UniversitéPaulSabatier.

208

Page 228: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Baziz et al., 2005] Baziz, M., Boughanem, M., Aussenac-Gilles, N., and Chrisment, C. (2005).Semantic cores for representing documents in ir. In Proceedings of the 2005 ACM symposiumon Applied computing, SAC ’05, pages 1011–1017, New York, NY, USA. ACM.

[Berners-Lee, 2006] Berners-Lee, T. (2006). Linked data - design issues.http ://www.w3.org/DesignIssues/LinkedData.html.

[Berners-Lee, 2007] Berners-Lee, T. (2007). Giant global graph. http ://-dig.csail.mit.edu/breadcrumbs/node/215.

[Berners-Lee et al., 2001] Berners-Lee, T., Hendler, J., and Lassila, O. (2001). The semanticweb. Scientific American.

[Biagioli et al., 2005] Biagioli, C., Francesconi, E., Passerini, A., Montemagni, S., and Soria, C.(2005). Automatic semantics extraction in law documents. In International Conference on AIand Law (ICAIL), pages 133–140.

[Biasiotti et al., 2008] Biasiotti, M., Francesconi, E., Palmirani, M., Sartor, G., and Vitali, F.(2008). Legal informatics and management of legislative documents. Global Centre for ICT inParliament.

[Birkhoff, 1967] Birkhoff, G. (1967). Lattice theory. In Colloquium Publications, volume 25,pages 172–210. Amer. Math. Soc., 3. edition.

[Bizer et al., 2009] Bizer, C., Heath, T., and Berners-Lee, T. (2009). Linked data - the story sofar. Int. J. Semantic Web Inf. Syst., 5(3) :1–22.

[Blomqvist and Groza, 2013] Blomqvist, E. and Groza, T., editors (2013). Proceedings of theISWC 2013 Posters & Demonstrations Track, Sydney, Australia, October 23, 2013, volume1035 of CEUR Workshop Proceedings. CEUR-WS.org.

[Boer, 2009] Boer, A. (2009). Metalex naming conventions and the semantic web. In Procee-dings of the 2009 conference on Legal Knowledge and Information Systems : JURIX 2009 :The Twenty-Second Annual Conference, pages 31–36, Amsterdam, The Netherlands, The Ne-therlands. IOS Press.

[Boer et al., 2002] Boer, A., Hoekstra, R., and Winkels, R. (2002). METALex : Legislation inXML, pages 1–10. IOS Press.

[Boer et al., 2007] Boer, A., Winkels, R., and Vitali, F. (2007). Proposed xml standards for law :Metalex and lkif. In Proceedings of the 2007 conference on Legal Knowledge and InformationSystems : JURIX 2007 : The Twentieth Annual Conference, pages 19–28, Amsterdam, TheNetherlands, The Netherlands. IOS Press.

[Boer et al., 2008] Boer, A., Winkels, R., and Vitali, F. (2008). Metalex xml and the legalknowledge interchange format. In Computable Models of the Law, volume 4884 of LectureNotes in Computer Science, pages 21–41. Springer Berlin / Heidelberg.

[Bolelli et al., 2006] Bolelli, L., Ertekin, S., and Giles, C. L. (2006). Clustering scientific litera-ture using sparse citation graph analysis. In Proceedings of the 10th European conference onPrinciple and Practice of Knowledge Discovery in Databases, PKDD’06, pages 30–41, Berlin,Heidelberg. Springer-Verlag.

[Bommarito and Katz, 2009] Bommarito, M. J. and Katz, D. M. (2009). Properties of the unitedstates code citation network. ArXiv e-prints.

[Bordat, 1986] Bordat, J.-P. (1986). Calcul pratique du treillis de galois d’une correspondance.Mathématiques et Sciences Humaines, 96 :31–47.

209

Page 229: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Borkar et al., 2001] Borkar, V., Deshmukh, K., and Sarawagi, S. (2001). Automatic segmenta-tion of text into structured records. SIGMOD Rec., 30(2) :175–186.

[Boulet et al., 2009] Boulet, R., Mazzega, P., and Bourcier, D. (2009). Network analysis of thefrench environmental code. In AICOL Workshops, pages 39–53.

[Boulet et al., 2011] Boulet, R., Mazzega, P., and Bourcier, D. (2011). A network approach tothe french system of legal codes- part i : Analysis of a dense network. Journal of ArtificialIntelligence and Law, 19 :333–355.

[Bourcier, 2011] Bourcier, D. (2011). Sciences juridiques et complexité. un nouveau modèled’analyse. Droit et Cultures, 61(1) :37–53.

[Bourcier and Fernández-Barrera, 2012] Bourcier, D. and Fernández-Barrera, M. (2012). Recen-sement des ressources sémantiques réutilisables pour la modélisation du droit des collectivitéslocales. Livrable 2.1 - Projet Légilocal.

[Bourcier and Mazzega, 2007a] Bourcier, D. and Mazzega, P. (2007a). Codification, law articleand graphs. In Lodder, A. and (eds.), L. M., editors, Legal Knowledge and Information Systems,JURIX, pages 29–38. IOS Press.

[Bourcier and Mazzega, 2007b] Bourcier, D. and Mazzega, P. (2007b). Toward measures of com-plexity in legal systems. In The Eleventh International Conference on Artificial Intelligenceand Law, Proceedings of the Conference, June 4-8, 2007, Stanford Law School, Stanford, Ca-lifornia, USA, pages 211–215. ACM.

[Bouzidi, 2013] Bouzidi, K. R. (2013). Aide à la création et à l’exploitation de réglementationsbasée sur les modèles et techniques du Web sémantique. Phd thesis, École doctorale STIC,Université Nice Sophia Antipolis.

[Bouzidi et al., 2011] Bouzidi, K. R., Faron-Zucker, C., Fies, B., Corby, O., and Nhan, L.-T.(2011). Modélisation de documents réglementaires dans le domaine du bâtiment. In Actes 12eConférence Internationale Francophone sur l’Extraction et la Gestion de Connaissance, EGC2011, pages 557–558, Bordeaux, France.

[Braga et al., 1999] Braga, R., Werner, C., and Mattoso, M. (1999). Odyssey : a reuse environ-ment based on domain models. In Application-Specific Systems and Software Engineering andTechnology, 1999. ASSET ’99. Proceedings. 1999 IEEE Symposium on, pages 50–57.

[Braga et al., 2000] Braga, R. M. M., Werner, C. M. L., and Mattoso, M. (2000). Using ontolo-gies for domain information retrieval. In Proceedings of the 11th International Workshop onDatabase and Expert Systems Applications, DEXA ’00, pages 836–840, Washington, DC, USA.IEEE Computer Society.

[Breuker and Hoekstra, 2004] Breuker, J. and Hoekstra, R. (2004). Epistemology and ontologyin core ontologies : Folaw and lri-core, two core ontologies for law. In In Proceedings of theEKAW04 Workshop on Core Ontologies in Ontology Engineering, pages 15–27. Northampton-shire, UK.

[Brighi and Palmirani, 2009] Brighi, R. and Palmirani, M. (2009). Legal text analysis of themodification provisions : a pattern oriented approach. In Proceedings of the 12th InternationalConference on Artificial Intelligence and Law, ICAIL ’09, pages 238–239, New York, NY, USA.ACM.

[Brin and Page, 1998] Brin, S. and Page, L. (1998). The anatomy of a large-scale hypertextualweb search engine. Comput. Netw. ISDN Syst., 30 :107–117.

[Carpineto et al., 2009] Carpineto, C., Osiński, S., Romano, G., and Weiss, D. (2009). A surveyof web clustering engines. ACM Comput. Surv., 41(3) :17 :1–17 :38.

210

Page 230: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Carpineto et al., 2006] Carpineto, C., Pietra, A. D., Mizzaro, S., and Romano, G. (2006). Mobileclustering engine. In European Conference on Information Retrieval (ECIR), pages 155–166.

[Carpineto and Romano, 1993] Carpineto, C. and Romano, G. (1993). Galois : An order-theoretic approach to conceptual clustering. Proceedings of 10th International Conferenceon Machine Learning, Amherst, pages 33–40.

[Carpineto and Romano, 1996] Carpineto, C. and Romano, G. (1996). A lattice conceptual clus-tering system and its application to browsing retrieval. Machine Learning, 24(2) :95–122.

[Carpineto and Romano, 2000] Carpineto, C. and Romano, G. (2000). Order-theoretical ran-king. Journal of the American Society for Information Science, 51 :587–601.

[Carpineto and Romano, 2004] Carpineto, C. and Romano, G. (2004). Exploiting the potentialof concept lattices for information retrieval with credo. Journal of Universal Computer Science,10(8) :985–1013.

[Carpineto and Romano, 2005] Carpineto, C. and Romano, G. (2005). Using concept lattices fortext retrieval and mining. In Formal Concept Analysis, pages 161–179.

[Chandler, 2005] Chandler, S. J. (2005). The network structure of supreme court jurisprudence.In Public Law and Legal Theory Series 2005-W-01 (Technical report). University of HoustonLaw Center.

[Chein, 1969] Chein, M. (1969). Algorithme de recherche des sous-matrices premières d’unematrice. Bull. Math. Soc. Sci. Math. R.S. Roumanie, 13 :21–25.

[Chekol, 2012] Chekol, M. w. (2012). Analyse statique de requête pour le Web sémantique. PhDthesis. Thèse de doctorat dirigée par Euzenat, Jerôme et Layaïda, Nabil Informatique Grenoble2012.

[Chekol and Napoli, 2013] Chekol, M. W. and Napoli, A. (2013). An FCA framework for know-ledge discovery in SPARQL query answers. In [Blomqvist and Groza, 2013], pages 197–200.

[Chevallet et al., 2007] Chevallet, J.-P., Lim, J.-H., and Le, D. T. H. (2007). Domain knowledgeconceptual inter-media indexing : Application to multilingual multimedia medical reports. InProceedings of the Sixteenth ACM Conference on Conference on Information and KnowledgeManagement, CIKM ’07, pages 495–504, New York, NY, USA. ACM.

[Chieze et al., 2010] Chieze, E., Farzindar, A., and Lapalme, G. (2010). An automatic systemfor summarization and information extraction of legal information. In Semantic Processing ofLegal Texts, pages 216–234.

[Cimiano et al., 2004] Cimiano, P., Handschuh, S., and Staab, S. (2004). Towards the self-annotating web. In Proceedings of the 13th international conference on World Wide Web,WWW ’04, pages 462–471, New York, NY, USA. ACM.

[Cimiano et al., 2005] Cimiano, P., Ladwig, G., and Staab, S. (2005). Gimme’ the context :context-driven automatic semantic annotation with c-pankow. In WWW ’05 : Proceedings ofthe 14th international conference on World Wide Web, pages 332–341. ACM Press.

[Cimiano et al., 2014] Cimiano, P., Unger, C., and McCrae, J. (2014). Ontology-based interpre-tation of natural language. Synthesis Lectures on Human Language Technologies, 7(2) :1–178.

[Ciorascu et al., 2003] Ciorascu, C., Ciorascu, I., and Stoffel, K. (2003). Knowler - ontologicalsupport for information retrieval systems. In Proceedings of 26th Annual International ACMSIGIR Conference, Workshop on Semantic Web.

[Ciravegna et al., 2002] Ciravegna, F., Dingli, A., Wilks, Y., and Petrelli, D. (2002). Adaptiveinformation extraction for document annotation in amilcare. In Proceedings of the 25th annual

211

Page 231: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

international ACM SIGIR conference on Research and development in information retrieval,SIGIR ’02, New York, NY, USA. ACM.

[Clark et al., 2004] Clark, P., Thompson, J., and Porter, B. (2004). Knowledge patterns. InStaab, S. and Studer, R., editors, Handbook on Ontologies, International Handbooks on Infor-mation Systems, pages 191–207. Springer Berlin Heidelberg.

[Codocedo et al., 2013] Codocedo, V., Lykourentzou, I., Astudillo, H., and Napoli, A. (2013).Using pattern structures to support information retrieval with formal concept analysis. InFCA4AI@IJCAI, Proceedings of the International Workshop "What can FCA do for ArtificialIntelligence ?" (FCA4AI at IJCAI 2013), Beijing, China, August 5, volume 1058 of CEURWorkshop Proceedings, pages 15–24. CEUR-WS.org.

[Codocedo et al., 2012] Codocedo, V., Lykourentzou, I., and Napoli, A. (2012). A contribution tosemantic indexing and retrieval based on FCA - an application to song datasets. In CLA, Pro-ceedings of The Ninth International Conference on Concept Lattices and Their Applications,Fuengirola (Málaga), Spain, October 11-14, volume 972 of CEUR Workshop Proceedings, pages257–268. CEUR-WS.org.

[Codocedo et al., 2014] Codocedo, V., Lykourentzou, I., and Napoli, A. (2014). A semanticapproach to concept lattice-based information retrieval. Annals of Mathematics and ArtificialIntelligence, 72(1-2) :169–195.

[Cointet and Roth, 2009] Cointet, J. and Roth, C. (2009). Socio-semantic dynamics in a blognetwork. In Computational Science and Engineering, 2009. CSE ’09. International Conferenceon, volume 4, pages 114–121.

[Cole and Eklund, 2001] Cole, R. J. and Eklund, P. W. (2001). Browsing semi-structured webtexts using formal concept analysis. In Conceptual Structures : Broadening the Base, 9thInternational Conference on Conceptual Structures, ICCS, pages 319–332.

[Cole et al., 2003] Cole, R. J., Eklund, P. W., and Stumme, G. (2003). Document retrievalfor e-mail search and discovery using formal concept analysis. Applied Artificial Intelligence,17(3) :257–280.

[Comparot et al., 2010] Comparot, C., Haemmerlé, O., and Hernandez, N. (2010). Expression derequêtes en graphes conceptuels à partir de mots-clés et de patrons. In Journées Francophonesd’Ingénierie des Connaissances (IC), Nîmes, 08/06/2010-11/06/2010, pages 81–92. CépaduèsEditions.

[Corby et al., 2004] Corby, O., Dieng-Kuntz, R., and Faron-Zucker, C. (2004). Querying thesemantic web with corese search engine. In [de Mántaras and Saitta, 2004], pages 705–709.

[Corcho et al., 2003] Corcho, O., Fernández-López, M., and Gómez-Pérez, A. (2003). Metho-dologies, tools and languages for building ontologies : Where is their meeting point ? DataKnowl. Eng., 46(1) :41–64.

[Crestani, 2000] Crestani, F. (2000). Exploiting the similarity of non-matching terms at retrievaltime. Journal of Information Retrieval, 2 :25–45.

[Croset et al., 2010] Croset, S., Grabmüller, C., Li, C., Kavaliauskas, S., and Rebholz-Schuhmann, D. (2010). The CALBC RDF triple store : retrieval over large literature content.CoRR, abs/1012.1650.

[Cui et al., 2010] Cui, H., Jiang, K. Y., and Sanyal, P. P. (2010). From text to rdf triple store :an application for biodiversity literature. In Proceedings of the 73rd ASIS&T Annual Meetingon Navigating Streams in an Information Ecosystem, volume 47, pages 1–2. American Societyfor Information Science.

212

Page 232: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Dang and Viennet, 2012] Dang, T. A. and Viennet, E. (2012). Community detection based onstructural and attribute similarities. In International Conference on Digital Society (ICDS),pages 7–14.

[Dao et al., 2004] Dao, M., Huchard, M., Hacene, M. R., Roume, C., and Valtchev, P. (2004).Improving generalization level in uml models iterative cross generalization in practice. InInternational Conference on Computational Science (ICCS’04), pages 346–360.

[d’Aquin and Motta, 2011] d’Aquin, M. and Motta, E. (2011). Extracting relevant questionsto an rdf dataset using formal concept analysis. In Proceedings of the Sixth InternationalConference on Knowledge Capture, K-CAP ’11, pages 121–128, New York, NY, USA. ACM.

[Davey and Priestley, 2002] Davey, B. A. and Priestley, H. A. (2002). Introduction to Latticesand Order (2. ed.). Cambridge University Press.

[de Mántaras and Saitta, 2004] de Mántaras, R. L. and Saitta, L., editors (2004). Proceedingsof the 16th Eureopean Conference on Artificial Intelligence, ECAI’2004, including PrestigiousApplicants of Intelligent Systems, PAIS 2004, Valencia, Spain, August 22-27, 2004. IOS Press.

[Demko and Bertet, 2012] Demko, C. and Bertet, K. (2012). Information retrieval by on-line navigation in the latticial space-search of a database, with limited objects access. InFCA4AI@ECAI, Proceedings of the International Workshop "What can FCA do for ArtificialIntelligence ?" (FCA4AI at ECAI 2012), Montpellier, France, August 28, volume 939 of CEURWorkshop Proceedings, pages 33–40. CEUR-WS.org.

[Desmontiles and Jacquin, 2002] Desmontiles, E. and Jacquin, C. (2002). Annotations sur leweb : notes de lecture. AS CNRS Web Sémantique.

[Després and Szulman, 2007] Després, S. and Szulman, S. (2007). Merging of legal micro-ontologies from european directives. Artif. Intell. Law, 15(2) :187–200.

[Devignes et al., 2010] Devignes, M.-D., Franiatte, P., Messai, N., Bresso, E., Napoli, A., andSmaïl-Tabbone, M. (2010). Bioregistry : Automatic extraction of metadata for biologicaldatabase retrieval and discovery. International Journal of Metadata, Semantics and Ontologies(IJMSO), 5(3) :184–193.

[Ding, 2011] Ding, Y. (2011). Scientific collaboration and endorsement : Network analysis ofcoauthorship and citation networks. Journal of Informetrics, 5(1) :187–203.

[Dolques et al., 2013] Dolques, X., Ber, F. L., Huchard, M., and Nebut, C. (2013). Analyserelationnelle de concepts pour l’exploration de données relationnelles. In Extraction et gestiondes connaissances (EGC’2013), Actes, 29 janvier - 01 février 2013, Toulouse, France, volumeRNTI-E-24 of Revue des Nouvelles Technologies de l’Information, pages 121–132. Hermann-Éditions.

[Domenach et al., 2012] Domenach, F., Ignatov, D. I., and Poelmans, J., editors (2012). FormalConcept Analysis - 10th International Conference, ICFCA 2012, Leuven, Belgium, May 7-10,2012. Proceedings, volume 7278 of Lecture Notes in Computer Science. Springer.

[Ducrou et al., 2006] Ducrou, J., Vormbrock, B., and Eklund, P. W. (2006). Fca-based browsingand searching of a collection of images. In Conceptual Structures : Inspiration and Application,14th International Conference on Conceptual Structures, ICCS, pages 203–214.

[Ducrou and Eklund, 2008] Ducrou, J. R. and Eklund, P. W. (2008). An intelligent user interfacefor browsing and searching mpeg-7 images using concept lattices. International J. Foundationsof Computer Science, 19(2) :359–381.

213

Page 233: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Engeljehringer and Schefbeck, 2006] Engeljehringer, W. and Schefbeck, G. (2006). The E-LAWProject in Austria. Electronic support of Law Making. Autrian Parliament, ParliamentaryAdministration, Vienna. Available at : http ://www.parlament.gv.at/ZUSD/PDF/2006-04-18_Publikation-Englisch.pdf.

[Euzenat, 2001] Euzenat, J. (2001). L’annotation formelle de documents en huit (8) questions.In Actes 6e journées sur ingénierie des connaissances (IC), pages 95–110, Grenoble (FR). JeanCharlet (éd).

[Fernández et al., 2011] Fernández, M., Cantador, I., López, V., Vallet, D., Castells, P., andMotta, E. (2011). Semantically enhanced information retrieval : An ontology-based approach.Web Semantics : Science, Services and Agents on the World Wide Web, 9(4) :434 – 452. {JWS}special issue on Semantic Search.

[Ferré, 2007] Ferré, S. (2007). Camelis : Organizing and browsing a personal photo collectionwith a logical information system. In Proceedings of the Fifth International Conference onConcept Lattices and Their Applications, CLA 2007, Montpellier, France, October 24-26.

[Ferré, 2009] Ferré, S. (2009). Camelis : a logical information system to organise and browse acollection of documents. International Journal of General Systems, 38(4) :379–403.

[Ferré, 2010] Ferré, S. (2010). Conceptual navigation in rdf graphs with sparql-like queries. In[Kwuida and Sertkaya, 2010], pages 193–208.

[Fieschi et al., 2009] Fieschi, M., Staccini, P., Bouhaddou, O., Lovis, C., Jonquet, C., Shah,N., and Musen, M. A. (2009). Un service web pour l’annotation sémantique de donnéesbiomédicales avec des ontologies. In Risques, Technologies de l’Information pour les PratiquesMédicales, volume 17 of Informatique et Santé, pages 151–162. Springer Paris.

[Formica, 2008] Formica, A. (2008). Concept similarity in formal concept analysis : An informa-tion content approach. Knowledge Based Systems, 21(1) :80–87.

[Fowler et al., 2007] Fowler, J., Johnson, T., J.F., S., S., J., and P.J., W. (2007). Network analysisand the law : Measuring the legal importance of precedents at the u.s. supreme court. PoliticalAnalysis, 15 :324–346.

[Fowler and Jeon, 2008] Fowler, J. H. and Jeon, S. (2008). The authority of supreme courtprecedent. Social Networks, 30 :16–30.

[Gangemi, 2005] Gangemi, A. (2005). Ontology design patterns for semantic web content. InProceedings of the 4th International Conference on The Semantic Web, ISWC’05, pages 262–276, Berlin, Heidelberg. Springer-Verlag.

[Gangemi, 2007] Gangemi, A. (2007). Design patterns for legal ontology constructions. In Casa-novas, P., Biasiotti, M. A., Francesconi, E., and Sagri, M.-T., editors, LOAIT , Proceedings ofthe 2nd Workshop on Legal Ontologies and Artificial Intelligence Techniques June 4th, 2007,Stanford University, Stanford, CA, USA, volume 321 of CEUR Workshop Proceedings, pages65–85. CEUR-WS.org.

[Gangemi et al., 2002] Gangemi, A., Guarino, N., Masolo, C., Oltramari, A., and Schneider, L.(2002). Sweetening ontologies with dolce. In Proceedings of the 13th International Conferenceon Knowledge Engineering and Knowledge Management. Ontologies and the Semantic Web,EKAW ’02, pages 166–181, London, UK, UK. Springer-Verlag.

[Gangemi et al., 2003] Gangemi, A., Sagri, M.-T., and Tiscornia, D. (2003). Metadata forcontent description in legal information. In In Proc.s of LegOnt Workshop on Legal Onto-logies.

214

Page 234: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Gangemi et al., 2005] Gangemi, A., Sagri, M.-T., and Tiscornia, D. (2005). A constructiveframework for legal ontologies. In Benjamins, V., Casanovas, P., Breuker, J., and Gangemi,A., editors, Law and the Semantic Web, volume 3369 of Lecture Notes in Computer Science,pages 97–124. Springer Berlin Heidelberg.

[Ganter, 1984] Ganter, B. (1984). Two basic algorithms in concept analysis. FB4-Preprint 831,Technische Hochschule Darmstadt.

[Ganter et al., 2005] Ganter, B., Stumme, G., and Wille, R., editors (2005). Formal ConceptAnalysis, Foundations and Applications, volume 3626 of Lecture Notes in Computer Science.Springer.

[Ganter and Wille, 1999a] Ganter, B. and Wille, R. (1999a). Formal Concept Analysis. Springer,mathematical foundations edition.

[Ganter and Wille, 1999b] Ganter, B. and Wille, R. (1999b). Formal Concept Analysis. Springer,mathematical foundations edition.

[Geist, 2009] Geist, A. (2009). Using Citation Analysis Techniques for Computer-Assisted LegalResearch in Continental Jurisdictions. PhD thesis, Edinburgh, EH8 9YL, United Kingdom.

[Giannopoulos et al., 2010] Giannopoulos, G., Bikakis, N., Dalamagas, T., and Sellis, T. K.(2010). Gontogle : A tool for semantic annotation and search. In ESWC (2), pages 376–380.

[Gillard, 2002] Gillard, L. (2002). Indexation de documents annotés. Technical report.

[Godin et al., 1995a] Godin, R., Mineau, G., and Missaoui, R. (1995a). Incremental structuringof knowledge bases. In Ellis, G., Levinson, R. A., Fall, A., and Dahl, V., editors, Proceedingsof the 1st International Symposium on Knowledge Retrieval, Use, and Storage for Efficiency(KRUSE’95), Santa Cruz (CA), USA, pages 179–193. Department of Computer Science, Uni-versity of California at Santa Cruz.

[Godin et al., 1995b] Godin, R., Mineau, W., and Missaoui, R. (1995b). Méthodes de classifica-tion conceptuelle basées sur les treillis de galois et applications. Revue d’intelligence artificielle,9 :105–137.

[Godin et al., 1995c] Godin, R., Missaoui, R., and Alaoui, H. (1995c). Incremental Concept For-mation Algorithms Based on Galois (Concept) Lattices. Computational Intelligence, 11 :246–267.

[Godin et al., 1993] Godin, R., Missaoui, R., and April, A. (1993). Experimental comparison ofnavigation in a galois lattice with conventional information retrieval methods. InternationalJournal of Man-machine Studies, 38 :747–767.

[Governatori, 2009] Governatori, G., editor (2009). Legal Knowledge and Information Systems- JURIX 2009 : The Twenty-Second Annual Conference on Legal Knowledge and Informa-tion Systems, Rotterdam, The Netherlands, 16-18 December 2009, volume 205 of Frontiers inArtificial Intelligence and Applications. IOS Press.

[Gruber, 1993] Gruber, T. R. (1993). A translation approach to portable ontology specifications.Knowledge Acquisition, 5(2) :199 – 220.

[Guenoche and Mechelen, 1993] Guenoche, A. and Mechelen, I. V. (1993). Galois approach tothe induction of concepts. In Mechelen, I. V., Hampton, J., Michalski, R., and Theuns, P.,editors, Categories and Concepts. Theoretical Views and Inductive Data Analysis, pages 287–308. Academic Press, London.

215

Page 235: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Guissé et al., 2012] Guissé, A., Lévy, F., and Nazarenko, A. (2012). From regulatory texts tobrms : How to guide the acquisition of business rules ? In Bikakis, A. and Giurca, A., editors,Rules on the Web : Research and Applications, volume 7438 of Lecture Notes in ComputerScience, pages 77–91. Springer Berlin Heidelberg.

[Guissé et al., 2009] Guissé, A., Lévy, F., Nazarenko, A., and Szulman, S. (2009). Annotationsémantique pour l’indexation de règles métiers. In L’Homme, M.-C. and Szulman, S., editors,Conférence Internationale sur la Terminologie et l’Intelligence Artificielle (TIA 2009), page(electronic medium). Université Paul Sabatier - Toulouse.

[Gultemen and van Engers, 2013] Gultemen, D. and van Engers, T. (2013). Graph-based linkingand visualization for legislation documents (glvd). In In : Network Analysis in Law Workshop,at ICAIL 2013 : XIV International Conference on AI and Law, NAiL2013@ICAIL, Rome,Italy, June 14th, 2013.

[Haav and Lubi, 2001] Haav, H.-M. and Lubi, T.-L. (2001). A survey of concept-based infor-mation retrieval tools on the web. In 5th East-European Conference, ADBIS 2001, Vilnius,Lithuania.

[Hacene et al., 2011] Hacene, M. R., Valtchev, P., and Nkambou, R. (2011). Supporting onto-logy design through large-scale fca-based ontology restructuring. In Conceptual Structures forDiscovering Knowledge - 19th International Conference on Conceptual Structures, ICCS 2011,Derby, UK, July 25-29, volume 6828 of Lecture Notes in Computer Science, pages 257–269.Springer.

[Harth and Decker, 2004] Harth, A. and Decker, S. (2004). Yet another rdf store : Perfect indexstructures for storing semantic web data with contexts. Technical report, DERI TechnicalReport.

[Heath and Bizer, 2011] Heath, T. and Bizer, C. (2011). Linked Data : Evolving the Web into aGlobal Data Space. Synthesis Lectures on the Semantic Web. Morgan & Claypool Publishers.

[Henzinger, 2000] Henzinger, M. (2000). Link analysis in web information retrieval. IEEE DATAENGINEERING BULLETIN, 23 :3–8.

[Hoekstra, 2011] Hoekstra, R. (2011). The metalex document server : legal documents as ver-sioned linked data. In Proceedings of the 10th International Conference on the Semantic Web,ISWC’11, pages 128–143, Berlin, Heidelberg. Springer-Verlag.

[Hoekstra et al., 2009] Hoekstra, R., Breuker, J., Bello, M. D., and Boer, A. (2009). Lkif core :Principled ontology development for the legal domain. In Proceedings of the 2009 conferenceon Law, Ontologies and the Semantic Web : Channelling the Legal Information Flood, pages21–52, Amsterdam. IOS Press.

[Hossain and Angryk, 2007] Hossain, M. S. and Angryk, R. A. (2007). Gdclust : A graph-baseddocument clustering technique. In Proceedings of the Seventh IEEE International Conferenceon Data Mining Workshops, ICDMW ’07, pages 417–422, Washington, DC, USA. IEEE Com-puter Society.

[Hubert et al., 2009] Hubert, G., Mothe, J., Ralalason, B., and Ramanonjisoa, B. (2009). Modèled’indexation dynamique à base d’ontologies. In CORIA, pages 169–184. LSIS-USTV.

[Huchard et al., 2007] Huchard, M., Hacene, M. R., Roume, C., and Valtchev, P. (2007). Rela-tional concept discovery in structured datasets. Ann. Math. Artif. Intell., 49 :39–76.

[IFLA, 1998] IFLA (1998). Functional requirements for bibliographic records : final report, vo-lume 19 of new series. UBCIM publications, München. by IFLA Study Group on the FunctionalRequirements for Bibliographic Records.

216

Page 236: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Jo et al., 2007] Jo, Y., Lagoze, C., and Giles, C. L. (2007). Detecting research topics via thecorrelation between graphs and texts. In KDD’07 - INTERNATIONAL CONFERENCE ONKNOWLEDGE DISCOVERY AND DATA MINING, pages 370–379. ACM.

[Kengue et al., 2005] Kengue, J. F. D., Valtchev, P., and Djamegni, C. T. (2005). A parallelalgorithm for lattice construction. In Ganter, B. and Godin, R., editors, Formal ConceptAnalysis, volume 3403 of Lecture Notes in Computer Science, pages 249–264. Springer BerlinHeidelberg.

[Kirchberg et al., 2012] Kirchberg, M., Leonardi, E., Tan, Y. S., Link, S., Ko, R. K. L., and Lee,B.-S. (2012). Formal concept discovery in semantic web data. In [Domenach et al., 2012],pages 164–179.

[Kiryakov et al., 2004a] Kiryakov, A., Popov, B., Ognyanoff, D., Manov, D., and Goranov, K. M.(2004a). Semantic annotation, indexing, and retrieval. Journal of Web Semantics, 2 :49–79.

[Kiryakov et al., 2004b] Kiryakov, A., Popov, B., Ognyanoff, D., Manov, D., and Goranov, K. M.(2004b). Semantic annotation, indexing, and retrieval. Journal of Web Semantics, 2 :49–79.

[Kleinberg, 1999] Kleinberg, J. M. (1999). Authoritative sources in a hyperlinked environment.J. ACM, 46 :604–632.

[Koester, 2006] Koester, B. (2006). Conceptual knowledge retrieval with fooca : Improving websearch engine results with contexts and concept hierarchies. In Industrial Conference on DataMining, pages 176–190.

[Krajca et al., 2008] Krajca, P., Outrata, J., and Vychodil, V. (2008). V. : Parallel recursivealgorithm for fca. In Palacky University, Olomouc, pages 71–82.

[Kuznetsov and Obiedkov, 2001] Kuznetsov, S. and Obiedkov, S. (2001). Algorithms for theconstruction of concept lattices and their diagram graphs. In Raedt, L. and Siebes, A., edi-tors, Principles of Data Mining and Knowledge Discovery, volume 2168 of Lecture Notes inComputer Science, pages 289–300. Springer Berlin Heidelberg.

[Kuznetsov et al., 2012] Kuznetsov, S. O., Neznanov, A. A., and Poelmans, J. (2012). A systemfor knowledge discovery in big dynamical text collections. In FCA4AI@ECAI, Proceedingsof the International Workshop "What can FCA do for Artificial Intelligence ?" (FCA4AI atECAI 2012), Montpellier, France, August 28, volume 939 of CEUR Workshop Proceedings,pages 81–87. CEUR-WS.org.

[Kuznetsov and Obiedkov, 2002] Kuznetsov, S. O. and Obiedkov, S. A. (2002). Comparing Per-formance of Algorithms for Generating Concept Lattices. Journal of Experimental & Theore-tical Artificial Intelligence, 14 :189–216.

[Kwuida and Sertkaya, 2010] Kwuida, L. and Sertkaya, B., editors (2010). Formal Concept Ana-lysis, 8th International Conference, ICFCA 2010, Agadir, Morocco, March 15-18, 2010. Pro-ceedings, volume 5986 of Lecture Notes in Computer Science. Springer.

[Lau, 2004] Lau, G. T. (2004). A comparative analysis framework for semi-structured documents,with applications to government regulations. PhD thesis, Stanford, CA, USA. AAI3145557.

[Law, 2009] Law, L. C. (2009). Metalex naming conventions and the semantic web. In LegalKnowledge and Information Systems : JURIX 2009, the Twenty-second Annual Conference,volume 205, page 31. IOS Press.

[Lopez et al., 2007] Lopez, V., Uren, V., Motta, E., and Pasin, M. (2007). Aqualog : An ontology-driven question answering system for organizational semantic intranets. Web Semant., 5(2) :72–105.

217

Page 237: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Lortal et al., 2006] Lortal, G., Todirascu, A., and Lewkowicz, M. (2006). Soutenir la coopéra-tion par l’indexation semi-automatique d’annotations. In Actes d’IC, IC 2006 : Ingénieriedes connaissances 2006 (Proceedings of the 17th French Knowledge Engineering Conference),Nantes, France, June 26-30, 2006, pages 61–70.

[Losada and Barreiro, 2001] Losada, D. E. and Barreiro, A. (2001). A logical model for infor-mation retrieval based on propositional logic and belief revision. The Computer Journal,44 :410–424.

[Lu et al., 2011] Lu, Q., Conrad, J. G., Al-Kofahi, K., and Keenan, W. (2011). Legal documentclustering with built-in topic segmentation. In Macdonald, C., Ounis, I., and Ruthven, I.,editors, CIKM, pages 383–392. ACM.

[Ma et al., 2013] Ma, Y., Lévy, F., and Nazarenko, A. (2013). Annotation sémantique pour desdomaines spécialisés et des ontologies riches. In Actes de la 20ème conférence du TraitementAutomatique du Langage Naturel (TALN 2013).

[Manning et al., 2008] Manning, C. D., Raghavan, P., and Schütze, H. (2008). Introduction toInformation Retrieval. Cambridge University Press, New York, NY, USA.

[Mercatali et al., 2005] Mercatali, P., Romano, F., Boschi, L., and Spinicci, E. (2005). Automatictranslation from textual representations of laws to formal models through uml. In Moens,M.-F. and Spyns, P., editors, JURIX, volume 134 of Frontiers in Artificial Intelligence andApplications, pages 71–80. IOS Press.

[Messai et al., 2005] Messai, N., Devignes, M.-D., Napoli, A., and Smaïl-Tabbone, M. (2005).Querying a bioinformatic data sources registry with concept lattices. In ICCS, pages 323–336.

[Messai et al., 2006] Messai, N., Devignes, M.-D., Napoli, A., and Smaïl-Tabbone, M. (2006).Treillis de concepts et ontologies pour interroger l’annuaire de sources de données biologiquesbioregistry. Ingénierie des Systèmes d’Information (ISI), 11(1) :39–60.

[Miklos et al., 2003] Miklos, Z., Neuman, G., Zdun, U., and Sintek, M. (2003). Querying seman-tic web resources using triple views. In Proceedings of the 2nd International Semantic WebConference (ISWC03), Sanibel Island, Florida, USA.

[Mimouni et al., 2013] Mimouni, N., Fernàndez, M., Nazarenko, A., Bourcier, D., and Salotti, S.(2013). A relational approach for information retrieval on XML legal sources. In InternationalConference on Artificial Intelligence and Law, ICAIL ’13, Rome, Italy, June 10-14, 2013,pages 212–216.

[Mimouni et al., 2012] Mimouni, N., Nazarenko, A., and Salotti, S. (2012). Classification concep-tuelle d’une collection documentaire - intertextualité et recherche d’information. In Proceedingsof the 9th French Information Retrieval Conference (CORIA’12), pages 123–134.

[Mimouni and Slimani, 2006] Mimouni, N. and Slimani, Y. (2006). Indexing and Searching VideoSequences Using Concept Lattices. In Fourth International Conference on Concept Latticesand their Applications - CLA’06, pages 285–290, Yasmine Hammamet, Tunisia.

[Minard et al., 2011] Minard, A.-L., Ligozat, A.-L., and Grau, B. (2011). Extraction de rela-tions dans des comptes rendus hospitaliers. In 22es Journées Francophones d’Ingénierie desConnaissances, IC 2011, pages 491–506, Chambéry, France.

[Missaoui, 2013] Missaoui, R. (2013). Analyse de réseaux sociaux par l’analyse formelle deconcepts. In Extraction et gestion des connaissances (EGC’2013), Actes, 29 janvier - 01février 2013, Toulouse, France, volume RNTI-E-24 of Revue des Nouvelles Technologies del’Information, pages 3–4. Hermann-Éditions.

218

Page 238: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Moha et al., 2008] Moha, N., Hacene, A. R., Valtchev, P., and Guéhéneuc, Y.-G. (2008). Re-factorings of design defects using relational concept analysis. In Formal Concept Analysis, 6thInternational Conference, ICFCA 2008, Montreal, Canada, February 25-28, volume 4933 ofLecture Notes in Computer Science, pages 289–304. Springer.

[Mokhtari, 2010a] Mokhtari, N. (2010a). Extraction et exploitation d’annotations sémantiquescontextuelles à partir de texte. PhD thesis, Université Sophia Antipolis.

[Mokhtari, 2010b] Mokhtari, N. (2010b). Extraction et exploitation d’annotations sémantiquescontextuelles à partir de texte. PhD thesis, Université de Nice-Sophia Antipolis.

[Mokhtari and Dieng-Kuntz, 2008] Mokhtari, N. and Dieng-Kuntz, R. (2008). Extraction et ex-ploitation des annotations contextuelles. In Guillet, F. and Trousse, B., editors, Extractionet gestion des connaissances (EGC’2008), Actes des 8èmes journées Extraction et Gestiondes Connaissances, Sophia-Antipolis, France, 29 janvier au 1er février 2008, 2 Volumes, vo-lume RNTI-E-11 of Revue des Nouvelles Technologies de l’Information, pages 7–18. Cépaduès-Éditions.

[Mommers, 2010] Mommers, L. (2010). Ontologies in the legal domain. In Poli, R. and Seibt,J., editors, Theory and Applications of Ontology : Philosophical Perspectives, pages 265–276.Springer Verlag.

[Mondary et al., 2007] Mondary, T., Bouffier, A., and Nazarenko, A. (2007). Between brow-sing and search, a new model for navigating through large documents. In Stella Vosniadou,D. K. and Athanassios Protopapas, editors, proceedings of EuroCogSci07, the european cogni-tive science conference EuroCogSci07, The European Cognitive Science Conference 2007, pages634–639, Delphi Greece. Lawrence Erlbaum Associates.

[Mooers, 1958] Mooers, C. N. (1958). A mathematical theory of language symbols in retrieval.In International Confernece on Scientific Information, pages 61–70. Zator Company.

[Mrabet et al., 2012] Mrabet, Y., Bennacer, N., and Pernelle, N. (2012). Enrichissement contrôléde bases de connaissances à partir de documents semi-structurés annotés. In 23es JournéesFrancophones d’Ingénierie des Connaissances, IC 2012, Paris.

[Mrabet et al., 2010] Mrabet, Y., Bennacer, N., Pernelle, N., and Thiam, M. (2010). Une ap-proche pour la recherche sémantique de l’information dans les documents semi-structurés hété-rogènes. In Centre de Publication Universitaire 2010, editor, COnférence en Recherche d’Info-mations et Applications - CORIA 2010, 7th French Information Retrieval Conference, Sousse,Tunisia, March 18-20, 2010. Proceedings. COnférence en Recherche d’Infomations et Applica-tions - CORIA 2010., pages 195–210, Sousse Tunisia. Fondation DIGITEO, projet SHIRI.

[Nauer and Toussaint, 2008] Nauer, E. and Toussaint, Y. (2008). Classification dynamique partreillis de concepts pour la recherche d’information sur le web. In CORIA’08 : Conférence enRecherche d’Information et Applications, pages 71–86.

[Nešić et al., 2010] Nešić, S., Crestani, F., Jazayeri, M., and Gašević, D. (2010). Concept-basedsemantic annotation, indexing and retrieval of office-like document units. In Adaptivity, Perso-nalization and Fusion of Heterogeneous Information, RIAO ’10, pages 134–135, Paris, France,France.

[Newman, 2004] Newman, M. E. J. (2004). Coauthorship networks and patterns of scientificcollaboration. In Proceedings of the National Academy of Sciences, pages 5200–5205.

[Nguifo and Njiwoua, 2005] Nguifo, E. M. and Njiwoua, P. (2005). Treillis de concepts et classi-fication supervisée. Technique et Science Informatiques, 24(4) :449–488.

219

Page 239: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Nicolas Bonnel, 2006] Nicolas Bonnel, M. C. (2006). Evaluation des interfaces utilisateur d’in-formation. In Atelier Visualisation et extraction de connaissances - EGC, Lille, France.

[Norris, 1978] Norris, E. M. (1978). An algorithm for computing the maximal rectangles in abinary relation. Revue Roumaine de Mathématiques Pures et Appliquées, 23(2) :243–250.

[Oberle et al., 2006] Oberle, D., Lamparter, S., Grimm, S., Vrandečić, D., Staab, S., and Gan-gemi, A. (2006). Towards ontologies for formalizing modularization and communication inlarge software systems. Appl. Ontol., 1(2) :163–202.

[Page et al., 1999] Page, L., Brin, S., Motwani, R., and Winograd, T. (1999). The pagerankcitation ranking : Bringing order to the web. Technical report, Stanford InfoLab. Previousnumber = SIDL-WP-1999-0120.

[Palmirani and Benigni, 2002] Palmirani, M. and Benigni, F. (2002). Norma-system : A legalinformation system for managing time.

[Palmirani and Brighi, 2009] Palmirani, M. and Brighi, R. (2009). Model regularity of legal lan-guage in active modifications. In AI Approaches to the Complexity of Legal Systems. ComplexSystems, the Semantic Web, Ontologies, Argumentation, and Dialogue - International Work-shops AICOL-I/IVR-XXIV Beijing, China, September 19, 2009 and AICOL-II/JURIX 2009,Rotterdam,The Netherlands, December 16, 2009 Revised Selected Papers, pages 54–73.

[Palmirani and Brighi, 2010] Palmirani, M. and Brighi, R. (2010). Model regularity of legal lan-guage in active modifications. In AI Approaches to the Complexity of Legal Systems. ComplexSystems, the Semantic Web, Ontologies, Argumentation, and Dialogue, volume 6237, pages54–73. Lecture Notes in Computer Science.

[Palmirani et al., 2003] Palmirani, M., Brighi, R., and Massini, M. (2003). Automated extractionof normative references in legal texts. In Proceedings of the 9th international conference onArtificial intelligence and law, ICAIL ’03, pages 105–106, New York, NY, USA. ACM.

[Palmirani and Cervone, 2009] Palmirani, M. and Cervone, L. (2009). Legal change managementwith a native xml repository. In [Governatori, 2009], pages 146–155.

[Palmirani et al., 2009] Palmirani, M., Cervone, L., and Vitali, F. (2009). Legal metadata inter-change framework to match cen metalex. In [DBL, 2009], pages 232–233.

[Palmirani et al., 2012a] Palmirani, M., Ognibene, T., and Cervone, L. (2012a). Legal rules,text and ontologies over time. In Proceedings of the RuleML2012@ECAI Challenge, at the 6thInternational Symposium on Rules, Montpellier, France, August 27th-29th, 2012.

[Palmirani et al., 2012b] Palmirani, M., Pagallo, U., Casanovas, P., and Sartor, G., editors(2012b). AI Approaches to the Complexity of Legal Systems. Models and Ethical Challengesfor Legal Systems, Legal Language and Legal Ontologies, Argumentation and Software Agents- International Workshop AICOL-III, Held as Part of the 25th IVR Congress, Frankfurt amMain, Germany, August 15-16, 2011. Revised Selected Papers, volume 7639 of Lecture Notesin Computer Science. Springer.

[Pejtersen, 1998] Pejtersen, A. M. (1998). Semantic information retrieval. Commun. ACM,41 :90–92.

[Pérez et al., 2009] Pérez, J., Arenas, M., and Gutierrez, C. (2009). Semantics and complexityof sparql. ACM Trans. Database Syst., 34(3).

[Pham et al., 2008] Pham, N.-K., Morin, A., and Gros, P. (2008). Recherche d’images par l’ana-lyse factorielle des correspondances. In CORIA’08 : Conférence en Recherche d’Informationet Applications, pages 23–38.

220

Page 240: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Pivovarov and Trunov, 2011] Pivovarov, G. and Trunov, S. (2011). Clustering and classificationin text collections using graph modularity. Journal of Machine Learning Research, CoRR,abs/1105.5789.

[Poelmans et al., 2011] Poelmans, J., Elzinga, P., Viaene, S., Dedene, G., and Kuznetsov, S. O.(2011). Text mining scientific papers : a survey on fca-based information retrieval research. InAdvances in Data Mining. 11th Industrial Conference, ICDM 2011, New York, USA, Septem-ber/August 2011, Poster and Industry Proceedings, Workshop on Data Mining in Life Sciences,pages 82–96. IBaI Publishing.

[Poelmans et al., 2013a] Poelmans, J., Ignatov, D. I., Kuznetsov, S. O., and Dedene, G. (2013a).Formal concept analysis in knowledge processing : A survey on applications. Expert Syst.Appl., 40(16) :6538–6560.

[Poelmans et al., 2013b] Poelmans, J., Kuznetsov, S. O., Ignatov, D. I., and Dedene, G. (2013b).Formal concept analysis in knowledge processing : A survey on models and techniques. ExpertSyst. Appl., 40(16) :6601–6623.

[Pol et al., 2008] Pol, K., Patil, N., Patankar, S., and Das, C. (2008). A survey on web contentmining and extraction of structured and semistructured data. In Proceedings of the 2008 FirstInternational Conference on Emerging Trends in Engineering and Technology, ICETET ’08,pages 543–546, Washington, DC, USA. IEEE Computer Society.

[Poshyvanyk and Marcus, 2007] Poshyvanyk, D. and Marcus, A. (2007). Combining formalconcept analysis with information retrieval for concept location in source code. In ICPC,pages 37–48.

[Pradel et al., 2012] Pradel, C., Haemmerlé, O., and Hernandez, N. (2012). Des patrons modu-laires de requêtes sparql dans le système swip. In 23es Journées Francophones d’Ingénieriedes Connaissances, IC 2012, Paris, France.

[Presutti and Gangemi, 2008] Presutti, V. and Gangemi, A. (2008). Content ontology designpatterns as practical building blocks for web ontologies. In Li, Q., Spaccapietra, S., Yu, E. S. K.,and Olivé, A., editors, ER, Conceptual Modeling - ER 2008, 27th International Conference onConceptual Modeling, Barcelona, Spain, October 20-24, 2008. Proceedings, volume 5231 ofLecture Notes in Computer Science, pages 128–141. Springer.

[Priss, 2000] Priss, U. (2000). Faceted knowledge representation. Electronic Transactions onArtificial Intelligence, 4(C) :21–33.

[Rada et al., 1989] Rada, R., Mili, H., Bicknell, E., and Blettner, M. (1989). Development andapplication of a metric on semantic nets. Systems, Man and Cybernetics, IEEE Transactionson, 19(1) :17–30.

[Ralalason, 2010] Ralalason, B. J. V. (2010). Représentation multi-facette des documents pourleur accès sémantique. Thèse de doctorat, Université de Toulouse, Toulouse, France.

[Ramírez, 2007] Ramírez, R. C. M. (2007). Semantic information retrieval : a return on expe-rience. Engineering Letters, 15(2) :234–239.

[Reeve, 2005] Reeve, L. (2005). Survey of semantic annotation platforms. In Proceedings of the2005 ACM Symposium on Applied Computing, pages 1634–1638. ACM Press.

[Ren and Bracewell, 2009] Ren, F. and Bracewell, D. B. (2009). Advanced information retrieval.Electron. Notes Theor. Comput. Sci., 225 :303–317.

[Renard et al., 2009] Renard, A., Calabretto, S., and Rumpler, B. (2009). Recherche d’informa-tion sémantique : Appariement sémantique flou de documents semi-structurés. Atelier RISE- INFORSID.

221

Page 241: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Reymonet et al., 2007] Reymonet, A., Thomas, J., and Aussenac-Gilles, N. (2007). Modellingontological and terminological resources in owl dl. Proceedings of ISWC, 7.

[Rocha et al., 2004] Rocha, C., Schwabe, D., and Aragao, M. P. (2004). A hybrid approach forsearching in the semantic web. In Proceedings of the 13th international conference on WorldWide Web, WWW ’04, pages 374–383, New York, NY, USA. ACM.

[Rouane et al., 2007] Rouane, M. H., Huchard, M., Napoli, A., and Valtchev, P. (2007). Aproposal for combining formal concept analysis and description logics for mining relationaldata. In Proceedings of the 5th international conference on Formal concept analysis, ICFCA2007, LNAI, pages 51–65. Springer-Verlag.

[Rouane et al., 2010] Rouane, M. H., Huchard, M., Napoli, A., and Valtchev, P. (2010). Usingformal concept analysis for discovering knowledge patterns. In CLA’10 : 7th InternationalConference on Concept Lattices and Their Applications, CEUR, pages 223–234. University ofSevilla.

[Rouane et al., 2013] Rouane, M. H., Huchard, M., Napoli, A., and Valtchev, P. (2013). Rela-tional concept analysis : mining concept lattices from multi-relational data. Annals of Mathe-matics and Artificial Intelligence, 67(1) :81–108.

[Rouane-Hacene et al., 2010] Rouane-Hacene, M., Fennouh, S., Nkambou, R., and Valtchev, P.(2010). Refactoring of ontologies : Improving the design of ontological models with conceptanalysis. In Tools with Artificial Intelligence (ICTAI), 2010 22nd IEEE International Confe-rence on, volume 2, pages 167–172.

[Ruhl, 1997] Ruhl, J. B. (1997). Thinking of environmental law as a complex adaptive system :how to clean up the environment by making a mess of environmental law. Hous. L. Rev.,34 :933–1002.

[Saada et al., 2012] Saada, H., Dolques, X., Huchard, M., Nebut, C., and Sahraoui, H. A. (2012).Learning model transformations from examples using fca : One for all or all for one ? In CLA,Proceedings of The Ninth International Conference on Concept Lattices and Their Applica-tions, Fuengirola (Málaga), Spain, October 11-14, volume 972 of CEUR Workshop Proceedings,pages 45–56. CEUR-WS.org.

[Salton et al., 1975] Salton, G., Wong, A., and Yang, C. S. (1975). A vector space model forautomatic indexing. Commun. ACM, 18(11) :613–620.

[Sartor et al., 2010] Sartor, G., Palmirani, M., Francesconi, E., and Biasiotti, M. A. (2010). Le-gislative XML for the Semantic Web. Springer-Verlag.

[Sartor et al., 2011] Sartor, G., Palmirani, M., Francesconi, E., and Biasiotti, M. A. (2011). Law,Governance and Technology : Legislative Xml for the Semantic Web : Principles, Models,Standards for Document Management. Law, Governance and Technology Series, 4. SpringerLondon, Limited.

[Savvas and Bassiliades, 2009] Savvas, I. and Bassiliades, N. (2009). A process-oriented ontology-based knowledge management system for facilitating operational procedures in public admi-nistration. Expert Systems with Applications, 36(3, Part 1) :4467 – 4478.

[Schaeffer, 2007] Schaeffer, S. E. (2007). Graph clustering. Computer Science Review, 1(1) :27–64.

[Shaheed, 2005] Shaheed, J. (2005). A top-level language-biased legal ontology. In In : WorkshopProceedings, Legal Ontologies and Artificial Intelligence Techniques, International Associationfor Artificial Intelligence and Law, Workshop Series No 4, Wolf Legal Publishers, 2005, pages13–24.

222

Page 242: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

[Shi et al., 2011] Shi, L., Toussaint, Y., Napoli, A., and Blansché, A. (2011). Mining for reengi-neering : An application to semantic wikis using formal and relational concept analysis. In TheSemanic Web : Research and Applications - 8th Extended Semantic Web Conference, ESWC2011, Heraklion, Crete, Greece, May 29 - June 2, Proceedings, Part II, volume 6644 of LectureNotes in Computer Science, pages 421–435. Springer.

[Sintek and Decker, 2002] Sintek, M. and Decker, S. (2002). Triple - a query, inference, andtransformation language for the semantic web. In Proceedings of the First International Se-mantic Web Conference on The Semantic Web, ISWC ’02, pages 364–378, London, UK, UK.Springer-Verlag.

[Smaïl-Tabbone et al., 2005] Smaïl-Tabbone, M., Osman, S., Messai, N., Napoli, A., and De-vignes, M.-D. (2005). Bioregistry : A structured metadata repository for bioinformatic da-tabases. In Computational Life Sciences, First International Symposium, CompLife 2005,Konstanz, Germany, September 25-27, 2005, Proceedings, pages 46–56.

[Strok and Neznanov, 2010] Strok, F. and Neznanov, A. (2010). Comparing and analyzing thecomputational complexity of fca algorithms. In Proceedings of the 2010 Annual ResearchConference of the South African Institute of Computer Scientists and Information Technolo-gists, SAICSIT ’10, pages 417–420, New York, NY, USA. ACM.

[Studer et al., 1998] Studer, R., Benjamins, V., and Fensel, D. (1998). Knowledge engineering :Principles and methods. Data and Knowledge Engineering, 25(1-2) :161 – 197.

[Stumme et al., 2002] Stumme, G., Taouil, R., Bastide, Y., Pasquier, N., and Lakhal, L. (2002).Computing iceberg concept lattices with titanic. Data Knowl. Eng., 42(2) :189–222.

[Tiscornia, ] Tiscornia, D. The lois project : Lexical ontologies for legal information sharing.Library, 2000(1) :189–204.

[Tullock, 1995] Tullock, G. (1995). On the desirable degree of detail in the law. European Journalof Law and Economics, 2 :199–209.

[Unger et al., 2012] Unger, C., Bühmann, L., Lehmann, J., Ngonga, A.-C. N., Gerber, D., andCimiano, P. (2012). Template-based question answering over rdf data. In Proceedings of the21st international conference on World Wide Web, WWW ’12, pages 639–648. ACM.

[Uren et al., 2006a] Uren, V., Cimiano, P., Iria, J., Handschuh, S., Vargas-Vera, M., Motta, E.,and Ciravegna, F. (2006a). Semantic annotation for knowledge management : Requirementsand a survey of the state of the art. Journal of Web Semantics, 4.

[Uren et al., 2006b] Uren, V., Cimiano, P., Iria, J., Handschuh, S., Vargas-Vera, M., Motta, E.,and Ciravegna, F. (2006b). Semantic annotation for knowledge management : Requirementsand a survey of the state of the art. Web Semant., 4(1) :14–28.

[Vallet et al., 2005] Vallet, D., Fernandez, M., and Castells, P. (2005). An ontology-based infor-mation retrieval model. In In ESWC, pages 455–470. Springer.

[Valtchev et al., 2002] Valtchev, P., Missaoui, R., and Lebrun, P. (2002). A partition-basedapproach towards constructing galois (concept) lattices. Discrete Math., 256(3) :801–829.

[Ven et al., 2007] Ven, S. V. D., Hoekstra, R., and Winkels, R. (2007). Metavex : Regulationdrafting meets the semantic web. In In Proc. of the Workshop on Semantic Web technologyfor Law (SW4Law).

[Ventos and Soldano, 2005] Ventos, V. and Soldano, H. (2005). Les treillis de galois alpha. Revued’Intelligence Artificielle, 19(4-5) :799–827.

223

Page 243: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Bibliographie

[Voorhees, 1994] Voorhees, E. M. (1994). Query expansion using lexical-semantic relations. InProceedings of the 17th Annual International ACM SIGIR Conference on Research and Deve-lopment in Information Retrieval, SIGIR ’94, pages 61–69.

[Waiyamai and Lakhal, 2000] Waiyamai, K. and Lakhal, L. (2000). Knowledge discovery fromvery large databases using frequent concept lattices. In Lopez de Mantaras, R. and Plaza, E.,editors, Machine Learning : ECML 2000, volume 1810 of Lecture Notes in Computer Science,pages 437–445. Springer Berlin Heidelberg.

[Wang and Xu, 2000] Wang, N. and Xu, X. (2000). A method to build ontology. In High Per-formance Computing in the Asia-Pacific Region, 2000. Proceedings. The Fourth InternationalConference/Exhibition on, volume 2, pages 672–673 vol.2.

[Wijaya and Bressan, 2006] Wijaya, D. T. and Bressan, S. (2006). Clustering web documentsusing co-citation, coupling, incoming, and outgoing hyperlinks : a comparative performanceanalysis of algorithms. IJWIS, 2(2) :69–76.

[Wille, 1982] Wille, R. (1982). Restructuring lattice theory : an approach based on hierarchiesof concepts. Ordered sets, pages 445–470.

[Wille, 1984] Wille, R. (1984). Line diagrams of hierarchical concept systems. InternationalClassification, 2 :77–86.

[Winkels et al., 2003] Winkels, R., Boer, A., and Hoekstra, R. (2003). Metalex : An xml standardfor legal documents. In Proceedings of the XML Europe Conference, London (UK).

[Winkels et al., 2013] Winkels, R., Boer, A., and Plantevin, I. (2013). Creating context networksin dutch legislation. In [Ashley, 2013], pages 155–164.

[Winkels and de Ruyter, 2011] Winkels, R. and de Ruyter, J. (2011). Survival of the fittest :Network analysis of dutch supreme court cases. In [Palmirani et al., 2012b], pages 106–115.

[Wray and Eklund, 2011] Wray, T. and Eklund, P. W. (2011). Exploring the information spaceof cultural collections using formal concept analysis. In Formal Concept Analysis - 9th Inter-national Conference, ICFCA, pages 251–266.

[Wyner and Hoekstra, 2012] Wyner, A. and Hoekstra, R. (2012). A legal case owl ontology withan instantiation of popov v. hayashi. Artificial Intelligence and Law, 20(1) :83–107.

[Yan et al., 2011] Yan, S., Lee, D., and Wang, A. H. (2011). Costco : Robust content and struc-ture constrained clustering of networked documents. In Computational Linguistics and Intelli-gent Text Processing - 12th International Conference, CICLing 2011, Tokyo, Japan, February20-26, 2011. Proceedings, Part II, Lecture Notes in Computer Science, pages 289–300.

[Yoo et al., 2007] Yoo, I., Hu, X., and Song, I.-Y. (2007). A coherent graph-based semanticclustering and summarization approach for biomedical literature and a new summarizationevaluation method. BMC Bioinformatics, 8(S-9).

[Zargayouna, 2004] Zargayouna, H. (2004). Contexte et sémantique pour une indexation dedocuments semi-structurés. In CORIA, pages 161–178.

224

Page 244: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

Résumé

Une collection documentaire est généralement représentée comme un ensemble de documentsmais cette modélisation ne permet pas de rendre compte des relations intertextuelles et ducontexte d’interprétation d’un document. Le modèle documentaire classique trouve ses limitesdans les domaines spécialisés où les besoins d’accès à l’information correspondent à des usagesspécifiques et où les documents sont liés par de nombreux types de relations. Ce travail de thèsepropose deux modèles permettant de prendre en compte cette complexité des collections docu-mentaire dans les outils d’accès à l’information. Le premier modèle est basée sur l’analyse formelleet relationnelle de concepts, le deuxième est basée sur les technologies du web sémantique. Ap-pliquées sur des objets documentaires ces modèles permettent de représenter et d’interroger demanière unifiée les descripteurs de contenu des documents et les relations intertextuelles qu’ilsentretiennent.

Mots-clés: Réseau de documents, Intertextualité, Recherche d’information, Analyse formelle etrelationnelle de concepts, Ontologies.

Abstract

A collection of documents is generally represented as a set of documents but this simplerepresentation does not take into account cross references between documents, which often de-fines their context of interpretation. This standard document model is less adapted for specificprofessional uses in specialized domains in which documents are related by many various refer-ences and the access tools need to consider this complexity. We propose two models based onformal and relational concept analysis and on semantic web techniques. Applied on documentaryobjects, these two models represent and query in a unified way documents content descriptorsand documents relations.

Keywords: Document network, Intertextuality, Information Retrieval, Formal and RelationalConcept Analysis, Ontologies.

Page 245: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation
Page 246: Interrogation d’un r eseau s emantique de documents : … · 2016. 12. 23. · Groupe Math ematique, Informatique, Signal Sorbonne Paris Cit e Ecole doctorale Galil ee Interrogation

227